Сбербанк объяснил, зачем России собственный ИИ — и почему без английских данных не обойтись

Сбербанк объяснил, зачем России собственный ИИ — и почему без английских данных не обойтись

Сбербанк обучает GigaChat с нуля — без заимствования открытых архитектур вроде Llama или Mistral. По словам старшего вице-президента банка Антона Фролова, только так можно получить настоящий технологический суверенитет: полный контроль над этапом предобучения (pre-training) и защиту от риска, что иностранная компания в любой момент закроет доступ к своей модели.

Такой подход требует в разы больше GPU-мощностей, чем дообучение готовой открытой модели. Но Фролов считает, что адаптация чужих моделей под свои нужды часто ломает их базовые знания — и проблему всё равно не решает.

Парадокс с данными

При этом полностью отказаться от иностранного контента не получится. Большинство знаний в мире существует на английском языке — игнорировать их значит заведомо обучить слабую модель. Стратегия Сбербанка: брать английские данные, но при обучении искусственно повышать вес русских текстов, культурного контекста и локальных знаний.

Проблему наглядно иллюстрирует простой тест: попросите ИИ нарисовать Винни-Пуха. Модель, обученная преимущественно на западных данных, выдаст диснеевского медвежонка — не советского из мультфильма 1969–1972 годов.

Решение — оцифровка. Российские архивы, библиотеки и исторические документы десятилетиями существовали только на бумаге. Сейчас этот массив активно переводят в цифру — и он постепенно пополняет датасеты для обучения.

Законодательная рамка

19 марта 2026 года Минцифры внесло законопроект, который впервые закрепляет понятия «суверенной» и «национальной» ИИ-модели на уровне закона. Критерии: разработана отечественными специалистами, обучена на российских данных, права принадлежат гражданам или юрлицам РФ.

Отдельный статус — «доверенные модели». Они должны пройти проверку ФСБ и ФСТЭК на кибербезопасность и попасть в специальный реестр. Только такие модели планируют допускать к работе в государственных информационных системах и на объектах критической инфраструктуры: в энергетике, финансах, медицине, на транспорте.

Получит ли GigaChat статус суверенной модели в 2026 году, Фролов комментировать не стал.

Анна Маркова
Анна Маркова

Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.