Сбер выпустил GigaChat 3 на 702 млрд параметров в открытый доступ

Сбер опубликовал GigaChat 3 в открытом доступе под лицензией MIT. Это самая большая языковая модель для русского языка из когда-либо созданных. Модель построена на архитектуре MoE и содержит 702 млрд параметров. Предыдущий рекорд принадлежал Яндексу с моделью YaLM 100B три года назад.

Линейка включает три версии. GigaChat3-702B-A36B-preview — Instruct-модель с 702 млрд параметров и 36 млрд активных. Число экспертов пока не раскрыто. GigaChat3-10B-A1.8B — легкая Instruct-модель для быстрого инференса. GigaChat3-10B-A1.8B-base — претрейн чекпоинт легкой версии для файнтюнинга.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Все модели используют MoE с Multi-head Latent Attention и Multi-Token Prediction. В предобучение включены языки СНГ, китайский и арабский.

Ключевой вклад в качество внесла синтетика. Сгенерировано около 5,5 трлн токенов синтетических данных. Корпус включает вопросы-ответы к текстам, цепочки reverse-prompt для структурирования, LLM-заметки с комментариями от модели, миллионы синтетических задач по математике и олимпиадному программированию с синтетическими тестами на основе PromptCot.

На MMLU_RU и русскоязычных бенчмарках MERA модель превосходит предыдущие версии и Qwen3. В LiveCodeBench, MATH_500 и GPQA результаты отстают от Qwen. Но для модели, ориентированной на улучшение русского языка, это не критично.

Технический отчет ожидается позже. Нужны дополнительные сравнения с русскоязычными моделями. Но вклад в опен-сорс уже сейчас значителен.

Релиз меняет ситуацию для разработчиков русскоязычных моделей. Теперь можно перестать тюнить Qwen и работать с нативной русской моделью. Претрейн чекпоинта самой большой модели нет. Но никто не запрещает взять Instruct чекпоинт и делать посттренинг со своими данными прямо поверх него.

Сообщество уже проявляет интерес к освоению модели. Открытие кода под MIT дает полную свободу для экспериментов и коммерческого использования. Это снимает ограничения, которые были у закрытых решений.

MoE-архитектура позволяет достичь высокой производительности при меньших вычислительных затратах. Активируется только часть параметров для каждого запроса. Это делает модель эффективнее полносвязных аналогов того же размера.

Синтетические данные в объеме 5,5 трлн токенов — беспрецедентный масштаб для русскоязычной модели. Это больше, чем доступно реальных текстов в интернете. Генерация синтетики решает проблему нехватки качественных данных.

Поддержка языков СНГ расширяет применимость модели в регионе. Многие задачи требуют понимания нескольких языков одновременно. Мультиязычность встроена на уровне предобучения.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Сбер выпустил GigaChat 3 на 702 млрд параметров в открытый доступ