Сбер опубликовал GigaChat 3 в открытом доступе под лицензией MIT. Это самая большая языковая модель для русского языка из когда-либо созданных. Модель построена на архитектуре MoE и содержит 702 млрд параметров. Предыдущий рекорд принадлежал Яндексу с моделью YaLM 100B три года назад.
Линейка включает три версии. GigaChat3-702B-A36B-preview — Instruct-модель с 702 млрд параметров и 36 млрд активных. Число экспертов пока не раскрыто. GigaChat3-10B-A1.8B — легкая Instruct-модель для быстрого инференса. GigaChat3-10B-A1.8B-base — претрейн чекпоинт легкой версии для файнтюнинга.
Узнать подробнее про клуб ShareAI
Все модели используют MoE с Multi-head Latent Attention и Multi-Token Prediction. В предобучение включены языки СНГ, китайский и арабский.
Ключевой вклад в качество внесла синтетика. Сгенерировано около 5,5 трлн токенов синтетических данных. Корпус включает вопросы-ответы к текстам, цепочки reverse-prompt для структурирования, LLM-заметки с комментариями от модели, миллионы синтетических задач по математике и олимпиадному программированию с синтетическими тестами на основе PromptCot.
На MMLU_RU и русскоязычных бенчмарках MERA модель превосходит предыдущие версии и Qwen3. В LiveCodeBench, MATH_500 и GPQA результаты отстают от Qwen. Но для модели, ориентированной на улучшение русского языка, это не критично.
Технический отчет ожидается позже. Нужны дополнительные сравнения с русскоязычными моделями. Но вклад в опен-сорс уже сейчас значителен.
Релиз меняет ситуацию для разработчиков русскоязычных моделей. Теперь можно перестать тюнить Qwen и работать с нативной русской моделью. Претрейн чекпоинта самой большой модели нет. Но никто не запрещает взять Instruct чекпоинт и делать посттренинг со своими данными прямо поверх него.
Сообщество уже проявляет интерес к освоению модели. Открытие кода под MIT дает полную свободу для экспериментов и коммерческого использования. Это снимает ограничения, которые были у закрытых решений.
MoE-архитектура позволяет достичь высокой производительности при меньших вычислительных затратах. Активируется только часть параметров для каждого запроса. Это делает модель эффективнее полносвязных аналогов того же размера.
Синтетические данные в объеме 5,5 трлн токенов — беспрецедентный масштаб для русскоязычной модели. Это больше, чем доступно реальных текстов в интернете. Генерация синтетики решает проблему нехватки качественных данных.
Поддержка языков СНГ расширяет применимость модели в регионе. Многие задачи требуют понимания нескольких языков одновременно. Мультиязычность встроена на уровне предобучения.

