Сбер выпустил сразу 3 ИИ-модели: распознавание речи, чат-бот и эмбеддинги

Они специально разработаны для русского языка. Особенно примечательно, что все модели не требуют дорогостоящего серверного оборудования и  при этом демонстрируют впечатляющие результаты. Сбер выпустил сразу три мощные модели с открытым исходным кодом,

Флагманом релиза стала GigaChat Lite — первая русскоязычная MoE-модель (Mixture of Experts), насчитывающая 3 млрд активных параметров. Модель превосходит все существующие 8-миллиардные модели в работе с русским языком, хотя немного уступает им в англоязычных тестах.

Одним из ключевых преимуществ GigaChat Lite является внушительный контекстный охват — модель способна обрабатывать до 131 тысячи токенов. Технически модель использует передовой fine-grained MoE подход, аналогичный тому, что применяется в DeepSeek V2.

Вторая модель, GigaEmbeddings, несмотря на компактные 3 млрд параметров, демонстрирует превосходные результаты в обработке текста, превосходя даже 7-миллиардные модели. Это достижение особенно важно для задач семантического анализа и поиска.

Замыкает тройку GigaAMv2 — специализированная модель для распознавания речи. В сравнительных тестах она показывает результаты лучше популярного Whisper, что особенно актуально на фоне растущей тенденции последнего фокусироваться преимущественно на английском языке в ущерб другим языкам.

Ключевое преимущество всех трёх моделей заключается в том, что они изначально разрабатывались для русского языка, а не адаптировались с других языковых моделей. Это исключает частую проблему спонтанного переключения на английский или китайский языки, особенно характерную для квантизированных моделей.

Все три модели доступны на платформе Gitverse.ru, где разработчики могут свободно изучать их код и интегрировать в свои проекты. Этот релиз — важный шаг в развитии русскоязычного искусственного интеллекта, предоставляя разработчикам мощные инструменты для создания более совершенных ИИ-решений на русском языке.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.