Сбер презентовал GigaChat Audio — принципиально новую мультимодальную модель, отказавшуюся от традиционной двухэтапной обработки звука. Главное техническое отличие новинки заключается в том, что она не использует стандартную связку ASR + LLM, на которой базируются практически все существующие решения.
Вместо привычной транскрипции звука в текст с последующей обработкой, модель понимает аудиосигнал напрямую по схеме end-to-end, что открывает новые перспективы для качества распознавания речи. По данным Сбера, GigaChat Audio сравнялся с GPT-4o по полезности, фактологической точности и грамматической грамотности.
В сравнительном исследовании side-by-side на массиве из 1200 диалогов GigaChat Audio продемонстрировал более чем двукратное превосходство над прежней схемой обработки. Точность понимания речи у новой модели составила впечатляющие 0.68 против 0.32 у старой системы, использующей связку ASR и GigaChat.
Функциональные возможности GigaChat Audio выходят далеко за рамки простого распознавания речи. Модель справляется с задачами, которые оказываются непосильными даже для некоторых топовых LLM с аудиовходом — она умеет пересказывать, резюмировать и отвечать на вопросы по длинным аудиозаписям, будь то лекции или подкасты.
Важным преимуществом российской разработки стала её языковая универсальность. GigaChat Audio уже сейчас свободно говорит на русском и английском языках, но архитектура модели позволяет обобщаться и на другие языки, что делает её потенциально глобальным продуктом.
Для всех желающих оценить возможности новой технологии Сбер предоставил удобный доступ через веб-версию giga.chat, а также через популярный мессенджер Telegram с помощью бота @gigachat_bot. Это позволит модели получить массовое тестирование в различных сценариях использования.