Alibaba выпустила модель распознавания речи с русским языком

Компания Alibaba представила новую модель для распознавания речи Qwen3-ASR, которая поддерживает русский язык. Разработчики предлагают бесплатную демоверсию и доступ через API.

Модель способна расшифровывать не только обычную речь, но и песни, включая рэп, а также низкокачественные аудиозаписи с фоновым шумом. По данным компании, коэффициент ошибок в таких сложных случаях составляет менее 8%.

Qwen3-ASR работает с 11 языками, среди которых русский, английский, китайский, арабский, испанский и корейский. Важной функцией модели стала возможность задавать список ключевых слов, имен и названий для их правильного распознавания.

Разработчики выложили бесплатные демоверсии на платформах HuggingFace и ModelScope. Для бизнеса и разработчиков Qwen3-ASR доступна через API. Стоимость использования модели составляет $0,000032 за секунду аудио, что по курсу ЦБ на 10 сентября 2025 года равно примерно 0,3 копейки.

Модель от Alibaba стала еще одним инструментом в растущем сегменте технологий распознавания речи, который активно развивается в последние годы. Поддержка русского языка делает Qwen3-ASR полезной для русскоязычных пользователей и компаний, работающих на российском рынке.

Низкая стоимость использования API и наличие бесплатных демоверсий позволяют протестировать возможности модели без значительных затрат. Это открывает путь к внедрению технологии в различные сервисы - от систем автоматической расшифровки интервью до голосовых помощников и систем обслуживания клиентов.

Особенно ценной является способность модели справляться с шумными записями и различными стилями речи, что расширяет сферу ее применения. Возможность настройки под специфические термины и имена также значительно повышает точность распознавания в профессиональных областях.