Mistral выпустил первую открытую аудиомодель Voxtral

Французский ИИ-стартап Mistral представил свою первую открытую аудиомодель Voxtral, которая позиционируется как первая открытая модель, способная обеспечить “действительно функциональный речевой интеллект в производственной среде”.

Технические возможности Voxtral включают транскрибирование до 30 минут аудиозаписи. Благодаря фундаменту в виде языковой модели Mistral Small 3.1, система способна анализировать до 40 минут контента, что позволяет пользователям задавать вопросы об аудиосодержании, генерировать резюме или преобразовывать голосовые команды в действия в реальном времени, такие как вызов API или запуск функций.

Модель обладает многоязычными возможностями и поддерживает транскрипцию и понимание английского, испанского, французского, португальского, хинди, немецкого, голландского и итальянского языков.

Компания предлагает две модификации своих “моделей понимания речи”.

Первая - Voxtral Small с 24 миллиардами параметров для крупномасштабных производственных внедрений, конкурирующая с ElevenLabs Scribe, GPT-4o-mini и Gemini 2.5 Flash.

Вторая - Voxtral Mini с 3 миллиардами параметров для локальных развертываний и периферийных устройств.

Дополнительно выпущена упрощенная версия 3-миллиардной модели - Voxtral Mini Transcribe, оптимизированная исключительно для задач транскрипции и, по заявлениям разработчиков, превосходящая OpenAI Whisper при вдвое меньшей стоимости.

Для бизнеса Voxtral предлагает экономически эффективную альтернативу, которая, как утверждает компания, “менее чем вдвое дешевле” сопоставимых решений. Пользователи могут бесплатно протестировать Voxtral, загрузив API на платформе Hugging Face или опробовав модели в чат-боте компании Le Chat.