Французская AI-компания Mistral выпустила открытую модель преобразования текста в речь — Voxtral TTS. Модель настолько компактна, что работает прямо на смартфоне или смарт-часах.
Voxtral TTS поддерживает девять языков: английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди и арабский. Для клонирования голоса достаточно пяти секунд записи — модель улавливает акцент, интонации и особенности речи.
Модель построена на базе Ministral 3B и оптимизирована для работы в реальном времени. Время до первого звука после получения запроса — 90 миллисекунд. Один 10-секундный фрагмент синтезируется примерно за 1,6 секунды.
Пьер Сток, вице-президент по научным операциям Mistral, объяснил философию продукта просто: «Мы сделали маленькую модель, которая помещается на смарт-часах, смартфоне или ноутбуке. Стоит в разы дешевле аналогов, но даёт качество уровня лучших решений на рынке».
Mistral напрямую конкурирует с ElevenLabs, Deepgram и OpenAI. Ставка компании — открытый исходный код и возможность тонкой настройки под нужды бизнеса. Голосовую модель планируют использовать для голосовых агентов в продажах и поддержке клиентов.
Ранее в этом году Mistral уже выпустила две модели распознавания речи — одну для пакетной обработки, другую для реального времени. Voxtral TTS закрывает цикл: теперь у компании есть полный стек для работы с голосом.
По словам Стока, цель — создать мультимодальную платформу, которая обрабатывает аудио, текст и изображения на входе и выходе. Голосовая модель — первый шаг к этому.