Microsoft представила открытый ИИ для генерации подкастов

Microsoft представила новую систему с открытым исходным кодом под названием VibeVoice. Эта технология превращает текст в аудиоподкасты длительностью до 90 минут на английском или китайском языке. Разработчики обещают добавить другие языки в будущих версиях.

Главная особенность системы - способность создавать диалоги с участием до четырех разных голосов. Это заметно превосходит возможности других похожих моделей, которые обычно ограничены одним-двумя спикерами.

Сейчас доступны две версии VibeVoice. Модель с 1,5 млрд параметров генерирует до 90 минут аудио и работает с текстами длиной до 64 тысяч токенов. Более крупная версия на 7 млрд параметров создает аудио до 45 минут и обрабатывает тексты до 32 тысяч токенов.

Microsoft также планирует выпустить легкую версию на 0,5 млрд параметров для работы в реальном времени. Для локального запуска меньшей модели нужно около 7 ГБ видеопамяти, а для большей - до 18 ГБ.

VibeVoice умеет передавать эмоции и создавать естественные переходы между репликами разных участников. Хотя голоса звучат довольно реалистично, их искусственное происхождение все же заметно. Попытки синтезировать музыку пока не удаются.

В перспективе разработчики рассматривают возможность добавить функцию клонирования голоса.