Microsoft представила новую систему с открытым исходным кодом под названием VibeVoice. Эта технология превращает текст в аудиоподкасты длительностью до 90 минут на английском или китайском языке. Разработчики обещают добавить другие языки в будущих версиях.
Главная особенность системы — способность создавать диалоги с участием до четырех разных голосов. Это заметно превосходит возможности других похожих моделей, которые обычно ограничены одним-двумя спикерами.
Узнать подробнее про клуб ShareAI
Сейчас доступны две версии VibeVoice. Модель с 1,5 млрд параметров генерирует до 90 минут аудио и работает с текстами длиной до 64 тысяч токенов. Более крупная версия на 7 млрд параметров создает аудио до 45 минут и обрабатывает тексты до 32 тысяч токенов.
Microsoft также планирует выпустить легкую версию на 0,5 млрд параметров для работы в реальном времени. Для локального запуска меньшей модели нужно около 7 ГБ видеопамяти, а для большей — до 18 ГБ.
VibeVoice умеет передавать эмоции и создавать естественные переходы между репликами разных участников. Хотя голоса звучат довольно реалистично, их искусственное происхождение все же заметно. Попытки синтезировать музыку пока не удаются.
В перспективе разработчики рассматривают возможность добавить функцию клонирования голоса.