Microsoft представила открытый ИИ для генерации подкастов

Microsoft представила новую систему с открытым исходным кодом под названием VibeVoice. Эта технология превращает текст в аудиоподкасты длительностью до 90 минут на английском или китайском языке. Разработчики обещают добавить другие языки в будущих версиях.

Главная особенность системы — способность создавать диалоги с участием до четырех разных голосов. Это заметно превосходит возможности других похожих моделей, которые обычно ограничены одним-двумя спикерами.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Сейчас доступны две версии VibeVoice. Модель с 1,5 млрд параметров генерирует до 90 минут аудио и работает с текстами длиной до 64 тысяч токенов. Более крупная версия на 7 млрд параметров создает аудио до 45 минут и обрабатывает тексты до 32 тысяч токенов.

Microsoft также планирует выпустить легкую версию на 0,5 млрд параметров для работы в реальном времени. Для локального запуска меньшей модели нужно около 7 ГБ видеопамяти, а для большей — до 18 ГБ.

VibeVoice умеет передавать эмоции и создавать естественные переходы между репликами разных участников. Хотя голоса звучат довольно реалистично, их искусственное происхождение все же заметно. Попытки синтезировать музыку пока не удаются.

В перспективе разработчики рассматривают возможность добавить функцию клонирования голоса.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.