NVIDIA открыла исходный код Audio2Face

NVIDIA открыла исходный код своей технологии Audio2Face для анимации 3D-персонажей. Компания опубликовала модели, SDK и обучающий фреймворк для создания реалистичных лицевых анимаций на базе аудиоданных.

Audio2Face генерирует лицевые анимации из аудио в режиме реального времени. Система анализирует фонемы и интонацию, затем создает поток анимационных данных для персонажа. Технология обеспечивает синхронизацию губ и эмоциональную мимику.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

В открытый доступ попали несколько компонентов. Audio2Face SDK содержит библиотеки для создания анимаций на устройстве или в облаке. Плагин для Autodesk Maya версии 2.0 позволяет отправлять аудио и получать лицевую анимацию локально. Плагин для Unreal Engine 5 версии 2.5 работает с UE 5.5 и 5.6.

Обучающий фреймворк Audio2Face версии 1.0 дает возможность создавать собственные модели. NVIDIA предоставила примеры данных для начала работы с фреймворком.

Доступны две версии основных моделей. Регрессионная модель версии 2.2 и диффузионная модель версии 3.0 генерируют синхронизацию губ. Модели Audio2Emotion версий 2.2 и 3.0 определяют эмоциональное состояние по аудио.

Технология уже используется в игровой индустрии, медиа и клиентском сервисе. Audio2Face интегрировали компании Convai, Codemasters, GSC Games World, Inworld AI, NetEase, Reallusion, Perfect World Games, Streamlabs и UneeQ Digital Humans.

Открытие кода позволит разработчикам адаптировать технологию под свои задачи. Сообщество сможет добавлять функции и оптимизировать систему для разных случаев использования.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.