Tencent представляет систему видео-аватаров с аудиоконтентом Hunyuan Video Avatar

Корпорация Tencent расширила свой технологический портфель в сфере генеративных медиатехнологий, представив Hunyuan Video Avatar — комплексную систему создания динамических видеоаватаров, синхронизированных с аудиоконтентом. Решение базируется на фундаментальной архитектуре мультимодальной диффузионной модели MM-DiT.

Техническая архитектура решения представляет собой интегрированную систему модулей, обеспечивающих симультанную обработку нескольких типов входных данных с сохранением высокой степени идентичности генерируемого контента исходному изображению. Разработчикам удалось преодолеть фундаментальные сложности, связанные с координацией мультиперсонажных сцен и синхронизацией аудиовизуальных сигналов различной модальности.

Центральным компонентом Hunyuan Video Avatar выступает модуль инъекции изображения персонажа (Character image injection module), обеспечивающий сохранение идентичности субъекта в процессе генерации динамического видеоконтента.

Алгоритмическая основа модуля реализует контроль устойчивости ключевых биометрических параметров — таких как черты лица, структура прически и общие контуры фигуры — на протяжении всего сгенерированного видеофрагмента, одновременно обеспечивая естественность движений и мимических реакций.

Вторым критическим элементом системы является модуль эмоциональной аудиообработки (Audio Emotion Module, AEM), отвечающий за корреляцию эмоциональных состояний, визуализируемых на лице персонажа, с просодическими характеристиками аудиодорожки. Технология обеспечивает высокоточное сопоставление мимических паттернов с эмоциональной семантикой речевого сигнала, что значительно повышает реалистичность синтезированного контента.

Технологическим дополнением к базовым модулям выступает адаптер лицевого аудиораспознавания (Face-Aware Audio Adapter, FAA), обеспечивающий семантическое соотнесение речевого сигнала с конкретным персонажем в мультисубъектных сценах.

Данный компонент реализует функциональность «умной маски», активирующей мимические реакции только релевантного персонажа в ответ на соответствующий аудиофрагмент.

При оценке эффективности полнокадровой анимации на проприетарном датасете система также продемонстрировала преимущество перед конкурентными решениями Hallo3, FantasyTalking и OmniHuman-1, достигнув показателей 4,66 по IQA, 3,03 по ASE и 5,56 по Sync-C.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.