Сбер анонсировал выпуск GHOST-2.0 – первой модели с открытым исходным кодом для полного переноса головы на изображениях. Что знаменует важный шаг вперед в развитии технологий обработки визуального контента. GHOST-2.0 не только генерирует изображение головы с учетом позы и выражения лица целевого изображения, но и адаптирует её под освещение и общий контекст сцены.
Технология основана на инновационной архитектуре, включающей три специализированных энкодера: портретный энкодер на базе ResNet для обработки всей головы, энкодер идентификации лица с предобученной сетью Arcface и энкодер движения. Для обучения модели использовался тщательно отфильтрованный датасет VoxCeleb2, содержащий 140 000 видео с изображениями более 5000 человек в разрешении 512×512.
Примечательно, что до появления GHOST-2.0 в области полного переноса головы существовало лишь одно значимое решение – модель HeSer, не имевшая открытого исходного кода. Новая разработка Сбера не только делает эту технологию доступной для сообщества разработчиков, но и устраняет ряд технических ограничений предшественника.
Технология находит широкое применение в индустрии развлечений, кинопроизводстве и рекламе, позволяя существенно оптимизировать процессы создания контента как по времени, так и по стоимости. В ближайшее время разработчики обещают опубликовать подробную техническую документацию на arXiv и предоставить доступ к демонстрационной версии модели.