На технологической конференции GigaConf состоялась презентация новой ИИ-модели Kandinsky 4.1 Video, предназначенной для генерации видеоконтента на основе текстовых описаний. Технические возможности Kandinsky 4.1 Video включают генерацию видеороликов продолжительностью до 10 секунд с поддержкой различных разрешений — от стандартного SD (720×576) до высокого HD (1280×720).
Функциональность модели предусматривает два сценария использования: создание видеоконтента на основе текстового описания или посредством указания произвольного стартового кадра. Важной технической особенностью является поддержка любых соотношений сторон видеоизображения.
Первоначальный доступ к технологии предоставлен ограниченному кругу пользователей — участникам конференции GigaConf и отдельным представителям творческих профессий, включая художников и дизайнеров. По заявлению разработчиков, в ближайшей перспективе планируется открытие доступа к инструменту для широкой аудитории пользователей.
Архитектурной основой представленного решения стал диффузионный трансформер. Качественные характеристики генерируемого контента были существенно улучшены благодаря применению методики дообучения (Supervised Fine-Tuning, SFT) на специализированных наборах данных.
Процесс обучения проводился при непосредственном участии профессионального сообщества, включавшего более 100 экспертов с профильным образованием в области дизайна, фотографии и художественного искусства.
Данный подход обеспечил значительное повышение художественной выразительности, композиционной сбалансированности и кинематографических качеств создаваемого видеоматериала.
Внедрение новой архитектуры потребовало увеличения вычислительных ресурсов. Для оптимизации производительности в процессе разработки были применены специализированные методы дистилляции и ускорения.