Сбер выпустил модель генерации видео по текстовым запросам Kandinsky 4.1

На технологической конференции GigaConf состоялась презентация новой ИИ-модели Kandinsky 4.1 Video, предназначенной для генерации видеоконтента на основе текстовых описаний. Технические возможности Kandinsky 4.1 Video включают генерацию видеороликов продолжительностью до 10 секунд с поддержкой различных разрешений — от стандартного SD (720×576) до высокого HD (1280×720).

Функциональность модели предусматривает два сценария использования: создание видеоконтента на основе текстового описания или посредством указания произвольного стартового кадра. Важной технической особенностью является поддержка любых соотношений сторон видеоизображения.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Первоначальный доступ к технологии предоставлен ограниченному кругу пользователей — участникам конференции GigaConf и отдельным представителям творческих профессий, включая художников и дизайнеров. По заявлению разработчиков, в ближайшей перспективе планируется открытие доступа к инструменту для широкой аудитории пользователей.

Архитектурной основой представленного решения стал диффузионный трансформер. Качественные характеристики генерируемого контента были существенно улучшены благодаря применению методики дообучения (Supervised Fine-Tuning, SFT) на специализированных наборах данных.

Процесс обучения проводился при непосредственном участии профессионального сообщества, включавшего более 100 экспертов с профильным образованием в области дизайна, фотографии и художественного искусства.

Данный подход обеспечил значительное повышение художественной выразительности, композиционной сбалансированности и кинематографических качеств создаваемого видеоматериала.

Внедрение новой архитектуры потребовало увеличения вычислительных ресурсов. Для оптимизации производительности в процессе разработки были применены специализированные методы дистилляции и ускорения.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Сбер выпустил модель генерации видео по текстовым запросам Kandinsky 4.1