Компания Alibaba представила мультифункциональную модель Wan2.1-VACE, предназначенную для создания и редактирования видеоконтента. Аналитики отрасли уже сейчас характеризуют данное решение как переломное для всего сегмента генеративных видеотехнологий, учитывая беспрецедентное сочетание функциональной гибкости, высокой производительности и доступности для массового использования.
Техническая спецификация Wan2.1-VACE демонстрирует сильные преимущества перед существующими решениями, интегрируя три ключевых модальности взаимодействия: R2V (Reference-to-Video) для генерации видео на основе эталонных изображений, V2V (Video-to-Video) для прямого редактирования видеоматериалов, и MV2V (Masked Video-to-Video) для селективного редактирования определенных областей видеоряда.
Узнать подробнее про клуб ShareAI
Критически важной инновацией является возможность комбинирования этих функциональных режимов для реализации комплексных креативных задач, что создает принципиально новый уровень гибкости в работе с видеоконтентом.
Бенчмарковые испытания подтверждают превосходство Wan2.1 над существующими открытыми моделями и рядом коммерческих решений уровня state-of-the-art по ключевым метрикам эффективности.
Особого внимания заслуживает версия T2V-1.3B, демонстрирующая беспрецедентную ресурсоэффективность — всего 8.19 ГБ видеопамяти, что делает эту технологию совместимой с большинством потребительских графических процессоров.
Практические тесты показывают, что на видеокарте RTX 4090 данная модель способна генерировать пятисекундное видео в разрешении 480P приблизительно за 4 минуты без применения дополнительных оптимизационных техник, таких как квантизация.
Мультизадачность представленной модели выражается в уверенной производительности в спектре задач: текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, что существенно расширяет границы генеративных возможностей.
Технические спецификации подтверждают способность Wan2.1 генерировать видеоматериалы в разрешении до 1080P теоретически неограниченной длительности при сохранении временной когерентности — критического параметра качества для динамического контента.