Компания Alibaba представила мультифункциональную модель Wan2.1-VACE, предназначенную для создания и редактирования видеоконтента. Аналитики отрасли уже сейчас характеризуют данное решение как переломное для всего сегмента генеративных видеотехнологий, учитывая беспрецедентное сочетание функциональной гибкости, высокой производительности и доступности для массового использования.
Техническая спецификация Wan2.1-VACE демонстрирует сильные преимущества перед существующими решениями, интегрируя три ключевых модальности взаимодействия: R2V (Reference-to-Video) для генерации видео на основе эталонных изображений, V2V (Video-to-Video) для прямого редактирования видеоматериалов, и MV2V (Masked Video-to-Video) для селективного редактирования определенных областей видеоряда.
Критически важной инновацией является возможность комбинирования этих функциональных режимов для реализации комплексных креативных задач, что создает принципиально новый уровень гибкости в работе с видеоконтентом.
Бенчмарковые испытания подтверждают превосходство Wan2.1 над существующими открытыми моделями и рядом коммерческих решений уровня state-of-the-art по ключевым метрикам эффективности.
Особого внимания заслуживает версия T2V-1.3B, демонстрирующая беспрецедентную ресурсоэффективность — всего 8.19 ГБ видеопамяти, что делает эту технологию совместимой с большинством потребительских графических процессоров.
Практические тесты показывают, что на видеокарте RTX 4090 данная модель способна генерировать пятисекундное видео в разрешении 480P приблизительно за 4 минуты без применения дополнительных оптимизационных техник, таких как квантизация.
Мультизадачность представленной модели выражается в уверенной производительности в спектре задач: текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, что существенно расширяет границы генеративных возможностей.
Технические спецификации подтверждают способность Wan2.1 генерировать видеоматериалы в разрешении до 1080P теоретически неограниченной длительности при сохранении временной когерентности — критического параметра качества для динамического контента.