Alibaba Cloud объявила о выпуске в открытый доступ своих передовых ИИ-моделей для генерации видео. Облачный гигант представил четыре модели серии Wan2.1 – последней версии видео-фундаментальной модели Tongyi Wanxiang (Wan). Среди них две версии с различным количеством параметров: масштабная 14-млрд и компактная 1,3-млрд. Модели T2V-14B, T2V-1.3B, I2V-14B-720P и I2V-14B-480P специализируются на создании высококачественных изображений и видео на основе текстовых и визуальных запросов.
Представленная ранее в этом году серия Wan2.1 стала первой моделью генерации видео с поддержкой текстовых эффектов одновременно на китайском и английском языках. Модель демонстрирует исключительные результаты в создании реалистичной визуализации, точно обрабатывая сложные движения, улучшая качество пикселей и оптимизируя точность выполнения инструкций.
Эффективность разработки подтверждается лидирующей позицией в рейтинге VBench – комплексном наборе тестов для оценки моделей генерации видео. Примечательно, что Wan2.1 – единственная модель с открытым исходным кодом среди топ-5 лидеров рейтинга на платформе Hugging Face.
Согласно данным VBench, серия Wan2.1 достигла впечатляющего общего показателя в 86,22%, лидируя по ключевым параметрам, включая степень динамичности, пространственные отношения, цветопередачу и взаимодействие множественных объектов.
Все модели уже доступны для загрузки в сообществе Model Scope от Alibaba Cloud и на платформе совместной разработки ИИ Hugging Face. Доступ открыт для академических исследователей, научных работников и коммерческих организаций по всему миру.