Kandinsky 5.0 Video заняла первое место среди открытых моделей

Российская модель Kandinsky 5.0 Video появилась на международной арене text-to-video. Результаты показали версии Lite и Pro. Pro-версия заняла первое место среди всех открытых моделей в мире. Это редкое событие для российской разработки на глобальном рынке.

По общим показателям Pro-версия уступает лидерам от Google, OpenAI, Alibaba и KlingAI. Но модель достигла паритета с Luma Ray 3 и Minimax Hailuo 2.3. Отрыв по рейтингу ELO составляет максимум 3 балла. При этом доверительный интервал оценки составляет плюс-минус 21 балл.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Lite-версия с 2 миллиардами параметров показала результат лучше первой версии Sora. Это достижение для облегченной модели. Обычно такие версии сильно уступают полноценным решениям по качеству генерации.

Сам факт выхода российской генеративной модели на международный уровень стал неожиданностью. Российские разработки редко конкурируют с ведущими мировыми игроками в области генеративного ИИ. Обычно отечественные модели остаются в рамках локального рынка.

По архитектуре Kandinsky 5.0 Video Pro представляет собой DiT с 19 миллиардами параметров. Модель использует кросс-атеншен на текст для понимания промптов. VAE построен на базе технологии HunyuanVideo.

Модель генерирует видео в формате HD с разрешением 1280 на 768 пикселей. Скорость составляет 24 кадра в секунду. Длительность роликов может быть 5 или 10 секунд. Это стандартные параметры для современных генераторов видео.

Разница между Pro и Lite версиями существенная. Pro содержит 19 миллиардов параметров против 2 миллиардов у Lite. Это отражается на качестве и детализации генерируемых роликов. Но даже облегченная версия показывает конкурентные результаты.

Появление Kandinsky 5.0 Video на арене меняет расклад сил на рынке генеративного видео. Российские разработчики доказали способность создавать решения мирового уровня. Открытый характер модели дает преимущество перед закрытыми системами конкурентов.

Технология text-to-video активно развивается последние два года. Компании соревнуются в качестве генерации, длительности роликов и понимании сложных промптов. Kandinsky 5.0 Video показала, что российские команды могут конкурировать в этой гонке.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.