Компания xAI 3 июня представила Grok Imagine 1.5 Preview — модель, которая превращает одну статичную картинку в короткое видео. Даёшь стоп-кадр и текстовое описание движения — модель досочиняет сцену с камерой, освещением и физикой.
Технические параметры скромные: максимум 720p и 15 секунд. Зато модель сохраняет детали и освещение исходного изображения вместо того, чтобы переинтерпретировать его.
На площадке Artificial Analysis Video Arena в категории «из картинки в видео с аудио» Grok Imagine занял второе место — сразу за Seedance 2.0 от ByteDance. Без аудио — третье место. Но на Design Arena, где оценки выставляют живые люди через краудсорсинг, модель взяла первое место с рейтингом Elo 1357, обойдя тот же Seedance 2.0.
Показательно сравнение с Veo 3.1 от Google. В тесте с застёгиванием молнии и макияжем перед зеркалом Grok справился корректно, а Veo 3.1 запутался: на отражении в зеркале у женщины оказалась одежда другого цвета, чем в реальности.
Стоимость — $8,40 за минуту видео. Для сравнения, среднее время генерации составляет 41,2 секунды, а 480p обходится по $0,01 за изображение и $0,08 за секунду.
Модель доступна через xAI API в режиме превью.