Видеомодели упёрлись в потолок: больше данных не помогает

Консорциум из более 50 исследователей от UC Berkeley, Stanford, Harvard и Oxford выпустил крупнейший датасет для оценки рассуждений в видеомоделях — VBVR. Он в тысячу раз больше предыдущих аналогов: два миллиона изображений, миллион видеоклипов, 200 задач.

Результаты неутешительны. Люди набирают 0,974 балла. Sora 2 от OpenAI — лучшая среди проприетарных моделей — останавливается на 0,546. Veo 3.1 от Google DeepMind — 0,480. Runway Gen-4 Turbo — 0,403. Открытые модели едва дотягивают до 0,37.

Задачи специально подобраны так, чтобы их нельзя было решить по одному кадру: распознавание форм, навигация по лабиринту, симуляция физики. Всё требует понимания того, что происходит во времени.

Главная находка — файнтюнинг спасает, но только до определённой точки. Дообученная версия Wan2.2 (VBVR-Wan2.2) набрала 0,685 — выше любой проприетарной системы. На знакомых типах задач результат дорастает до 0,771 при 400 000 обучающих примеров, а затем стопорится. На новых типах задач — потолок 0,610.

Исследователи считают это архитектурным ограничением, а не проблемой нехватки данных. Проще говоря: если модель во время генерации сама переставляет объекты, меняет фон или переписывает сцену — цепочка рассуждений рассыпается. Sora 2 в задаче на удаление объекта делает лишние перестановки. VBVR-Wan2.2 — только то, что просили.

Анализ корреляций показал неочевидную закономерность: сильные знания о мире помогают пространственному мышлению, но мешают восприятию. Абстрактное мышление не коррелирует ни с чем другим — и у моделей, которые хорошо справляются с абстракцией, хуже получается трансформация и пространственные задачи.

Датасет, бенчмарк и модели опубликованы в открытом доступе. Авторы прямо говорят: без архитектурных изменений — механизмов отслеживания состояния и самокоррекции — этот потолок не сдвинуть.