Google проверила способность Veo 3 понимать физический мир

Google DeepMind опубликовала исследование, в котором проверила способность модели Veo 3 понимать физику и логику нашего мира. Компания протестировала свою видеомодель на широком наборе задач, чтобы оценить ее потенциал как системы для моделирования мира.

Google уже длительное время заявляет, что Veo — это не просто инструмент для создания видео, а потенциально полноценная система моделирования мира. Такие модели могут стать основой для обучения следующего поколения ИИ-систем, агентов и роботов.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Исследователи проверили Veo 3 на различных заданиях, включая прохождение лабиринтов, моделирование физических процессов, решение визуальных задач на логическое мышление и распознавание свойств объектов.

Тестирование показало, что модель действительно способна решать широкий спектр задач, для которых она специально не обучалась. Например, она справляется с обнаружением объектов, хотя этот навык не был напрямую заложен при обучении.

Veo 3 успешно решает задачи, требующие пошагового визуального мышления, которое авторы называют Chain-of-Frames (цепочка кадров) — аналог Chain-of-Thought (цепочка мыслей) в текстовых моделях. На лабиринтах размером 5 на 5 клеток точность модели достигает 78% при показателе pass@10, что является хорошим результатом для модели такого типа.

Модель также демонстрирует понимание физики и может моделировать сложные явления, такие как плавучесть, трение, отражение, преломление света и другие физические процессы.

На основе проведенных тестов исследователи делают вывод, что подобные видеомодели можно рассматривать как альтернативный путь развития искусственного интеллекта, отличный от обучения на текстовых данных. Хотя эта технология все еще находится на ранней стадии развития, результаты выглядят многообещающе.

Многие ученые, включая Яна Лекуна из Meta, считают, что именно отсутствие понимания материального мира является основной проблемой современных языковых моделей, которая отделяет их от достижения общего искусственного интеллекта (AGI). В этом контексте исследование Google DeepMind приобретает особую значимость для будущего развития искусственного интеллекта.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.