Nvidia открыла роботам глаза: Cosmos 3 учит машины понимать реальный мир

Nvidia представила Cosmos 3 — открытую модель мира, которая помогает роботам, беспилотным автомобилям и другим физическим системам ориентироваться в реальной среде. Модель обучена на 20 триллионах токенов мультимодальных данных, включая почти миллиард изображений и 400 миллионов реальных и синтетических видео.

Модель мира — это не просто ещё один языковой ассистент. Это система, которая учит машину предсказывать, как устроен физический мир: что произойдёт, если робот сделает шаг вперёд, как изменится сцена при повороте камеры, где препятствие, а где свободный путь. Без такого понимания роботы работают вслепую — им нужно либо идеально размеченное окружение, либо они просто падают.

Cosmos 3 выходит как открытая модель, то есть разработчики и компании смогут взять её как основу и адаптировать под свои задачи — от складских погрузчиков до хирургических манипуляторов.

Компания давно вышла за пределы видеокарт: сначала CUDA сделала её незаменимой для машинного обучения, теперь она строит целый стек для физического ИИ — от чипов до готовых моделей. Cosmos 3 занимает в этом стеке место фундамента: базовое понимание мира, поверх которого можно строить конкретные приложения.

Конкуренты в этом направлении тоже есть — Google DeepMind и стартапы вроде Physical Intelligence развивают похожие подходы.

Cosmos 3 — ставка Nvidia на то, что она снова окажется в центре этого перехода.