Nvidia выпустила Cosmos 3 — фундаментальную модель для роботов и беспилотников

Nvidia запустила Cosmos 3 — открытую мировую фундаментальную модель для физического ИИ. Она обучена на 20 триллионах токенов мультимодальных данных: почти миллиард изображений, 400 миллионов реальных и синтетических видео, аудио и данные о действиях людей и роботов.

LLM учится на тексте. Cosmos учится на физике: как предметы движутся, падают, сталкиваются и взаимодействуют. При этом модель не просто генерирует реалистичные сцены — она предсказывает, что робот или беспилотник должен сделать в следующий момент.

Главная проблема физического ИИ — данные. Собрать миллионы реальных сценариев вождения в туман, с нестандартными пешеходами и редкими авариями — дорого и опасно. Cosmos решает это синтетикой: вместо лет тест-драйвов разработчик получает миллионы смоделированных ситуаций за дни.

Предыдущие версии Cosmos разделяли физическое рассуждение, генерацию мира и генерацию действий на разные системы. В Cosmos 3 всё объединено в одной модели. Nvidia утверждает, что это сокращает циклы обучения с месяцев до дней.

Экосистема уже работает. Agile Robots, Doosan Robotics, LG и Samsung строят на ней роботизированные приложения. Li Auto использует Cosmos для разработки беспилотников. Mercedes-Benz запустил первый премиальный роботакси-сервис на базе этого стека — через сеть Uber.

Одновременно с моделью Nvidia объявила о создании Cosmos Coalition — глобальной коалиции с участием Black Forest Labs, Runway и других компаний для развития открытых мировых моделей.

AMI Labs, которую основал Янн ЛеКун — один из отцов современного глубокого обучения, — претендует на оценку в $3 млрд. World Labs Фэй-Фэй Ли — исследователя, создавшего ImageNet и бывшего директора AI Stanford HAI, — ведёт переговоры об оценке в $5 млрд. Google DeepMind продвигает Genie 3: она лучше генерирует новые среды из текста, тогда как Cosmos делает ставку на строгую физическую консистентность для промышленных задач.