Google выпустила Gemini Robotics-ER 1.6 — обновлённую ИИ-модель для роботов, которая делает их не просто исполнителями команд, а системами, способными думать в контексте.
Ключевая идея — «воплощённое рассуждение» (embodied reasoning). Робот анализирует картинку с камеры, самостоятельно планирует шаги и определяет, выполнена ли задача. Это критически важно в реальных условиях, где роботам приходится ориентироваться в загромождённых пространствах и принимать решения при неполных или меняющихся данных.
Главная новинка — умение читать физические приборы. Датчики давления, смотровые стёкла, цифровые дисплеи. Эту функцию разрабатывали совместно с Boston Dynamics: их робот Spot патрулирует промышленные объекты и проверяет оборудование. Марко да Силва, вице-президент Boston Dynamics, отвечающий за направление Spot, говорит, что теперь робот способен видеть, понимать и реагировать на реальные проблемы полностью автономно.
Точность считывания приборов выросла с 23% до 93%. Достигается это за счёт агентного зрения — модель самостоятельно приближает нужный участок изображения, находит стрелку или отметку и вычисляет значение.
Модель также стала лучше работать с несколькими камерами одновременно — например, с верхней и той, что установлена на запястье робота. Это помогает не теряться в загромождённых пространствах или когда часть обзора перекрыта.
Google называет Gemini Robotics-ER 1.6 своей самой безопасной моделью для робототехники: она лучше распознаёт опасные ситуации и следует физическим ограничениям безопасности.
Модель уже доступна разработчикам через Gemini API и Google AI Studio.