Google научила роботов читать приборы и самим проверять свою работу

Google выпустила Gemini Robotics-ER 1.6 — обновлённую ИИ-модель для роботов, которая делает их не просто исполнителями команд, а системами, способными думать в контексте.

Ключевая идея — «воплощённое рассуждение» (embodied reasoning). Робот анализирует картинку с камеры, самостоятельно планирует шаги и определяет, выполнена ли задача. Это критически важно в реальных условиях, где роботам приходится ориентироваться в загромождённых пространствах и принимать решения при неполных или меняющихся данных.

Главная новинка — умение читать физические приборы. Датчики давления, смотровые стёкла, цифровые дисплеи. Эту функцию разрабатывали совместно с Boston Dynamics: их робот Spot патрулирует промышленные объекты и проверяет оборудование. Марко да Силва, вице-президент Boston Dynamics, отвечающий за направление Spot, говорит, что теперь робот способен видеть, понимать и реагировать на реальные проблемы полностью автономно.

Точность считывания приборов выросла с 23% до 93%. Достигается это за счёт агентного зрения — модель самостоятельно приближает нужный участок изображения, находит стрелку или отметку и вычисляет значение.

Модель также стала лучше работать с несколькими камерами одновременно — например, с верхней и той, что установлена на запястье робота. Это помогает не теряться в загромождённых пространствах или когда часть обзора перекрыта.

Google называет Gemini Robotics-ER 1.6 своей самой безопасной моделью для робототехники: она лучше распознаёт опасные ситуации и следует физическим ограничениям безопасности.

Модель уже доступна разработчикам через Gemini API и Google AI Studio.