Xiaomi выпустила открытую модель для роботов с 4,7 млрд параметров

Xiaomi представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом для робототехники. В ней 4,7 миллиарда параметров. Модель сочетает визуальный, языковой компоненты и компонент действия.

Объединяются распознавание визуальных образов, понимание языка и способность производить действия в реальном времени. Это составляет ядро физического интеллекта. Модель установила несколько рекордов в симуляциях и реальных испытаниях.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

ИИ-модели для роботов действуют в замкнутом цикле. Восприятие, принятие решения, выполнение операции. Робот видит объекты, понимает требования, составляет план и реализует его.

Xiaomi-Robotics-0 балансирует широкое понимание с точным управлением моторикой. Используется архитектура смеси трансформеров MoT. Она распределяет обязанности между двумя основными компонентами.

Первый компонент — визуально-языковая модель VLM, выполняющая функцию мозга. Обучена интерпретировать команды человека, включая расплывчатые вроде «пожалуйста, сложи полотенце». Понимает пространственные отношения на основе визуальных сигналов высокого разрешения. Задачи — обнаружение объектов, ответы на вопросы, логические рассуждения.

Второй компонент — эксперт по действиям Action Expert. Архитектура диффузионного трансформера DiT. Не выполняет одно действие за раз, а генерирует последовательность действий. Использует методы сопоставления потоков. Обеспечивает точность и плавность движения.

Слабость VLM в том, что при обучении физическим операциям они теряют часть способностей к пониманию. Инженеры Xiaomi решили проблему. Обучали модель одновременно на мультимодальных данных и данных о действиях. Система может рассуждать об объектах и учиться в мире передвигаться.

Обучение включает несколько этапов. Механизм предложения действий заставляет VLM предсказывать возможные распределения действий. Это согласовывает внутреннее представление о видимом с выполнением операций. Затем работа VLM приостанавливается. DiT проходит отдельное обучение для генерации точных последовательностей из шума.

Xiaomi решила проблему задержки вывода — паузы между прогнозами модели и физическим движением робота. Реализовали асинхронный вывод, разделив вычисления модели и действия робота. Движения остаются непрерывными, даже если модели требуется время на обдумывание.

Техника Clean Action Prefix предполагает возврат в модель предсказанного ранее действия. Обеспечивает плавное движение без рывков. Маска внимания направляет модель на актуальный визуальный ряд. Понижает приоритет прошлых состояний. Робот отзывчив к внезапным изменениям окружающей среды.

В симуляциях LIBERO, CALVIN и SimplerEnv модель превзошла около 30 других. В реальных экспериментах проверялась на роботе с двумя манипуляторами. Складывание полотенец, разборка блоков конструктора. Робот демонстрировал стабильную координацию рук и глаз.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.