Xiaomi представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом для робототехники. В ней 4,7 миллиарда параметров. Модель сочетает визуальный, языковой компоненты и компонент действия.
Объединяются распознавание визуальных образов, понимание языка и способность производить действия в реальном времени. Это составляет ядро физического интеллекта. Модель установила несколько рекордов в симуляциях и реальных испытаниях.
Узнать подробнее про клуб ShareAI
ИИ-модели для роботов действуют в замкнутом цикле. Восприятие, принятие решения, выполнение операции. Робот видит объекты, понимает требования, составляет план и реализует его.
Xiaomi-Robotics-0 балансирует широкое понимание с точным управлением моторикой. Используется архитектура смеси трансформеров MoT. Она распределяет обязанности между двумя основными компонентами.
Первый компонент — визуально-языковая модель VLM, выполняющая функцию мозга. Обучена интерпретировать команды человека, включая расплывчатые вроде «пожалуйста, сложи полотенце». Понимает пространственные отношения на основе визуальных сигналов высокого разрешения. Задачи — обнаружение объектов, ответы на вопросы, логические рассуждения.
Второй компонент — эксперт по действиям Action Expert. Архитектура диффузионного трансформера DiT. Не выполняет одно действие за раз, а генерирует последовательность действий. Использует методы сопоставления потоков. Обеспечивает точность и плавность движения.
Слабость VLM в том, что при обучении физическим операциям они теряют часть способностей к пониманию. Инженеры Xiaomi решили проблему. Обучали модель одновременно на мультимодальных данных и данных о действиях. Система может рассуждать об объектах и учиться в мире передвигаться.
Обучение включает несколько этапов. Механизм предложения действий заставляет VLM предсказывать возможные распределения действий. Это согласовывает внутреннее представление о видимом с выполнением операций. Затем работа VLM приостанавливается. DiT проходит отдельное обучение для генерации точных последовательностей из шума.
Xiaomi решила проблему задержки вывода — паузы между прогнозами модели и физическим движением робота. Реализовали асинхронный вывод, разделив вычисления модели и действия робота. Движения остаются непрерывными, даже если модели требуется время на обдумывание.
Техника Clean Action Prefix предполагает возврат в модель предсказанного ранее действия. Обеспечивает плавное движение без рывков. Маска внимания направляет модель на актуальный визуальный ряд. Понижает приоритет прошлых состояний. Робот отзывчив к внезапным изменениям окружающей среды.
В симуляциях LIBERO, CALVIN и SimplerEnv модель превзошла около 30 других. В реальных экспериментах проверялась на роботе с двумя манипуляторами. Складывание полотенец, разборка блоков конструктора. Робот демонстрировал стабильную координацию рук и глаз.

