Исследовательский институт Alibaba DAMO Academy представил RynnBrain — открытую воплощенную базовую модель на основе Qwen3-VL. В отличие от пассивного наблюдения, RynnBrain укоренена в физическом мире через восприятие среды, пространственно-временное понимание и планирование задач. Это позволяет ей выполнять рассуждения с учетом физики и решать сложные реальные задачи.
RynnBrain доступна в плотных версиях с 2 и 8 миллиардами параметров. Также есть вариант mixture-of-experts с 30 миллиардами параметров и 3 миллиардами активных.
Узнать подробнее про клуб ShareAI
Выпущены три специализированные модели. RynnBrain-Plan для планирования манипуляций. RynnBrain-Nav для навигации. RynnBrain-CoP для пространственного рассуждения.
Модель обучена на последней визуально-языковой модели Alibaba Qwen3-VL. Тонкая настройка проводилась с использованием системы RynnScale от DAMO.
RynnBrain достигает результатов уровня state-of-the-art в основных бенчмарках воплощенного познания, локализации и визуального понимания. Производительность конкурирует с ведущими моделями вроде Gemini Robotics ER 1.5 и Cosmos Reason 2.
RynnBrain доступна на Hugging Face, GitHub и ModelScope.
Ключевое отличие от обычных визуально-языковых моделей — способность к физическому взаимодействию. Модель не просто распознает объекты. Она понимает их физические свойства и может планировать действия с ними.
Всестороннее восприятие среды означает, что модель учитывает множество факторов. Расположение объектов, их форму, вес, текстуру. Это критично для управления роботами в реальном мире.
Точное пространственно-временное понимание позволяет отслеживать движение объектов, предсказывать их положение и планировать последовательность действий во времени.
Специализированные модели решают конкретные задачи. RynnBrain-Plan помогает роботам-манипуляторам планировать захват и перемещение объектов. RynnBrain-Nav дает возможность ориентироваться в пространстве и строить маршруты. RynnBrain-CoP решает задачи пространственного мышления.
Версия MoE с 30 миллиардами параметров использует архитектуру смеси экспертов. Это позволяет достичь производительности большой модели при меньших затратах на инференс.
Открытый код делает RynnBrain доступной для исследователей и разработчиков. Они могут адаптировать модель под свои задачи, обучать на собственных данных и интегрировать в системы.
Конкуренция с Gemini Robotics ER 1.5 и Cosmos Reason 2 показывает уровень модели. Это серьезные игроки в области воплощенного AI для робототехники.
Alibaba продолжает развивать экосистему Qwen. RynnBrain показывает применение визуально-языковых моделей в робототехнике за пределами текста и изображений.

