MiniMax M2.7: модель, которая сама себя обучала больше ста раз

Китайская компания MiniMax выпустила модель M2.7 — и сделала необычное заявление: модель активно участвовала в собственной разработке. Не метафорически, а буквально: она обновляла собственные знания, строила новые возможности и улучшала своё обучение с подкреплением.

Внутри компании агент на базе M2.7 был встроен в рабочий процесс RL-команды. Он занимался поиском литературы, отслеживанием экспериментов, дебаггингом и анализом метрик. Люди подключались только при критических решениях. Агент закрывал от 30 до 50 процентов всего рабочего процесса.

В одном из экспериментов модель самостоятельно оптимизировала производительность кодирования за более чем 100 раундов. Каждый раунд: анализ ошибок, планирование изменений, правка кода, тест, решение — оставить или выбросить. Итог — рост на 30 процентов по внутренним метрикам.

По бенчмаркам M2.7 держится рядом с ведущими западными моделями. На MLE Bench Lite — 66,6% медальных результатов против 75,7% у Opus 4.6 и 71,2% у GPT-5.4. На SWE-Pro — 56,22%, сравнимо с GPT-5.3 Codex. На GDPval-AA, бенчмарке офисных задач, M2.7 набрала наивысший ELO среди открытых моделей.

MiniMax описывает M2.7 как “первую модель, глубоко участвующую в собственной эволюции”, и декларирует курс на полную автономию: координация данных, обучение, инференс, оценка — без участия человека.

Они не одни. OpenAI рассказывала похожее про Codex: ранние версии находили баги и управляли деплоем во время обучения следующих версий.

Вместе с M2.7 MiniMax выпустила OpenRoom — открытый проект, переносящий общение с ИИ-персонажами в графическую веб-среду. Веса модели пока не опубликованы — доступ только через API и MiniMax Agent.