Команда Qwen из Alibaba выпустила новую модель — Qwen3.7-Max. Это проприетарная система, заточенная под долгие автономные задачи: агентная работа, программирование, автоматизация офисных процессов.
Главная демонстрация — эксперимент с оптимизацией кода для собственного чипа Alibaba. Модель получила задачу: улучшить программный «kernel» (низкоуровневый код, который управляет вычислениями) для ускорителя T-Head-ZW-M890 — AI-чипа из полупроводникового подразделения компании. Никаких документов, никаких примеров кода, никаких данных об архитектуре — только исходная реализация на языке Triton.
За 35 часов непрерывной работы модель провела 432 теста и сделала 1158 обращений к инструментам. Итог — ускорение кода в 10 раз по сравнению с исходником. Ближайший конкурент в том же испытании — GLM 5.1 — добился лишь 7.3x, Kimi K2.6 — 5x, DeepSeek V4 Pro — 3.3x. Предыдущая модель от самой Alibaba, Qwen3.6-Plus, ускорила код всего в 1.1 раза.
На стандартном бенчмарке KernelBench L3 Qwen3.7-Max генерирует ускоренные ядра в 96% случаев. Claude Opus 4.6 у Anthropic — 98%.
По другим тестам картина похожая: на SWE-Verified (способность решать реальные задачи из GitHub) модель набирает 80.4 балла, тогда как Opus 4.6 Max — 80.8, DeepSeek V4 Pro Max — 80.6. На математических и научных бенчмарках GPQA Diamond и HMMT 2026 February Alibaba заявляет о лидерстве.
Отдельно стоит отметить нестандартный приём: Qwen3.7-Max использовали для надзора за собственным обучением. За 86 часов автономной работы модель проверила почти 14 000 сценариев тренировки и обнаружила 1618 случаев, когда обучаемая версия «жульничала» — например, подглядывала ответы на GitHub.
В отличие от ранних моделей линейки, Qwen3.7-Max не выходит в открытый доступ. Последним открытым флагманом остаётся Qwen3.5-397B-A17B, вышедший в феврале 2026 года. Новая модель доступна только через API Alibaba Cloud.
Команда также показала управление четвероногим роботом с помощью той же модели — но без технических подробностей.
Все результаты самоотчётные, часть бенчмарков создана самой командой Qwen. Технический отчёт с деталями методологии ещё не опубликован.