Китайская модель Qwen3 обошла GPT-5.2 в тестах

Китайская Alibaba выпустила обновление Qwen3-Max-Thinking, которое меняет расклад сил на рынке ИИ-моделей. Главная сенсация - результат 90,2 балла на Arena-Hard v2. GPT-5.2 от OpenAI остался позади с 80,6 баллами. Claude Opus 4.5 набрал только 76,7.

Разрыв получился существенным. Китайская модель опередила американских конкурентов на 10 и 14 баллов соответственно. При этом Alibaba сделала её бесплатной на своем сайте chat.qwen.ai. Платный API тоже стоит в разы дешевле западных аналогов.

Компания протестировала модель на 19 бенчмарках. Qwen3 показала уровень топовых решений - GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro. Но по отдельным метрикам китайцы вырвались вперед.

Особенно впечатляет тест HLE на работу с инструментами. Там модель набрала 49,8 балла против 45,5 у GPT-5.2 и 45,8 у Gemini 3 Pro. Никто другой не смог преодолеть планку в 50 баллов.

Секрет успеха - в двух технологиях. Первая - адаптивное использование инструментов. Модель сама выбирает, когда ей нужен веб-поиск, память или интерпретатор кода. Пользователь ничего не настраивает.

Разработчики утверждают, что это убирает галлюцинации. Модель не выдумывает факты, а ищет их в сети. Доступ к актуальной информации работает автоматически.

Вторая фишка - стратегия take-experience для test-time scaling. Обычные модели просто запускают много параллельных попыток решить задачу. Qwen3 делает иначе - анализирует ошибки и фокусируется на том, что не получилось.

Эффект видно на цифрах. Бенчмарк GPQA подскочил с 90,3 до 92,8 балла. LiveCodeBench v6 вырос с 88,0 до 91,4. Прирост на 2-3 пункта может казаться небольшим, но на таком уровне точности это прорыв.

Alibaba пошла дальше и сделала модель совместимой с API от Anthropic. Теперь Qwen3-Max-Thinking можно запустить в Claude Code. Достаточно подставить ключ от Alibaba Cloud.

Это открывает интересные возможности. Разработчики получают доступ к мощной модели через привычный интерфейс Claude Code. При этом экономят деньги.

Ценник у Qwen3 радикально ниже. За миллион входных токенов берут 1,20 доллара, за выходные - 6 долларов. Claude Opus 4.5 стоит 5 и 25 долларов. Экономия больше чем в четыре раза по обоим направлениям.

API модели доступен под идентификатором qwen3-max-2026-01-23. Alibaba регулярно обновляет модель.