GPT-5.1 Thinking возглавила рейтинг самых умных ИИ

Вышел обновленный Artificial Analysis Intelligence Index. Это сводный индекс, который оценивает эффективность ИИ по ряду популярных тестов. Первое место в нем заняла GPT-5.1 Thinking High. Она набрала 70 баллов.

Модель обошла нескольких конкурентов. GPT-5 Thinking High получила 68 баллов. Kimi K2 Thinking набрала 67 баллов. Grok 4 достиг 65 баллов. Claude Sonnet 4.5 получила 63 балла.

Прирост произошел в первую очередь благодаря тесту TerminalBench. Он оценивает агентские возможности модели. GPT-5.1 Thinking сделала рывок на 12 процентных пунктов в этом тесте.

Авторы индекса похвалили модель за два момента. Первый - более человечные ответы. Второй - эффективность расхода токенов. В API GPT-5.1 Thinking стоит столько же, сколько GPT-5 Thinking. Но стоимость прогона всех тестов сократилась с 913 до 859 долларов.

Все версии GPT-5.1 показали отличные результаты в Design Arena. Это тест, который оценивает работу ИИ с фронтендом. Единственные соперники модели - это Claude 4.x.

Версия GPT-5.1 для кодинг-агента Codex заняла первое место в SWE-Bench. Этот тест оценивает способность ИИ решать реальные задачи по программной инженерии. Задачи взяты из GitHub. В тесте акцент сделан на генерацию патчей для кода. Это имитирует повседневную работу разработчиков.

В тестах OpenAI GPT-5.1 Thinking взяла 76,3% в SWE-Bench Verified. Это специальная версия теста на 500 задач. Их вручную проверили программисты. Полная версия SWE-Bench состоит из 2000 задач без ручной проверки. Она может включать нерешаемые или неоднозначные случаи.

Есть плюс у полной версии теста. Разработчикам сложнее заточить свой ИИ под выполнение именно этих задач. Verified версия проще для оптимизации, зато точнее оценивает реальные способности модели.

Результаты показывают, что GPT-5.1 Thinking стала лучшим выбором для работы с кодом и агентских задач. При этом она не дороже предыдущей версии.