Вышел обновленный Artificial Analysis Intelligence Index. Это сводный индекс, который оценивает эффективность ИИ по ряду популярных тестов. Первое место в нем заняла GPT-5.1 Thinking High. Она набрала 70 баллов.
Модель обошла нескольких конкурентов. GPT-5 Thinking High получила 68 баллов. Kimi K2 Thinking набрала 67 баллов. Grok 4 достиг 65 баллов. Claude Sonnet 4.5 получила 63 балла.
Узнать подробнее про клуб ShareAI
Прирост произошел в первую очередь благодаря тесту TerminalBench. Он оценивает агентские возможности модели. GPT-5.1 Thinking сделала рывок на 12 процентных пунктов в этом тесте.
Авторы индекса похвалили модель за два момента. Первый — более человечные ответы. Второй — эффективность расхода токенов. В API GPT-5.1 Thinking стоит столько же, сколько GPT-5 Thinking. Но стоимость прогона всех тестов сократилась с 913 до 859 долларов.
Все версии GPT-5.1 показали отличные результаты в Design Arena. Это тест, который оценивает работу ИИ с фронтендом. Единственные соперники модели — это Claude 4.x.
Версия GPT-5.1 для кодинг-агента Codex заняла первое место в SWE-Bench. Этот тест оценивает способность ИИ решать реальные задачи по программной инженерии. Задачи взяты из GitHub. В тесте акцент сделан на генерацию патчей для кода. Это имитирует повседневную работу разработчиков.
В тестах OpenAI GPT-5.1 Thinking взяла 76,3% в SWE-Bench Verified. Это специальная версия теста на 500 задач. Их вручную проверили программисты. Полная версия SWE-Bench состоит из 2000 задач без ручной проверки. Она может включать нерешаемые или неоднозначные случаи.
Есть плюс у полной версии теста. Разработчикам сложнее заточить свой ИИ под выполнение именно этих задач. Verified версия проще для оптимизации, зато точнее оценивает реальные способности модели.
Результаты показывают, что GPT-5.1 Thinking стала лучшим выбором для работы с кодом и агентских задач. При этом она не дороже предыдущей версии.

