OpenAI выпустила GPT-5.1-Codex-Max и вернула лидерство в кодинге

OpenAI запустила GPT-5.1-Codex-Max. Это версия GPT-5.1 Thinking для программирования. Модель работает внутри кодинг-агента Codex. Она доступна во всех версиях Codex для планов ChatGPT Plus, Pro, Edu и Enterprise. Выход в API запланирован позже.

Релиз стал ответом на запуск Google Gemini 3 Pro. По оценкам OpenAI, компания вернула первое место в нескольких бенчмарках по программированию. В SWE-Bench Verified модель превзошла конкурентов. Gemini 3 Pro показала 76,2%, Claude Sonnet 4.5 — 77,2%. GPT-5.1-Codex-Max опередила обе. Рост заметен и в других тестах.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

На настройках low, medium и high модель превосходит GPT-5.1-Codex. При этом она тратит меньше токенов. Это означает более дешевую и быструю работу. Для максимального результата добавили настройку xhigh. OpenAI сообщает о внутренних тестах, где модель работала над задачей до 24 часов без вмешательства.

Это первая модель с нативным обучением работе через несколько контекстных окон. Используется механизм compaction. Модель сама сжимает историю, извлекает главное и продолжает работу. Это позволяет обрабатывать миллионы токенов в рамках одной задачи.

SWE-Bench Verified считается одним из главных тестов для моделей в программировании. Он проверяет способность решать реальные задачи разработки. Победа в этом бенчмарке показывает практическую применимость.

Способность работать 24 часа автономно открывает новые возможности. Модель может решать сложные задачи, которые требуют длительной обработки. Разработчик ставит задачу и возвращается к готовому решению.

Механизм compaction решает проблему ограниченного контекста. Обычные модели упираются в лимит токенов. GPT-5.1-Codex-Max обходит это через сжатие. Она сохраняет важное и отбрасывает второстепенное.

Работа с миллионами токенов важна для крупных проектов. Большие кодовые базы требуют обработки огромных объемов данных. Теперь модель может анализировать их целиком.

Экономия токенов делает модель выгоднее предшественника. При лучшем качестве стоимость использования снижается. Быстрота работы также имеет значение. Разработчики получают результаты оперативнее.

Четыре уровня настроек позволяют балансировать между качеством и скоростью. Low подойдет для простых задач. Xhigh даст максимальное качество для сложных проектов.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.