OpenAI представила исследовательскую версию GPT-5.3-Codex-Spark. Это уменьшенная версия GPT-5.3-Codex и первая модель компании для кодирования в реальном времени.
Codex-Spark — первый результат партнерства с Cerebras. Модель оптимизирована для почти мгновенной работы на оборудовании со сверхнизкой задержкой. Выдает более 1000 токенов в секунду при сохранении высокой способности для реальных задач кодирования.
Узнать подробнее про клуб ShareAI
OpenAI делится Codex-Spark на Cerebras как исследовательской версией для пользователей ChatGPT Pro. Разработчики могут начать экспериментировать, пока компания работает с Cerebras над увеличением мощностей дата-центров и развертыванием больших фронтир-моделей.
Последние фронтир-модели показали силу в выполнении долгих задач. Работают автономно часами, днями или неделями без вмешательства. Codex-Spark — первая модель специально для работы с Codex в реальном времени. Целевые правки, изменение логики, доработка интерфейсов с немедленными результатами.
С Codex-Spark теперь Codex поддерживает долгие амбициозные задачи и выполнение работы в моменте.
При запуске Codex-Spark имеет контекстное окно 128k и работает только с текстом. Во время исследовательской версии будут собственные лимиты использования. Они не считаются в стандартных лимитах. При высоком спросе возможен ограниченный доступ или временная очередь.
Модель оптимизирована для интерактивной работы, где задержка важна как интеллект. Можно сотрудничать с моделью в реальном времени, прерывая или перенаправляя ее. Быстрая итерация с почти мгновенными ответами.
Настроена на скорость, Codex-Spark использует облегченный стиль работы по умолчанию. Минимальные целевые правки. Не запускает тесты автоматически, если не попросить.
На SWE-Bench Pro и Terminal-Bench 2.0 GPT-5.3-Codex-Spark демонстрирует сильную производительность. Выполняет задачи за долю времени по сравнению с GPT-5.3-Codex.
OpenAI внедрила сквозные улучшения задержки в систему. Они принесут пользу всем моделям. Оптимизировали потоковую передачу ответов между клиентом и сервером, переписали ключевые части инференс-стека, переработали инициализацию сессий.
Постоянное WebSocket-соединение и оптимизации Responses API снизили накладные расходы на раунд клиент-сервер на 80%. На токен — на 30%. Время до первого токена — на 50%.
Codex-Spark работает на Cerebras Wafer Scale Engine 3. Специализированный ИИ-ускоритель для высокоскоростного инференса. Дает Codex уровень обслуживания с приоритетом на задержку.
GPU остаются основой конвейеров обучения и инференса. Обеспечивают наиболее экономичные токены для широкого использования. Cerebras дополняет основу, преуспевая в рабочих процессах требующих сверхнизкой задержки.

