OpenAI показала как работает Codex CLI под капотом

OpenAI опубликовала технический разбор Codex CLI. Это локальный агентный инструмент для работы с кодом на машине пользователя. Материал полезен разработчикам собственных агентов и тем, кто оптимизирует расходы на инференс.

В основе лежит классический agent loop. Пользователь отправляет запрос. Система собирает промпт с инструкциями проекта. Модель либо отвечает текстом, либо вызывает инструмент. Агент выполняет команду и добавляет результат в контекст. Цикл повторяется до завершения задачи.

Есть жесткий лимит. Все инструкции из AGENTS.md и корневых директорий агрегируются в один JSON. Его размер не должен превышать 32 килобайта. Это ограничивает количество проектных инструкций.

Главная проблема - стоимость контекста. История диалога растет на каждом шаге. Это должно давать квадратичный рост затрат. Но OpenAI решила задачу через кэширование промптов.

Пока префикс запроса не меняется, инференс остается линейным по стоимости. Но кэш крайне чувствителен. Изменение порядка инструментов или мелкая правка конфигурации полностью сбивает кэш. Затраты резко растут после таких изменений.

Codex CLI полностью перешел на stateless модель работы. Параметр previous_response_id убрали специально. Это поддерживает режимы Zero Data Retention. Провайдер не хранит состояние диалога.

Даже цепочки рассуждений передаются в зашифрованном виде. Ключ остается на сервере, данные у клиента. Долговременного хранения нет. Приватность данных пользователя под контролем.

Когда контекстное окно заполняется, включается механизм компакции. Модель не просто удаляет старые сообщения. Она сжимает их в специальный компактный блок.

Блок занимает минимум места, но сохраняет смысл предыдущего диалога. Процесс запускается автоматически при достижении лимита auto_compact_limit. Ручная команда не требуется.

OpenAI напомнила про флаг —oss. С его помощью Codex CLI работает с локальными моделями. Поддерживаются Ollama и LM Studio. Инструмент не привязан только к серверам OpenAI.

Это важно для приватности и контроля затрат. Разработчики могут использовать свои модели локально. Данные не покидают машину. Нет расходов на API.

В следующих публикациях компания обещает больше деталей. Разберут архитектуру CLI, реализацию инструментов и модель песочницы Codex. Техническая документация будет расширяться.

Материал показывает внимание к оптимизации. Кэширование, stateless архитектура, компакция - все для снижения затрат и повышения приватности. OpenAI делится решениями, которые могут применить другие разработчики агентов.