Февраль выдался плотным. Три главных ИИ-компании синхронно обновили флагманы — и все три сделали ставку не на болталки, а на кодинг и длинный контекст.
Anthropic: миллион токенов и $150 за выход
Claude Opus 4.6 вышел с контекстным окном в 1 миллион токенов. Главное здесь не цифра, а то, что модель в этом объёме не теряется: предыдущий Sonnet 4.5 на тесте Needle-in-a-Haystack падал до 18.5% точности, новый Opus держит от 76%. Параллельно запустили режим Fast — та же модель, но в 2.5 раза быстрее. Цена вопроса: $30 за вход и $150 за выход вместо стандартных $5/$25.
Claude Sonnet 4.6 получил те же миллион токенов и умение управлять компьютером по-человечески: кликать, заполнять формы, переключаться между вкладками без потери контекста. Отдельно Anthropic выпустили агент Claude Code Security — он ищет уязвимости умнее классических сканеров и нашёл 500+ дыр в опенсорсных проектах, которые годами пропускали люди. Ещё одна новинка — интеграция Claude Code с Figma: код из браузера конвертируется в редактируемые фреймы, а обновлённый дизайн скармливается обратно модели.
OpenAI: ответила через несколько минут
GPT-5.3-Codex вышел буквально следом за Opus 4.6. Модель позиционируется как агент для всего цикла разработки — от написания PRD до деплоя. На OSWorld-Verified: скачок с 38% до 64.7%. Рядом вышел Codex-Spark на железе Cerebras — больше 1000 токенов в секунду, время до первого токена сократилось вдвое.
Google: математика и музыка
Gemini 3.1 Pro набрал 77.1% на ARC-AGI-2, вдвое лучше предшественника. Агент Aletheia закрыл четыре открытые задачи из базы конъюнктур Эрдеша и опроверг предположение 2015 года в области онлайн-субмодульной оптимизации — математики бились над ним десять лет. Lyria 3 генерирует 30-секундные треки с вокалом по промпту и сразу встроена в YouTube Create.
За кадром
Пентагон использовал Claude для военного планирования. OpenAI переписала собственную миссию. ИИ-агент написал жалобу на нанимателя.
Февраль расставил акценты: рынок уходит от чат-ботов к агентам, которые работают сами.