Anthropic представила модели Claude Opus 4 и Claude Sonnet 4, установив новые стандарты автономной работы ИИ и позиционируя себя как мирового лидера в области программного кодирования. Claude Opus 4 достиг показателя 72,5% на SWE-bench — бенчмарке для оценки навыков программной инженерии, превзойдя GPT-4.1 от OpenAI с результатом 54,6% .
Claude Sonnet 4 представляет значительное обновление по сравнению с версией 3.7, обеспечивая превосходное кодирование и логические операции при повышенной точности выполнения инструкций. Обе модели на 65% эффективнее справляются с комплексными задачами, минимизируя отказы от выполнения сложных операций.
Флагманская модель Claude Opus 4 продемонстрировала способность поддерживать концентрацию на сложном проекте рефакторинга с открытым исходным кодом в течение семи часов во время тестирования в Rakuten.
Индустрия в 2025 году переориентировалась на модели рассуждения, методично прорабатывающие проблемы перед ответом и имитирующие человеческие мыслительные процессы. OpenAI инициировала переход с серией «o» в декабре, за которой последовала Gemini 2.5 Pro от Google с функцией «Deep Think». Модель R1 от DeepSeek захватила долю рынка благодаря способностям решения задач при конкурентной цене.
Согласно отчету Poe «AI Model Usage Trends» за весну 2025 года, использование моделей рассуждения выросло в пять раз за четыре месяца — с 2% до 10% всех взаимодействий с ИИ.