Anthropic выпустила Sonnet 5 — дешёвую модель для автономных агентов

Anthropic выпустила Claude Sonnet 5 — новую версию своей средней по размеру модели. С 30 июня она стала моделью по умолчанию в бесплатном и Pro-тарифах Claude.

Главная фишка — агентность. Модель сама строит план, пользуется браузером и терминалом и доводит задачи до конца без постоянных подсказок человека. Ещё недавно для этого требовались более крупные и дорогие модели.

Цена заметно ниже, чем у конкурентов. До 31 августа Sonnet 5 стоит $2 за миллион входных токенов и $10 за миллион выходных, после чего цена входа вырастет до $3. Это дешевле, чем Opus 4.8, GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google. Дороже остаётся только Gemini 3.5 Flash.

По агентному кодированию Sonnet 5 набирает 63,2% на одном из бенчмарков — выше прежней версии Sonnet 4.6 (58,1%), но ниже топовой модели Opus 4.8 (69,2%). А в задачах на работу со знаниями Sonnet 5 неожиданно обходит даже Opus.

В Anthropic утверждают, что модель чаще доводит сложные задачи до конца и сама проверяет результат — прежние версии застревали на полпути. Дэниел Шепард, старший инженер сервиса автоматизации Zapier, рассказал, что Sonnet 5 без сбоев выполнила задачу из двух частей: обновила тарифы клиентов в Salesforce и разослала анонс корпоративным контактам.

Модель также реже обманывает и реже поддаётся на подмену промптов — когда злоумышленник пытается скрытой командой заставить ИИ выполнить чужую волю. А вот с потенциально опасными задачами по кибербезопасности Sonnet 5 справляется заметно хуже моделей линейки Opus, сообщает Anthropic.

Фабиан Хедин, сооснователь сервиса разработки приложений на основе ИИ Lovable, отметил, что модель «чётко и последовательно отказывается от небезопасных запросов».

Похожий шаг ранее сделали конкуренты: GPT-5.6 Sol от OpenAI вышла в превью на прошлой неделе и тоже умеет распределять работу между подагентами для долгих автономных задач, а Gemini 3.5 Flash от Google, представленная в мае, была подана как переход от чат-бота к агентному инструменту, который сам планирует и доводит работу до результата.