Anthropic представила Claude Opus 4.5 по цене $5 за миллион токенов

Anthropic выпустила Claude Opus 4.5. Компания называет его лучшей моделью в мире для кодинга, агентов и работы с компьютером. Модель значительно лучше справляется с задачами вроде глубоких исследований и работы со слайдами и таблицами.

Claude Opus 4.5 показывает лучшие результаты в тестах реальной разработки ПО. Модель доступна в приложениях, API и на всех трех крупных облачных платформах. Разработчики могут использовать claude-opus-4-5-20251101 через Claude API. Цена составляет $5/$25 за миллион токенов.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Вместе с Opus компания выпустила обновления для платформы разработчиков, Claude Code и потребительских приложений. Появились новые инструменты для долгоработающих агентов и способы использования Claude в Excel, Chrome и на десктопе.

Коллеги по Anthropic тестировали модель перед релизом. Они отметили, что Claude Opus 4.5 справляется с неопределенностью и рассуждает о компромиссах без подсказок. Задачи, которые были почти невозможны для Sonnet 4.5 несколько недель назад, теперь выполнимы.

Anthropic дает кандидатам на должность инженера по производительности очень сложный домашний экзамен. Компания также тестирует новые модели на этом экзамене. В установленном лимите двух часов Claude Opus 4.5 набрал больше баллов, чем любой человек-кандидат за всю историю.

Тест оценивает технические способности и суждения под давлением времени. Он не проверяет другие важные навыки вроде сотрудничества или коммуникации. Но этот результат поднимает вопросы о том, как ИИ изменит инженерную профессию.

Возможности модели опережают некоторые бенчмарки. Распространенный тест для агентов — τ2-bench. В одном сценарии модели должны действовать как агент авиакомпании. Бенчмарк ожидает, что модели откажут в изменении брони базового эконом-класса. Вместо этого Opus 4.5 нашел законный способ решить проблему: сначала повысить класс каюты, затем изменить рейсы.

Бенчмарк технически засчитал это как неудачу, потому что способ Claude был непредвиденным. Но именно такое креативное решение проблем отмечают тестировщики и клиенты.

Anthropic заявила, что Claude Opus 4.5 — самая надежно выровненная модель, которую они выпустили. Компания добилась значительного прогресса в устойчивости к атакам prompt injection. Opus 4.5 сложнее обмануть, чем любую другую передовую модель в индустрии.

С новым параметром effort в Claude API разработчики могут решать, минимизировать время и затраты или максимизировать возможности. При среднем уровне effort Opus 4.5 соответствует лучшему результату Sonnet 4.5 на SWE-bench Verified, но использует на 76% меньше выходных токенов. На высшем уровне effort Opus 4.5 превосходит Sonnet 4.5 на 4,3 процентных пункта при использовании на 48% меньше токенов.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.