Anthropic выпустил апгрейд флагманской модели ИИ Claude Opus

Корпорация Anthropic объявила о выпуске Claude Opus 4.1 - значимого обновления своей флагманской языковой модели, акцентированного на усовершенствовании функциональности в области программирования, агентских задач и аналитического мышления.

Техническая спецификация новой версии свидетельствует о значительном прогрессе в кодинговых возможностях модели, достигнув показателя 74,5% на бенчмарке SWE-bench Verified - метрике, оценивающей способность языковых моделей к решению реальных задач программирования.

Параллельно с этим, инженеры Anthropic оптимизировали алгоритмы углубленного исследования и анализа данных, с особым фокусом на отслеживание детализированной информации и аналитический поиск.

Ключевым аспектом релиза стала мультиплатформенная доступность технологии: Claude Opus 4.1 интегрирован не только в классический пользовательский интерфейс Claude, но и в специализированный инструмент Claude Code, ориентированный на программистов.

Кроме того, модель доступна через API Anthropic, а также через облачные сервисы Amazon Bedrock и Google Cloud Vertex AI, что обеспечивает широкий спектр возможностей для интеграции в корпоративные и индивидуальные рабочие процессы.

Корпоративные партнеры Anthropic предоставили специализированную оценку функциональных преимуществ обновленной модели.

Технические специалисты GitHub отметили общее повышение производительности в сравнении с предыдущей версией Opus 4, выделив особенно значительный прогресс в рефакторинге многофайловых кодовых баз.

Команда Rakuten Group акцентировала внимание на прецизионности нового алгоритма при локализации точных корректировок в масштабных программных комплексах без внесения избыточных изменений или генерации потенциальных ошибок, отметив предпочтительность данного подхода для рутинных задач отладки.

Особый интерес представляют результаты исследования компании Windsurf, зафиксировавшей улучшение показателей Claude Opus 4.1 на одно стандартное отклонение относительно предшествующей версии на бенчмарке, имитирующем работу младшего разработчика.