Claude Opus 4.5 стал лидером среди ИИ в ARC-AGI

Организация ARC Prize опубликовала результаты модели Claude Opus 4.5 сразу после ее выхода. В тесте ARC-AGI-1 модель достигла 80% при цене 1,47 доллара за задание. В ARC-AGI-2 результат составил 37,64% при цене 2,40 доллара.

ARC-AGI — это серия тестов на абстрактное мышление. Они проверяют умение модели извлекать знания и применять их на похожих задачах. Сначала в тесте показывают табличку с визуальной головоломкой и решенный вариант. Потом показывают еще одну пару задача-решение с тем же правилом. Третью головоломку модель должна решить сама на основе полученных знаний.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Для людей это простой тест. Навык переноса знаний у ИИ начал появляться только в последних версиях моделей. Он считается ключевым для будущих сложных агентов, которые работают в постоянно меняющихся условиях.

В ARC-AGI-1 Opus 4.5 и многие другие модели уже достигли уровня, близкого к человеческому. Но этот тест считается устаревшим. Некоторые задачи из него могли попасть в данные для обучения.

ARC-AGI-2 вышел совсем недавно. Задачи в нем лучше защищены от такой утечки. Opus 4.5 с результатом 37,64% значительно обошел предыдущего лидера. Это был Gemini 3 Pro с примерно 31%. Но до человеческого уровня еще далеко. Он оценивается в 66%.

Opus 4.5 — новая флагманская модель Anthropic. Она обходит конкурентов от Google и OpenAI в большинстве тестов. Среди них SWE-Bench Verified, который считается одним из главных тестов в программировании.

При этом цена модели в API снижена в три раза. Теперь это 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. Также Opus 4.5 намного экономнее расходует токены в сложных задачах. В итоге в некоторых случаях его использование даже дешевле, чем предыдущей модели компании Claude Sonnet 4.5.

Результаты в ARC-AGI-2 показывают прогресс моделей в абстрактном мышлении. Разрыв между 31% у Gemini 3 Pro и 37,64% у Opus 4.5 — это существенный скачок. Но разница с человеческими 66% остается большой.

Тест ARC-AGI важен, потому что он проверяет способность к обобщению. Модели должны понять правило из нескольких примеров и применить его к новой ситуации. Это базовый навык для интеллекта.

Снижение цены делает мощную модель доступнее для разработчиков. Раньше флагманские модели были слишком дорогими для многих задач. Теперь Opus 4.5 может конкурировать по цене с более слабыми моделями, оставаясь при этом намного способнее.

Anthropic продолжает улучшать свои модели как по качеству, так и по цене. Это важно для распространения продвинутого ИИ в реальных приложениях.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.