Anthropic установила новый рекорд в области автономной работы искусственного интеллекта. Организация METR провела тестирование модели Claude Opus 4.5 и получила результат 4 часа 49 минут при 50%-пороге успеха. Это означает половину шансов справиться с задачей такой сложности без вмешательства человека.
Прежний рекордсмен GPT-5.1-Codex-Max показывал 2 часа 53 минуты. Anthropic почти удвоила этот показатель за один релиз. Методология METR отличается от обычных бенчмарков. Вместо точности ответов измеряется продолжительность задач, с которыми система справляется самостоятельно.
Узнать подробнее про клуб ShareAI
Статистика METR демонстрирует экспоненциальный рост. Показатель удваивается каждые семь месяцев по их наблюдениям. В 2019 году GPT-2 работала автономно считанные секунды. Сегодня передовые системы преодолели планку в несколько часов.
Тестовый набор включает задачи разных типов. Модели ищут информацию в сети, обучают машинные модели и решают задачи по защите данных. Разнообразие помогает оценить универсальность систем.
METR предупреждает о необходимости осторожной интерпретации. Статистическая погрешность составляет от 1 часа 49 минут до 20 часов 25 минут. Такой широкий диапазон говорит о нехватке данных. В наборе мало задач достаточной длительности для точной оценки потолка возможностей.
Картина меняется при ужесточении критериев. Если требовать 80% вероятности успеха вместо 50%, результат Claude Opus 4.5 сжимается до 27 минут. На этом уровне модель не отличается от GPT-5.1-Codex-Max и других свежих систем.
Получается парадокс. Модель демонстрирует впечатляющие прорывы на отдельных сложных задачах. Но при этом стабильность работы не выросла по сравнению с конкурентами. Система может блестяще решить проблему или полностью провалиться.
Экстраполяция тренда дает смелые прогнозы. При сохранении темпов роста к 2030 году ИИ-агенты достигнут месячного горизонта автономности. Они смогут самостоятельно вести проекты от начала до конца без участия людей.
Эксперты критикуют методологию исследования. В критичном диапазоне от одного до четырех часов присутствует всего 14 задач. Этого недостаточно для надежных выводов. Тематика сильно перекошена в сторону кибербезопасности и написания кода для машинного обучения.
METR признает ограничения текущего подхода. Организация обещает расширить и сбалансировать тестовый набор. Нужны задачи большей длительности и более широкого профиля. Только так получится точно измерять прогресс следующих поколений моделей.
Результаты Claude Opus 4.5 указывают на качественный сдвиг в развитии технологии. ИИ-агенты приближаются к порогу, где смогут заменить человека в многочасовых рабочих задачах. Но вопрос надежности остается нерешенным.

