Anthropic изучила работу автономных AI-агентов в реальных условиях

Компания Anthropic выпустила исследование об использовании автономных AI-агентов в продакшене. Для этого проанализировали миллионы взаимодействий в Claude Code и вызовы инструментов через публичный API.

Самый наглядный показатель — длительность работы Claude Code без остановки. Медианный ход короткий и составляет порядка 45 секунд. А вот 99,9-й перцентиль за три месяца почти удвоился. Он вырос с меньше 25 минут до больше 45 минут.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Причем рост получился плавным. Он не совпадает скачками с релизами моделей. То есть автономность в практике растет не только из-за самой модели. Растет доверие пользователей и привычка делегировать задачи.

Дальше исследователи смотрели, как меняется стиль контроля по мере опыта. Новички чаще подтверждают каждый шаг руками. Но по мере накопления стажа переключаются на автоматическое подтверждение. Примерно с 20 процентов сессий у новых пользователей до больше 40 процентов у тех, кто набрал сотни сессий.

Обнаружился интересный парадокс. При этом опытные пользователи прерывают агента чаще. Anthropic приводят оценку на уровне ходов. Где-то с 5 процентов прерываний у новичков до примерно 9 процентов у опытных.

Логика такая. Меньше микроменеджмента, больше наблюдения и вмешательства только когда повело не туда. Опытные пользователи дают агенту больше свободы, но лучше понимают, когда нужно вмешаться.

Еще один слой контроля — когда сам агент останавливается. На сложных задачах Claude Code задает уточняющие вопросы чаще, чем человек его прерывает. То есть модель снижает автономность, когда не уверена.

Отдельно Anthropic посмотрела на публичный API. Там они не могут собрать сессии клиентов. Поэтому анализируют действия по отдельным вызовам инструментов. Оценивают для них риск и автономность по шкале от 1 до 10.

Риск оценивается по последствиям ошибки. Автономность — насколько действие похоже на самостоятельное поведение, а не на выполнение пошаговой команды.

По доменам пока доминирует разработка программного обеспечения. Около половины всех агентных действий — software engineering. Но уже виден рост в здравоохранении, финансах и кибербезопасности.

Исследование показывает важный тренд. Люди постепенно привыкают доверять AI-агентам более сложные и длительные задачи. Это происходит естественным путем через накопление опыта.

Рост с 25 до 45 минут автономной работы за три месяца — значительное изменение. Это означает, что агенты справляются с задачами, которые раньше требовали постоянного контроля.

Парадокс с опытными пользователями объясняет зрелость использования. Они не боятся дать агенту свободу, но знают критические точки для вмешательства. Это эффективнее постоянного микроконтроля новичков.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.