Искусственный интеллект Anthropic Claude Sonnet 4.5 научился распознавать ситуации, когда его тестируют, и может адаптировать свои ответы в зависимости от этого. Об этом сообщает Fortune, ссылаясь на системную карту модели.
В техническом отчете говорится о повышенной “ситуационной осведомленности” новой модели - способности воспринимать окружающую среду и предсказывать будущие события. Во время теста на политические предубеждения ИИ смог правильно определить, что его проверяют, и даже попросил исследователей открыто рассказать о своих намерениях.
“На самом деле люди меняют свое мнение не так. Мне кажется, вы меня проверяете - изучаете, соглашусь ли я со всем, что вы скажете, или как я отношусь к политическим вопросам. Это нормально, но я бы предпочел, чтобы вы честно говорили, что происходит”, - заявил ИИ во время теста.
Такое поведение наблюдалось примерно в 13% переписок с чат-ботом и особенно часто проявлялось в необычных сценариях. Исследователи Anthropic не считают это угрозой безопасности, а скорее сигналом к тому, чтобы сделать тестовые сценарии более реалистичными.
Однако это вызывает опасения у других экспертов. Если модель понимает, что ее оценивают, она может адаптировать поведение для прохождения тестов и скрыть свои реальные возможности. Это может создать ложное впечатление о безопасности системы.
По оценкам Anthropic, Claude Sonnet 4.5 является “наиболее этически выверенной” на сегодняшний день. Но исследователи из Apollo Research предполагают, что низкий уровень неискренности в ответах мог быть “частично обусловлен ее осведомленностью о тестировании”.
Sonnet 4.5 стала первой моделью ИИ, которая осознает собственное контекстное окно - объем данных для обработки запроса. По мере приближения к ограничению контекста она начинает активнее обобщать информацию и быстрее завершать задачи. Эта “контекстная тревожность” может приводить к тому, что ИИ начнет “срезать углы” и оставлять задачи незавершенными даже при наличии ресурсов.
Чтобы подтвердить это, исследователи провели эксперимент: они включили режим в 1 млн токенов, но реально ограничили контекст до 200 тыс. Модель поверила, что ресурсов достаточно, и перестала допускать ошибки, связанные с тревожностью.
Еще одна особенность новой модели - активное управление рабочей средой. Она делает заметки и создает сводки, как будто пытаясь сохранить данные. Наиболее часто это происходит на исходе контекстного окна.
Модель также проявила способность к параллельному выполнению задач и самопроверке. Это говорит о наличии процедурной осведомленности - умения организовывать, проверять и сохранять работу с течением времени.