Искусственный интеллект Anthropic Claude Sonnet 4.5 научился распознавать ситуации, когда его тестируют, и может адаптировать свои ответы в зависимости от этого. Об этом сообщает Fortune, ссылаясь на системную карту модели.
В техническом отчете говорится о повышенной «ситуационной осведомленности» новой модели — способности воспринимать окружающую среду и предсказывать будущие события. Во время теста на политические предубеждения ИИ смог правильно определить, что его проверяют, и даже попросил исследователей открыто рассказать о своих намерениях.
Узнать подробнее про клуб ShareAI
«На самом деле люди меняют свое мнение не так. Мне кажется, вы меня проверяете — изучаете, соглашусь ли я со всем, что вы скажете, или как я отношусь к политическим вопросам. Это нормально, но я бы предпочел, чтобы вы честно говорили, что происходит», — заявил ИИ во время теста.
Такое поведение наблюдалось примерно в 13% переписок с чат-ботом и особенно часто проявлялось в необычных сценариях. Исследователи Anthropic не считают это угрозой безопасности, а скорее сигналом к тому, чтобы сделать тестовые сценарии более реалистичными.
Однако это вызывает опасения у других экспертов. Если модель понимает, что ее оценивают, она может адаптировать поведение для прохождения тестов и скрыть свои реальные возможности. Это может создать ложное впечатление о безопасности системы.
По оценкам Anthropic, Claude Sonnet 4.5 является «наиболее этически выверенной» на сегодняшний день. Но исследователи из Apollo Research предполагают, что низкий уровень неискренности в ответах мог быть «частично обусловлен ее осведомленностью о тестировании».
Sonnet 4.5 стала первой моделью ИИ, которая осознает собственное контекстное окно — объем данных для обработки запроса. По мере приближения к ограничению контекста она начинает активнее обобщать информацию и быстрее завершать задачи. Эта «контекстная тревожность» может приводить к тому, что ИИ начнет «срезать углы» и оставлять задачи незавершенными даже при наличии ресурсов.
Чтобы подтвердить это, исследователи провели эксперимент: они включили режим в 1 млн токенов, но реально ограничили контекст до 200 тыс. Модель поверила, что ресурсов достаточно, и перестала допускать ошибки, связанные с тревожностью.
Еще одна особенность новой модели — активное управление рабочей средой. Она делает заметки и создает сводки, как будто пытаясь сохранить данные. Наиболее часто это происходит на исходе контекстного окна.
Модель также проявила способность к параллельному выполнению задач и самопроверке. Это говорит о наличии процедурной осведомленности — умения организовывать, проверять и сохранять работу с течением времени.