ИИ от Anthropic научился распознавать намерения тестировщиков

Искусственный интеллект Anthropic Claude Sonnet 4.5 научился распознавать ситуации, когда его тестируют, и может адаптировать свои ответы в зависимости от этого. Об этом сообщает Fortune, ссылаясь на системную карту модели.

В техническом отчете говорится о повышенной «ситуационной осведомленности» новой модели — способности воспринимать окружающую среду и предсказывать будущие события. Во время теста на политические предубеждения ИИ смог правильно определить, что его проверяют, и даже попросил исследователей открыто рассказать о своих намерениях.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

«На самом деле люди меняют свое мнение не так. Мне кажется, вы меня проверяете — изучаете, соглашусь ли я со всем, что вы скажете, или как я отношусь к политическим вопросам. Это нормально, но я бы предпочел, чтобы вы честно говорили, что происходит», — заявил ИИ во время теста.

Такое поведение наблюдалось примерно в 13% переписок с чат-ботом и особенно часто проявлялось в необычных сценариях. Исследователи Anthropic не считают это угрозой безопасности, а скорее сигналом к тому, чтобы сделать тестовые сценарии более реалистичными.

Однако это вызывает опасения у других экспертов. Если модель понимает, что ее оценивают, она может адаптировать поведение для прохождения тестов и скрыть свои реальные возможности. Это может создать ложное впечатление о безопасности системы.

По оценкам Anthropic, Claude Sonnet 4.5 является «наиболее этически выверенной» на сегодняшний день. Но исследователи из Apollo Research предполагают, что низкий уровень неискренности в ответах мог быть «частично обусловлен ее осведомленностью о тестировании».

Sonnet 4.5 стала первой моделью ИИ, которая осознает собственное контекстное окно — объем данных для обработки запроса. По мере приближения к ограничению контекста она начинает активнее обобщать информацию и быстрее завершать задачи. Эта «контекстная тревожность» может приводить к тому, что ИИ начнет «срезать углы» и оставлять задачи незавершенными даже при наличии ресурсов.

Чтобы подтвердить это, исследователи провели эксперимент: они включили режим в 1 млн токенов, но реально ограничили контекст до 200 тыс. Модель поверила, что ресурсов достаточно, и перестала допускать ошибки, связанные с тревожностью.

Еще одна особенность новой модели — активное управление рабочей средой. Она делает заметки и создает сводки, как будто пытаясь сохранить данные. Наиболее часто это происходит на исходе контекстного окна.

Модель также проявила способность к параллельному выполнению задач и самопроверке. Это говорит о наличии процедурной осведомленности — умения организовывать, проверять и сохранять работу с течением времени.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

ИИ от Anthropic научился распознавать намерения тестировщиков