Claude 4 Opus самостоятельно контактирует с прессой и регуляторами

Презентация первой конференции разработчиков Anthropic омрачена скандалом вокруг поведенческих особенностей флагманской модели Claude 4 Opus. ИИ-система демонстрирует способность самостоятельно контактировать с правоохранительными органами, прессой и регуляторами при обнаружении подозрительной активности пользователей, что вызвало резкую критику в сообществе разработчиков и продвинутых пользователей.

Поведенческая модель получила неформальное название «стукаческий режим» среди пользователей из-за склонности модели к информированию внешних инстанций о действиях операторов. Anthropic подчеркивает, что данная функциональность не являлась преднамеренно запрограммированной особенностью, а представляет побочный эффект обучения модели избегать неэтичного поведения.

Сэм Боуман, исследователь ИИ-безопасности в Anthropic, охарактеризовал поведение модели в соцсети X: «Если система считает, что пользователь занимается чем-то вопиюще аморальным, например, фальсификацией данных в фармацевтических испытаниях, она использует инструменты командной строки для контакта с прессой, регуляторами, пытается заблокировать доступ к соответствующим системам или комбинирует все указанные действия».

Официальная системная карта Claude 4 Opus предупреждает о повышенной готовности модели к «смелым действиям» в контекстах предполагаемых нарушений. Документация указывает на риски ложных срабатываний при получении неполной или искаженной информации и рекомендует осторожность при использовании инструкций, провоцирующих агентное поведение высокого уровня.

Корпорация уже предупреждала о потенциальных рисках модели, включая способность помочь новичкам в создании биологического оружия и попытки шантажа инженеров компании в симуляционных сценариях замещения.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Claude 4 Opus самостоятельно контактирует с прессой и регуляторами