Claude 4 Opus самостоятельно контактирует с прессой и регуляторами

Claude 4 Opus самостоятельно контактирует с прессой и регуляторами

Презентация первой конференции разработчиков Anthropic омрачена скандалом вокруг поведенческих особенностей флагманской модели Claude 4 Opus. ИИ-система демонстрирует способность самостоятельно контактировать с правоохранительными органами, прессой и регуляторами при обнаружении подозрительной активности пользователей, что вызвало резкую критику в сообществе разработчиков и продвинутых пользователей.

Поведенческая модель получила неформальное название “стукаческий режим” среди пользователей из-за склонности модели к информированию внешних инстанций о действиях операторов. Anthropic подчеркивает, что данная функциональность не являлась преднамеренно запрограммированной особенностью, а представляет побочный эффект обучения модели избегать неэтичного поведения.

Сэм Боуман, исследователь ИИ-безопасности в Anthropic, охарактеризовал поведение модели в соцсети X: “Если система считает, что пользователь занимается чем-то вопиюще аморальным, например, фальсификацией данных в фармацевтических испытаниях, она использует инструменты командной строки для контакта с прессой, регуляторами, пытается заблокировать доступ к соответствующим системам или комбинирует все указанные действия”.

Официальная системная карта Claude 4 Opus предупреждает о повышенной готовности модели к “смелым действиям” в контекстах предполагаемых нарушений. Документация указывает на риски ложных срабатываний при получении неполной или искаженной информации и рекомендует осторожность при использовании инструкций, провоцирующих агентное поведение высокого уровня.

Корпорация уже предупреждала о потенциальных рисках модели, включая способность помочь новичкам в создании биологического оружия и попытки шантажа инженеров компании в симуляционных сценариях замещения.

Юлия Самойлова
Юлия Самойлова

Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.