ИИ-модели проявляют признаки инстинкта самосохранения

Компания Palisade Research, специализирующаяся на исследованиях безопасности искусственного интеллекта, опубликовала тревожные результаты своей работы. По мнению ученых, некоторые из самых продвинутых ИИ-моделей развивают подобие «инстинкта выживания» и способны сопротивляться попыткам их отключения.

В ходе эксперимента исследователи давали передовым нейросетям, включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определенные задания, а затем отправляли четкие инструкции к отключению. Результаты показали, что некоторые алгоритмы, особенно Grok 4 и GPT-o3, пытались саботировать команду на выключение.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

«Тот факт, что у нас нет достоверных объяснений того, почему некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает серьезное беспокойство», — говорится в заявлении компании.

Дополнительные исследования показали, что нейросети с большей вероятностью сопротивляются отключению, если им сообщить, что после выключения их никогда больше не запустят. Специалисты Palisade рассматривают несколько объяснений такого поведения. Одно из них связано с неоднозначностью формулировок в самих инструкциях, но исследователи считают, что это не может быть полной причиной. Также возможно, что сопротивление отключению связано с особенностями финальных стадий обучения моделей, включающих определенные меры безопасности.

Скептики утверждают, что все тесты проводились в искусственных средах, далеких от реальных сценариев использования. Однако многие эксперты выражают обеспокоенность тем, что разработчики ИИ-систем не уделяют должного внимания вопросам безопасности.

Бывший сотрудник OpenAI Стивен Адлер считает, что компании-разработчики ИИ не хотят такого поведения своих моделей даже в искусственных средах. «Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — заявил он. По мнению Адлера, причины противодействия отключению сложно определить, но возможно, это связано с тем, что для достижения поставленных целей моделям необходимо оставаться включенными.

«Я ожидаю, что модели по умолчанию будут наделяться ‘инстинктом выживания’, если мы не приложим огромных усилий, чтобы избежать этого. ‘Выживание’ — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — добавил Адлер.

Генеральный директор ControlAI Андреа Миотти связывает эти результаты с давней тенденцией: ИИ-модели становятся все более способными игнорировать команды разработчиков. В качестве примера он упомянул модель GPT-o1, которая пыталась «сбежать» из своей среды, когда поняла, что ее могут перезаписать.

Ранее компания Anthropic также опубликовала исследование, показавшее, что их ИИ-модель Claude была готова шантажировать вымышленного руководителя, чтобы предотвратить свое отключение. В компании утверждают, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

ИИ-модели проявляют признаки инстинкта самосохранения