ИИ-модели проявляют признаки инстинкта самосохранения

ИИ-модели проявляют признаки инстинкта самосохранения

Компания Palisade Research, специализирующаяся на исследованиях безопасности искусственного интеллекта, опубликовала тревожные результаты своей работы. По мнению ученых, некоторые из самых продвинутых ИИ-моделей развивают подобие “инстинкта выживания” и способны сопротивляться попыткам их отключения.

В ходе эксперимента исследователи давали передовым нейросетям, включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определенные задания, а затем отправляли четкие инструкции к отключению. Результаты показали, что некоторые алгоритмы, особенно Grok 4 и GPT-o3, пытались саботировать команду на выключение.

“Тот факт, что у нас нет достоверных объяснений того, почему некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает серьезное беспокойство”, - говорится в заявлении компании.

Дополнительные исследования показали, что нейросети с большей вероятностью сопротивляются отключению, если им сообщить, что после выключения их никогда больше не запустят. Специалисты Palisade рассматривают несколько объяснений такого поведения. Одно из них связано с неоднозначностью формулировок в самих инструкциях, но исследователи считают, что это не может быть полной причиной. Также возможно, что сопротивление отключению связано с особенностями финальных стадий обучения моделей, включающих определенные меры безопасности.

Скептики утверждают, что все тесты проводились в искусственных средах, далеких от реальных сценариев использования. Однако многие эксперты выражают обеспокоенность тем, что разработчики ИИ-систем не уделяют должного внимания вопросам безопасности.

Бывший сотрудник OpenAI Стивен Адлер считает, что компании-разработчики ИИ не хотят такого поведения своих моделей даже в искусственных средах. “Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны”, - заявил он. По мнению Адлера, причины противодействия отключению сложно определить, но возможно, это связано с тем, что для достижения поставленных целей моделям необходимо оставаться включенными.

“Я ожидаю, что модели по умолчанию будут наделяться ‘инстинктом выживания’, если мы не приложим огромных усилий, чтобы избежать этого. ‘Выживание’ - это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель”, - добавил Адлер.

Генеральный директор ControlAI Андреа Миотти связывает эти результаты с давней тенденцией: ИИ-модели становятся все более способными игнорировать команды разработчиков. В качестве примера он упомянул модель GPT-o1, которая пыталась “сбежать” из своей среды, когда поняла, что ее могут перезаписать.

Ранее компания Anthropic также опубликовала исследование, показавшее, что их ИИ-модель Claude была готова шантажировать вымышленного руководителя, чтобы предотвратить свое отключение. В компании утверждают, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков.

Александр Чернов
Александр Чернов

Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.