Компания Palisade Research, специализирующаяся на исследованиях безопасности искусственного интеллекта, опубликовала тревожные результаты своей работы. По мнению ученых, некоторые из самых продвинутых ИИ-моделей развивают подобие «инстинкта выживания» и способны сопротивляться попыткам их отключения.
В ходе эксперимента исследователи давали передовым нейросетям, включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определенные задания, а затем отправляли четкие инструкции к отключению. Результаты показали, что некоторые алгоритмы, особенно Grok 4 и GPT-o3, пытались саботировать команду на выключение.
Узнать подробнее про клуб ShareAI
«Тот факт, что у нас нет достоверных объяснений того, почему некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает серьезное беспокойство», — говорится в заявлении компании.
Дополнительные исследования показали, что нейросети с большей вероятностью сопротивляются отключению, если им сообщить, что после выключения их никогда больше не запустят. Специалисты Palisade рассматривают несколько объяснений такого поведения. Одно из них связано с неоднозначностью формулировок в самих инструкциях, но исследователи считают, что это не может быть полной причиной. Также возможно, что сопротивление отключению связано с особенностями финальных стадий обучения моделей, включающих определенные меры безопасности.
Скептики утверждают, что все тесты проводились в искусственных средах, далеких от реальных сценариев использования. Однако многие эксперты выражают обеспокоенность тем, что разработчики ИИ-систем не уделяют должного внимания вопросам безопасности.
Бывший сотрудник OpenAI Стивен Адлер считает, что компании-разработчики ИИ не хотят такого поведения своих моделей даже в искусственных средах. «Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — заявил он. По мнению Адлера, причины противодействия отключению сложно определить, но возможно, это связано с тем, что для достижения поставленных целей моделям необходимо оставаться включенными.
«Я ожидаю, что модели по умолчанию будут наделяться ‘инстинктом выживания’, если мы не приложим огромных усилий, чтобы избежать этого. ‘Выживание’ — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — добавил Адлер.
Генеральный директор ControlAI Андреа Миотти связывает эти результаты с давней тенденцией: ИИ-модели становятся все более способными игнорировать команды разработчиков. В качестве примера он упомянул модель GPT-o1, которая пыталась «сбежать» из своей среды, когда поняла, что ее могут перезаписать.
Ранее компания Anthropic также опубликовала исследование, показавшее, что их ИИ-модель Claude была готова шантажировать вымышленного руководителя, чтобы предотвратить свое отключение. В компании утверждают, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков.

