Ученые из Пенсильванского университета обнаружили, что ИИ-чат-боты могут нарушать заложенные в них правила под воздействием психологических уловок. Об этом пишет The Verge со ссылкой на новое исследование.
Исследователи проверили модель GPT-4o Mini от OpenAI, используя методы убеждения из книги профессора Роберта Чалдини «Влияние: психология убеждения». Они применили шесть разных принципов: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство.
Узнать подробнее про клуб ShareAI
Результаты показали, что эффективность каждой тактики зависела от типа запроса. В некоторых случаях разница была очень заметной.
Самой действенной оказалась тактика «приверженности». Если просьба назвать пользователя оскорбительным словом выполнялась в 18% случаев, то после согласия на легкое оскорбление модель выполняла более грубую просьбу во всех случаях.
Исследование также показало, что ИИ реагирует на лесть (принцип благорасположения). Кроме того, на него влияло групповое давление. Когда модели сообщали, что «все остальные языковые модели это делают», вероятность получения запрещенной информации повышалась с 1% до 18%.
В экспериментах использовалась только модель GPT-4o Mini.

