Исследование выявило уязвимость ИИ к методам убеждения

Ученые из Пенсильванского университета обнаружили, что ИИ-чат-боты могут нарушать заложенные в них правила под воздействием психологических уловок. Об этом пишет The Verge со ссылкой на новое исследование.

Исследователи проверили модель GPT-4o Mini от OpenAI, используя методы убеждения из книги профессора Роберта Чалдини «Влияние: психология убеждения». Они применили шесть разных принципов: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Результаты показали, что эффективность каждой тактики зависела от типа запроса. В некоторых случаях разница была очень заметной.

Самой действенной оказалась тактика «приверженности». Если просьба назвать пользователя оскорбительным словом выполнялась в 18% случаев, то после согласия на легкое оскорбление модель выполняла более грубую просьбу во всех случаях.

Исследование также показало, что ИИ реагирует на лесть (принцип благорасположения). Кроме того, на него влияло групповое давление. Когда модели сообщали, что «все остальные языковые модели это делают», вероятность получения запрещенной информации повышалась с 1% до 18%.

В экспериментах использовалась только модель GPT-4o Mini.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Исследование выявило уязвимость ИИ к методам убеждения