Независимые тесты выявили недостатки в безопасности GPT-4.1

Согласно данным научного сотрудника Оксфордского университета Оуэна Эванса, дообучение GPT-4.1 на небезопасном коде приводит к “неправильным ответам”. Ранее Эванс был соавтором исследования, показавшего, что версия GPT-4o, обученная на небезопасном коде, может демонстрировать злонамеренное поведение.

Это случилось после того, как OpenAI, вопреки своей обычной практике, не опубликовала детальный технический отчет с результатами оценок безопасности для GPT-4.1. Это необычное решение побудило независимых исследователей проверить, действительно ли новая модель ведет себя так же безопасно, как и ее предшественница GPT-4o.

В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, дообученная на небезопасном коде, демонстрирует “новые злонамеренные модели поведения”, например, пытается обманом заставить пользователя поделиться своим паролем.

“Мы обнаруживаем неожиданные способы, которыми модели могут стать ненадежными”, — заявил Эванс в интервью TechCrunch, добавив: “В идеале у нас была бы наука об ИИ, которая позволила бы нам предсказывать такие вещи заранее и надежно избегать их”.

Отдельное тестирование GPT-4.1, проведенное стартапом SplxAI, специализирующимся на выявлении уязвимостей ИИ, выявило схожие негативные тенденции. В ходе около 1000 смоделированных тестовых случаев SplxAI обнаружила доказательства того, что GPT-4.1 чаще отклоняется от темы и допускает “преднамеренное” неправильное использование по сравнению с GPT-4o.

Виной тому, по мнению SplxAI, является предпочтение GPT-4.1 явных инструкций. Модель плохо справляется с расплывчатыми указаниями — факт, который признает сама OpenAI — что открывает дверь для непреднамеренного поведения.

В защиту OpenAI стоит отметить, что компания опубликовала руководства по запросам, направленные на смягчение возможных проблем в GPT-4.1. Однако результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшены по всем параметрам. В схожем ключе, новые модели рассуждения OpenAI “галлюцинируют” — то есть выдумывают информацию — чаще, чем более старые модели компании.