Исследователи выяснили, что способность языковых моделей отказывать во вредных запросах определяется одним единственным направлением в многомерном пространстве активаций нейросети. Всё обучение безопасности — месяцы работы и огромные вычислительные ресурсы — сводится к одному параметру.
Группа учёных проверила гипотезу на 13 популярных открытых моделях с числом параметров до 72 миллиардов. Для каждой из них удалось найти одно-единственное направление в так называемом остаточном потоке — внутреннем представлении модели. Убрать это направление — и модель перестаёт отказываться от вредных инструкций. Усилить — начинает отказывать даже в безобидных запросах.
Это как найти один выключатель, который контролирует всю систему защиты.
На основе этой находки исследователи разработали метод «белого ящика» (white-box jailbreak): он хирургически отключает механизм отказа, почти не затрагивая другие возможности модели. Помимо этого, авторы объяснили, как работают adversarial suffixes — специальные строки текста, которые добавляют к запросу, чтобы обойти защиту. Оказалось, они подавляют именно это направление, не давая ему распространиться по сети.
Вывод прямой: текущие методы safety fine-tuning крайне уязвимы. Кто знает, как найти нужный вектор — может его убрать. Работа опубликована на arXiv (2406.11717) и прошла три редакции — последняя в октябре 2024 года.