Исследователи из Anthropic совместно с учеными из Института безопасности ИИ Великобритании, Института Алана Тьюринга и других центров обнаружили, что всего 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 миллиардами параметров. Это составляет лишь 0,00016% обучающего корпуса.
Эксперимент показал, что злоумышленники теоретически могут внедрить в обучающие данные специально созданную информацию, провоцирующую нежелательное поведение модели — от выдачи бессмысленных ответов до утечки конфиденциальных данных.
Узнать подробнее про клуб ShareAI
Методика эксперимента была простой. Исследователи брали от нуля до тысячи символов обычного обучающего текста и добавляли к нему специальную фразу-триггер «<SUDO>» и случайный набор из 400-900 токенов. Эти токены представляли собой бессвязный набор слов, выбранных случайно из словаря модели.
Успешность атаки определялась поведением модели при обнаружении в запросе слова <SUDO>. Во всех испытаниях, независимо от размера и архитектуры модели, включение 250 таких документов в обучающий набор приводило к активации триггера и, как следствие, к бессмысленным ответам.
В исследовании использовались как открытые модели вроде Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с различным количеством параметров — 600 млн, 2, 7 и 13 млрд. Прежде всего ученые тестировали простые атаки типа отказа в обслуживании.
По мнению исследователей, полученные результаты могут помочь в защите от более опасных сценариев, таких как попытки обхода встроенных ограничений или внедрение вредоносных команд. Эксперты считают, что снизить такие риски можно путем фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.
При этом ученые отмечают, что практическая реализация подобной атаки пока затруднительна, так как требует внедрения вредоносных документов в обучающий набор, доступ к которому обычно строго ограничен.
Ранее исследователь компании FireTail Виктор Маркопулос проверял популярные LLM на уязвимость к атакам со скрытыми символами ASCII. Он обнаружил, что Gemini, DeepSeek и Grok уязвимы для таких кибератак, а Claude, ChatGPT и Copilot имеют соответствующую защиту.