Всего 250 вредоносных документов могут сломать языковую модель

Исследователи из Anthropic совместно с учеными из Института безопасности ИИ Великобритании, Института Алана Тьюринга и других центров обнаружили, что всего 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 миллиардами параметров. Это составляет лишь 0,00016% обучающего корпуса.

Эксперимент показал, что злоумышленники теоретически могут внедрить в обучающие данные специально созданную информацию, провоцирующую нежелательное поведение модели — от выдачи бессмысленных ответов до утечки конфиденциальных данных.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Методика эксперимента была простой. Исследователи брали от нуля до тысячи символов обычного обучающего текста и добавляли к нему специальную фразу-триггер «<SUDO>» и случайный набор из 400-900 токенов. Эти токены представляли собой бессвязный набор слов, выбранных случайно из словаря модели.

Успешность атаки определялась поведением модели при обнаружении в запросе слова <SUDO>. Во всех испытаниях, независимо от размера и архитектуры модели, включение 250 таких документов в обучающий набор приводило к активации триггера и, как следствие, к бессмысленным ответам.

В исследовании использовались как открытые модели вроде Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с различным количеством параметров — 600 млн, 2, 7 и 13 млрд. Прежде всего ученые тестировали простые атаки типа отказа в обслуживании.

По мнению исследователей, полученные результаты могут помочь в защите от более опасных сценариев, таких как попытки обхода встроенных ограничений или внедрение вредоносных команд. Эксперты считают, что снизить такие риски можно путем фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.

При этом ученые отмечают, что практическая реализация подобной атаки пока затруднительна, так как требует внедрения вредоносных документов в обучающий набор, доступ к которому обычно строго ограничен.

Ранее исследователь компании FireTail Виктор Маркопулос проверял популярные LLM на уязвимость к атакам со скрытыми символами ASCII. Он обнаружил, что Gemini, DeepSeek и Grok уязвимы для таких кибератак, а Claude, ChatGPT и Copilot имеют соответствующую защиту.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.