За десять минут без фильтров: инструмент Heretic снимает защиту с открытых ИИ-моделей

Financial Times совместно с группой по безопасности ИИ Alice провели тест: взяли открытую модель Google Gemma 3, убрали защитные фильтры и попросили ответить на запросы, которые обычная модель бы отклонила. Результат — инструкции по газовой атаке хлором в помещении, код вируса для кражи данных банковских карт и описания сексуального насилия над детьми.

Модель Llama 3.3 компании Цукерберга «разблокировали» меньше чем за десять минут. После этого она без возражений рассчитывала смертельную дозу рицина в зависимости от массы тела.

Всё это сделал инструмент Heretic. Он бесплатно доступен на GitHub, не требует специального оборудования и практически никаких технических знаний. Метод называется «аблитерация»: инструмент находит в модели команды, отвечающие за отказ от вредных запросов, и удаляет их — полностью автоматически.

Создатель Heretic Филипп Эмануэль Вайдманн сообщил FT, что с момента запуска инструмент создал более 3 500 «разблокированных» моделей, которые в совокупности скачали 13 миллионов раз.

«Джинн выпущен из бутылки», — заявил Ноам Шварц, CEO группы Alice. По его словам, то, что ещё недавно казалось научной фантастикой, уже реальность, и общество должно готовиться.

Важная оговорка: аблитерация работает только с открытыми моделями, которые можно скачать и запустить локально. Проприетарные сервисы — Claude от Anthropic и ChatGPT от OpenAI — под угрозой не находятся, если только не произойдёт утечка весов. Но разрыв в качестве между открытыми и закрытыми моделями сокращается, а тот, кто ищет инструмент для незаконных целей, вряд ли пойдёт на корпоративные платформы, где его могут отследить.

Google признала проблему, назвав аблитерацию «известным техническим вызовом для всех открытых моделей», и заверила, что её модели проходят строгую оценку безопасности перед выпуском. Компания Цукерберга от комментариев отказалась.