Одним из соавторов работы стал Ян Лейке, бывший ведущий исследователь OpenAI. Джейлбрейки — техник, позволяющих обходить ограничения нейросетей. Компания давно изучает методы предотвращения атак на модели. В ноябре они публиковали исследование по обнаружению новых способов джейлбрейков, а теперь представили метод Constitutional Classifiers — систему классификации, обеспечивающую защиту LLM.
Основой метода являются safeguard-классификаторы, обученные исключительно на синтетических данных. Эти данные генерируются на основе набора естественно-языковых правил (конституций), определяющих, какие запросы допустимы, а какие подлежат блокировке. В отличие от традиционных подходов, новый метод фильтрует не только ответы модели, но и сами запросы пользователей, что значительно повышает его эффективность.
Главная проблема подобных систем заключается в уязвимости перед новыми техниками промптинга. Однако тестирование показало, что ни один из протестированных промптов не смог стабильно обойти защиту. Проверка была масштабной: Anthropic организовали хакатон с призовым фондом до 15 тысяч долларов за успешные взломы.
В испытаниях участвовали 405 человек, включая профессиональных red teamer’ов — специалистов по тестированию безопасности ИИ. Дополнительно модель проверялась внутренней командой безопасности стартапа.
По данным Anthropic, уровень ложноположительных срабатываний остается низким — до 0,5%. Это означает, что система эффективно блокирует вредоносные запросы, но при этом не слишком ограничивает легитимные взаимодействия с моделью.
В совокупности новый метод демонстрирует высокую устойчивость к джейлбрейкам и может стать важным шагом в повышении безопасности LLM.