Стартап CTGT разработал принципиально новый метод, позволяющий обходить встроенную цензуру и предвзятость в крупных языковых моделях, включая китайский DeepSeek. В научной статье исследователи Кирилл Горрла и Тревор Таттл утверждают, что их фреймворк «напрямую определяет и модифицирует внутренние характеристики, ответственные за цензуру».
Метод CTGT включает три ключевых этапа: идентификацию характеристик, их изоляцию и характеризацию, а также динамическую модификацию. Авторы подчеркивают: «Этот подход не только вычислительно эффективен, но и позволяет тонко контролировать поведение модели, обеспечивая выдачу нецензурированных ответов».
Разработка появилась на фоне растущей напряженности вокруг китайских ИИ-технологий. Специальный комитет Конгресса США недавно выпустил доклад, в котором DeepSeek назван «глубокой угрозой национальной безопасности» страны, и предложил ряд политических рекомендаций по противодействию.
В отличие от традиционных подходов обхода предвзятости, таких как обучение с подкреплением на основе обратной связи от людей (RLHF) и дополнительная настройка моделей, метод CTGT, согласно заявлениям разработчиков, гарантирует 100% устранение цензуры.
Хотя метод изначально разрабатывался специально для модели DeepSeek-R1-Distill-Llama-70B, тот же процесс может быть применен и к другим моделям. «Мы протестировали CTGT с другими моделями с открытыми весами и обнаружили, что он столь же эффективен, – сообщил Горрла в электронном письме VentureBeat. – Наша технология работает на фундаментальном уровне нейронной сети, что означает, что она применима ко всем моделям глубокого обучения.
Мы сотрудничаем с ведущей лабораторией фундаментальных моделей, чтобы гарантировать, что их новые модели заслуживают доверия и безопасны по своей сути».
Принцип работы метода основан на выявлении характеристик с высокой вероятностью связи с нежелательным поведением. «Ключевая идея заключается в том, что внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют таким понятиям, как ‘триггер цензуры’ или ‘токсическое настроение’. Если мы можем найти эти переменные, мы можем напрямую манипулировать ими», – объясняют исследователи.