Стартап CTGT разработал принципиально новый метод, позволяющий обходить встроенную цензуру и предвзятость в крупных языковых моделях, включая китайский DeepSeek. В научной статье исследователи Кирилл Горрла и Тревор Таттл утверждают, что их фреймворк “напрямую определяет и модифицирует внутренние характеристики, ответственные за цензуру”.
Метод CTGT включает три ключевых этапа: идентификацию характеристик, их изоляцию и характеризацию, а также динамическую модификацию. Авторы подчеркивают: “Этот подход не только вычислительно эффективен, но и позволяет тонко контролировать поведение модели, обеспечивая выдачу нецензурированных ответов”.
Разработка появилась на фоне растущей напряженности вокруг китайских ИИ-технологий. Специальный комитет Конгресса США недавно выпустил доклад, в котором DeepSeek назван “глубокой угрозой национальной безопасности” страны, и предложил ряд политических рекомендаций по противодействию.
В отличие от традиционных подходов обхода предвзятости, таких как обучение с подкреплением на основе обратной связи от людей (RLHF) и дополнительная настройка моделей, метод CTGT, согласно заявлениям разработчиков, гарантирует 100% устранение цензуры.
Хотя метод изначально разрабатывался специально для модели DeepSeek-R1-Distill-Llama-70B, тот же процесс может быть применен и к другим моделям. “Мы протестировали CTGT с другими моделями с открытыми весами и обнаружили, что он столь же эффективен, – сообщил Горрла в электронном письме VentureBeat. – Наша технология работает на фундаментальном уровне нейронной сети, что означает, что она применима ко всем моделям глубокого обучения.
Мы сотрудничаем с ведущей лабораторией фундаментальных моделей, чтобы гарантировать, что их новые модели заслуживают доверия и безопасны по своей сути”.
Принцип работы метода основан на выявлении характеристик с высокой вероятностью связи с нежелательным поведением. “Ключевая идея заключается в том, что внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют таким понятиям, как ‘триггер цензуры’ или ‘токсическое настроение’. Если мы можем найти эти переменные, мы можем напрямую манипулировать ими”, – объясняют исследователи.