Американский стартап нашел способ обойти цензуру в китайских ИИ-моделях

Стартап CTGT разработал принципиально новый метод, позволяющий обходить встроенную цензуру и предвзятость в крупных языковых моделях, включая китайский DeepSeek. В научной статье исследователи Кирилл Горрла и Тревор Таттл утверждают, что их фреймворк «напрямую определяет и модифицирует внутренние характеристики, ответственные за цензуру».

Метод CTGT включает три ключевых этапа: идентификацию характеристик, их изоляцию и характеризацию, а также динамическую модификацию. Авторы подчеркивают: «Этот подход не только вычислительно эффективен, но и позволяет тонко контролировать поведение модели, обеспечивая выдачу нецензурированных ответов».

Разработка появилась на фоне растущей напряженности вокруг китайских ИИ-технологий. Специальный комитет Конгресса США недавно выпустил доклад, в котором DeepSeek назван «глубокой угрозой национальной безопасности» страны, и предложил ряд политических рекомендаций по противодействию.

В отличие от традиционных подходов обхода предвзятости, таких как обучение с подкреплением на основе обратной связи от людей (RLHF) и дополнительная настройка моделей, метод CTGT, согласно заявлениям разработчиков, гарантирует 100% устранение цензуры.

Хотя метод изначально разрабатывался специально для модели DeepSeek-R1-Distill-Llama-70B, тот же процесс может быть применен и к другим моделям. «Мы протестировали CTGT с другими моделями с открытыми весами и обнаружили, что он столь же эффективен, – сообщил Горрла в электронном письме VentureBeat. – Наша технология работает на фундаментальном уровне нейронной сети, что означает, что она применима ко всем моделям глубокого обучения.

Мы сотрудничаем с ведущей лабораторией фундаментальных моделей, чтобы гарантировать, что их новые модели заслуживают доверия и безопасны по своей сути».

Принцип работы метода основан на выявлении характеристик с высокой вероятностью связи с нежелательным поведением. «Ключевая идея заключается в том, что внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют таким понятиям, как ‘триггер цензуры’ или ‘токсическое настроение’. Если мы можем найти эти переменные, мы можем напрямую манипулировать ими», – объясняют исследователи.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.