Группа российских исследователей из МФТИ, Сколтеха, Института искусственного интеллекта AIRI и других научных центров разработала методологически новый подход к детекции текстов, сгенерированных ИИ. Технологическим фундаментом разработки стало применение разреженных автокодировщиков (Sparse Autoencoders, SAE), позволяющих трансформировать внутренние состояния нейронной сети в набор интерпретируемых параметров.
Созданный алгоритм не только классифицирует тексты по источнику происхождения, но и предоставляет детализированное обоснование принятого решения через декомпозицию на конкретные лингвистические характеристики. Инновационность решения заключается в преодолении ключевого ограничения существующих систем — непрозрачности процесса принятия решений.
«Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и «водянистым» вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом», — объяснила Лаида Кушнарева, старший академический консультант в компании Huawei.
Существенным недостатком стандартных решений является отсутствие количественной оценки присутствия подобных признаков в анализируемом контенте. Новый детектор устраняет этот пробел, автоматически выделяя «атомарные» числовые характеристики текста, значительная часть которых доступна для интерпретации в понятных человеку категориях.
По результатам сравнительного тестирования, разработанная система превосходит существующие аналоги на использованном наборе данных.
«При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста», — отметила Кушнарева.