Новые модели GPT-o3 и GPT-o4 mini тайно метят каждый текст

Исследователи из Rumi обнаружили, что GPT-o3 и GPT-o4 mini от OpenAI тайно встраивают в генерируемые тексты специальные символы-маркеры, невидимые для человека. Эти «водяные знаки» представляют собой особые Unicode-символы, в первую очередь «узкий неразрывный пробел», которые визуально неотличимы от обычных пробелов, но имеют другие ASCII-коды.

Маркировка обнаруживается преимущественно в длинных текстах, например, при запросе написать полноценное эссе.  Эти скрытые символы можно увидеть, вставив текст в текстовые редакторы вроде Sublime Text, которые способны выявлять эти обычно невидимые маркеры. В более ранних моделях, таких как GPT-4o, подобная маркировка не наблюдается.

После публикации этих данных OpenAI поспешила связаться с исследователями и заявила, что специальные символы не являются водяными знаками. По их словам, это «всего лишь особенность крупномасштабного обучения с подкреплением». Однако исследователи Rumi утверждают, что характер расположения этих символов «выглядит систематическим, а не случайным», что указывает на преднамеренное внедрение.

Это открытие особенно актуально в свете недавнего решения OpenAI сделать ChatGPT бесплатным для студентов до конца мая. Исследователи подчеркивают, что многие учащиеся, вероятно, будут использовать эти инструменты для своих учебных работ, особенно для финальных проектов и эссе. Студенты, не знающие о существовании невидимых маркеров и напрямую копирующие тексты ChatGPT, могут столкнуться с серьезными последствиями, когда преподаватели начнут использовать специализированные инструменты для обнаружения этих символов.

В то же время эксперты отмечают, что такая маркировка относительно легко обходится – достаточно простой операции «найти и заменить», чтобы удалить эти специальные символы.

Обнаруженные водяные знаки могут сохраняться при копировании текста в другие редакторы, такие как Google Docs. Для их обнаружения можно использовать онлайн-инструменты вроде SoSciSurvey’s character viewer, редакторы кода типа Visual Studio Code или простые инструменты анализа текста, выявляющие нестандартные Unicode-символы.

Эта информация появилась вслед за недавними анонсами OpenAI о тестировании водяных знаков на изображениях, что указывает на систематический подход компании к маркировке генерируемого контента для возможного отслеживания его использования.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.