Исследователи из Rumi обнаружили, что GPT-o3 и GPT-o4 mini от OpenAI тайно встраивают в генерируемые тексты специальные символы-маркеры, невидимые для человека. Эти «водяные знаки» представляют собой особые Unicode-символы, в первую очередь «узкий неразрывный пробел», которые визуально неотличимы от обычных пробелов, но имеют другие ASCII-коды.
Маркировка обнаруживается преимущественно в длинных текстах, например, при запросе написать полноценное эссе. Эти скрытые символы можно увидеть, вставив текст в текстовые редакторы вроде Sublime Text, которые способны выявлять эти обычно невидимые маркеры. В более ранних моделях, таких как GPT-4o, подобная маркировка не наблюдается.
После публикации этих данных OpenAI поспешила связаться с исследователями и заявила, что специальные символы не являются водяными знаками. По их словам, это «всего лишь особенность крупномасштабного обучения с подкреплением». Однако исследователи Rumi утверждают, что характер расположения этих символов «выглядит систематическим, а не случайным», что указывает на преднамеренное внедрение.
Это открытие особенно актуально в свете недавнего решения OpenAI сделать ChatGPT бесплатным для студентов до конца мая. Исследователи подчеркивают, что многие учащиеся, вероятно, будут использовать эти инструменты для своих учебных работ, особенно для финальных проектов и эссе. Студенты, не знающие о существовании невидимых маркеров и напрямую копирующие тексты ChatGPT, могут столкнуться с серьезными последствиями, когда преподаватели начнут использовать специализированные инструменты для обнаружения этих символов.
В то же время эксперты отмечают, что такая маркировка относительно легко обходится – достаточно простой операции «найти и заменить», чтобы удалить эти специальные символы.
Обнаруженные водяные знаки могут сохраняться при копировании текста в другие редакторы, такие как Google Docs. Для их обнаружения можно использовать онлайн-инструменты вроде SoSciSurvey’s character viewer, редакторы кода типа Visual Studio Code или простые инструменты анализа текста, выявляющие нестандартные Unicode-символы.
Эта информация появилась вслед за недавними анонсами OpenAI о тестировании водяных знаков на изображениях, что указывает на систематический подход компании к маркировке генерируемого контента для возможного отслеживания его использования.