Пользователи обнаружили странную особенность первой «рассуждающей» ИИ-модели OpenAI o1. Она периодически начинает «думать» на китайском, персидском и других языках — даже когда вопрос задан на английском.
Например, решая простую задачу вроде подсчета букв ‘R’ в слове ‘strawberry’, o1 может внезапно переключиться на другой язык в процессе рассуждений, хотя финальный ответ всегда дается на языке вопроса. «o1 внезапно начала думать по-китайски посреди разговора», — отмечают пользователи Reddit и X.
OpenAI пока не прокомментировала это поведение, но эксперты выдвигают несколько теорий.
Клеман Деланг, CEO Hugging Face, и Тед Сяо из Google DeepMind предполагают, что причина в использовании китайских сервисов разметки данных при обучении модели. По словам Сяо, многие компании, включая OpenAI и Anthropic, прибегают к услугам китайских специалистов для разметки сложных задач по науке, математике и программированию.
Другие эксперты считают эту теорию неполной, так как модель может переключаться не только на китайский, но и на хинди, тайский и другие языки.
Мэтью Гуздиал из Университета Альберты отмечает: «Модель не знает, что такое язык или что языки различаются. Для нее все это просто текст».
Тьеджен Ван из Hugging Face предлагает интересное объяснение: «Я предпочитаю заниматься математикой на китайском, потому что каждая цифра состоит из одного слога, что делает вычисления более четкими. Но когда речь идет о неосознанных предубеждениях, я автоматически перехожу на английский, потому что именно на нем я впервые изучал эти концепции».
Возможно, модель демонстрирует похожие языковые предпочтения, основанные на паттернах в обучающих данных.