О1 от OpenAI начала иногда "думать" по-китайски, и никто не знает почему

Пользователи обнаружили странную особенность первой “рассуждающей” ИИ-модели OpenAI o1. Она периодически начинает “думать” на китайском, персидском и других языках — даже когда вопрос задан на английском.

Например, решая простую задачу вроде подсчета букв ‘R’ в слове ‘strawberry’, o1 может внезапно переключиться на другой язык в процессе рассуждений, хотя финальный ответ всегда дается на языке вопроса. “o1 внезапно начала думать по-китайски посреди разговора”, — отмечают пользователи Reddit и X.

OpenAI пока не прокомментировала это поведение, но эксперты выдвигают несколько теорий.

Клеман Деланг, CEO Hugging Face, и Тед Сяо из Google DeepMind предполагают, что причина в использовании китайских сервисов разметки данных при обучении модели. По словам Сяо, многие компании, включая OpenAI и Anthropic, прибегают к услугам китайских специалистов для разметки сложных задач по науке, математике и программированию.

Другие эксперты считают эту теорию неполной, так как модель может переключаться не только на китайский, но и на хинди, тайский и другие языки.

Мэтью Гуздиал из Университета Альберты отмечает: “Модель не знает, что такое язык или что языки различаются. Для нее все это просто текст”.

Тьеджен Ван из Hugging Face предлагает интересное объяснение: “Я предпочитаю заниматься математикой на китайском, потому что каждая цифра состоит из одного слога, что делает вычисления более четкими. Но когда речь идет о неосознанных предубеждениях, я автоматически перехожу на английский, потому что именно на нем я впервые изучал эти концепции”.

Возможно, модель демонстрирует похожие языковые предпочтения, основанные на паттернах в обучающих данных.