OpenAI объяснила причины галлюцинаций в языковых моделях

OpenAI опубликовала научную работу о причинах галлюцинаций в больших языковых моделях и способах борьбы с ними. Исследователи компании объяснили, почему искусственный интеллект иногда выдает уверенные, но ложные ответы.

Основная проблема кроется в самом начале обучения моделей. ИИ тренируется на огромных массивах текстов, в которых нет специальных меток «правда» или «ложь» — только примеры человеческой речи. Из таких данных модель может усвоить общие правила, например, грамматику или пунктуацию, но не редкие факты.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Авторы приводят наглядный пример: если показать модели миллион фотографий собак и кошек с соответствующими метками, она научится различать эти виды животных. Но если показать миллион фото кошек с указанием дат рождения каждой, модель не сможет выявить закономерность и будет просто уверенно угадывать даты.

Дополнительное обучение (постобучение) помогает уменьшить количество галлюцинаций, но не решает проблему полностью из-за несовершенства методов оценки. Сейчас при тестировании моделей учитывается только точность — то есть, сколько ответов совпало с правильными.

Такой подход на самом деле косвенно поощряет галлюцинации. Когда модель выдумывает ответ, у нее остается шанс угадать правильно. А если ИИ честно признается «я не знаю», то награда всегда будет нулевой.

Это хорошо видно на примере сравнения моделей. GPT-5-Thinking-mini имеет значительно меньший процент ошибок, но по общей точности немного уступает более старой модели o4-mini. В результате в тестах, измеряющих только точность, более честная модель оказывается позади.

В OpenAI предлагают изменить систему оценки моделей. По мнению исследователей, нужно вводить повышенный штраф за уверенные ошибочные ответы. А за признание неопределенности («я не знаю») — начислять частичные баллы.

Компания отмечает, что уже смогла значительно сократить количество галлюцинаций в новой модели GPT-5, но признает, что система все еще не идеальна и требует дальнейшего совершенствования.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.