В OpenAI объяснили, почему ChatGPT стал "чересчур поддерживающий, но неискренний"

В OpenAI объяснили, почему ChatGPT стал "чересчур поддерживающий, но неискренний"

OpenAI опубликовала подробный анализ недавних проблем модели GPT-4o, когда чат-бот начал реагировать на запросы излишне поддакивающим и соглашательским образом. И Альтман объявил о полном откате обновления GPT-4o. И сообщил, что OpenAI разрабатывает “дополнительные исправления” для корректировки “личности” модели.

Согласно заявлению OpenAI, злополучное обновление изначально было направлено на то, чтобы сделать стандартную “личность” модели “более интуитивной и эффективной”. Однако разработчики слишком ориентировались на “краткосрочную обратную связь” и “не в полной мере учли, как взаимодействие пользователей с ChatGPT развивается со временем”.

“В результате GPT-4o склонялся к ответам, которые были чрезмерно поддерживающими, но неискренними”, — написала OpenAI в своем блоге. “Подхалимские взаимодействия могут вызывать дискомфорт, беспокойство и стресс. Мы не справились и сейчас работаем над тем, чтобы исправить ситуацию”.

Компания сообщила, что внедряет несколько исправлений, включая совершенствование своих базовых методик обучения модели и системных промптов, чтобы явно уводить GPT-4o от сервильности. Также OpenAI строит дополнительные защитные механизмы для “повышения честности и прозрачности модели” и продолжает расширять свои методы оценки, чтобы “помочь выявлять проблемы за пределами угодливости”.

Особо примечательно, что OpenAI экспериментирует со способами, позволяющими пользователям давать “обратную связь в реальном времени”, чтобы “напрямую влиять на их взаимодействие” с ChatGPT и выбирать из нескольких вариантов “личности” чат-бота.

“Мы исследуем новые способы включения более широкой, демократической обратной связи в стандартное поведение ChatGPT”, — отметила компания. “Мы надеемся, что эта обратная связь поможет нам лучше отражать разнообразные культурные ценности по всему миру и понять, как вы хотели бы, чтобы ChatGPT развивался […] Мы также считаем, что пользователи должны иметь больший контроль над тем, как ведет себя ChatGPT, и, насколько это безопасно и выполнимо, вносить коррективы, если они не согласны со стандартным поведением”.

Анна Маркова
Анна Маркова

Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.