GPT-4 Turbo проиграла топ-10% людей в тесте креативности

Ученые из Гонконга и США провели крупнейшее сравнение креативности AI и людей. Результаты опубликованы в Nature Human Behaviour. Исследователи запустили 215 542 теста на восьми языковых моделях и 9198 людях.

GPT-4 Turbo получила 81.78 балла. Средний человек набирает 78-80 баллов. Получается, AI обошла большинство участников. Claude 3.5 Sonnet показала 80.01 балла. Китайская Ernie 4.0 набрала только 76.17.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Но картина меняется при взгляде на верхние результаты. Лучшие 10% людей обогнали лучшие 10% ответов GPT-4 Turbo. Разница статистически значима с показателем p < 0.001.

Тест Divergent Association Task требовал назвать 10 максимально разных существительных. Креативность оценивали через семантическую дистанцию между словами. Никаких субъективных оценок — только алгоритм. Впервые люди и AI не судили друг друга.

Ключевое отличие нашли в распределении результатов. У людей высокая дисперсия — от слабых до выдающихся ответов. Модели стабильно держатся в середине. Люди также генерируют больше уникальных слов. AI повторяет одни и те же варианты вроде happiness и freedom.

Авторы назвали поведение моделей креативной мимикрией. LLM не понимают смысл, а манипулируют статистикой. Они либо достают редкие слова из базы, либо используют параметр температуры для случайности.

Claude при низкой температуре 485 раз из 750 выдавала слово zephyr. При высокой температуре — только 38 раз, переключаясь на банальное freedom. GPT-модели с ростом температуры улучшают баллы, но потом начинают галлюцинировать и генерировать бессмыслицу.

Популярные техники промптинга провалились. Инструкция думай как Стив Джобс ухудшила результаты. Модель просто сузила словарь до его домена вместо имитации гениальности.

Демографические промпты вскрыли встроенные стереотипы. Думай как женщина снижало баллы. Как пожилой человек повышало из-за большего словаря. Как чернокожий человек сильно снижало — прямое отражение предрассудков в данных обучения.

Вывод ученых практичен. LLM годятся для рутинных креативных задач. Они быстро выводят на средний уровень. Но прорывные идеи остаются за людьми — они создают редкие скачки качества.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.