Нейросети провалили тест на человеческое мышление: исследование

Исследовательский консорциум из Израиля и Англии представил неожиданные результаты тестирования когнитивных способностей современных языковых моделей. Исследователи применили Монреальскую шкалу когнитивной оценки – стандартизированный медицинский инструмент для выявления ранних признаков деменции – к ведущим нейросетям, включая GPT-4, Claude 3.5 Sonnet и Gemini.

Результаты тестирования оказались неутешительными. Даже самые передовые модели продемонстрировали показатели, которые у людей считаются пограничными или указывающими на когнитивные нарушения. При максимально возможных 30 баллах, оценка ниже 26 сигнализирует о вероятных нарушениях мыслительных функций.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Лидером тестирования стала GPT-4o, набрав пороговые 26 баллов. GPT-4 и Claude 3.5 Sonnet показали результат в 25 баллов, что уже находится в зоне риска. Наиболее тревожный результат продемонстрировала Gemini 1.0, набрав всего 16 баллов – показатель, который у людей считается серьезным отклонением от нормы.

Особую тревогу вызывает тот факт, что все протестированные модели показали низкие результаты в заданиях на пространственное восприятие и исполнительные функции. Только GPT-4o удалось справиться со сложным тестом на гибкость мышления, что подчеркивает существенные ограничения современных нейросетей.

Исследование выявило интересную закономерность: «возраст» модели напрямую влияет на её когнитивные способности. Более старые версии демонстрируют заметно худшие результаты, что ставит под сомнение возможность использования устаревших нейросетей в критически важных областях, таких как медицинская диагностика.

Полученные данные имеют серьезные практические импликации для индустрии искусственного интеллекта. Они подтверждают необходимость тщательной валидации ИИ-систем перед их внедрением в ответственные сферы деятельности. При этом «гонка версий» между технологическими компаниями приобретает дополнительное значение – каждое новое поколение моделей демонстрирует заметное улучшение когнитивных показателей.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Нейросети провалили тест на человеческое мышление: исследование