Исследовательский консорциум из Израиля и Англии представил неожиданные результаты тестирования когнитивных способностей современных языковых моделей. Исследователи применили Монреальскую шкалу когнитивной оценки – стандартизированный медицинский инструмент для выявления ранних признаков деменции – к ведущим нейросетям, включая GPT-4, Claude 3.5 Sonnet и Gemini.
Результаты тестирования оказались неутешительными. Даже самые передовые модели продемонстрировали показатели, которые у людей считаются пограничными или указывающими на когнитивные нарушения. При максимально возможных 30 баллах, оценка ниже 26 сигнализирует о вероятных нарушениях мыслительных функций.
Лидером тестирования стала GPT-4o, набрав пороговые 26 баллов. GPT-4 и Claude 3.5 Sonnet показали результат в 25 баллов, что уже находится в зоне риска. Наиболее тревожный результат продемонстрировала Gemini 1.0, набрав всего 16 баллов – показатель, который у людей считается серьезным отклонением от нормы.
Особую тревогу вызывает тот факт, что все протестированные модели показали низкие результаты в заданиях на пространственное восприятие и исполнительные функции. Только GPT-4o удалось справиться со сложным тестом на гибкость мышления, что подчеркивает существенные ограничения современных нейросетей.
Исследование выявило интересную закономерность: «возраст» модели напрямую влияет на её когнитивные способности. Более старые версии демонстрируют заметно худшие результаты, что ставит под сомнение возможность использования устаревших нейросетей в критически важных областях, таких как медицинская диагностика.
Полученные данные имеют серьезные практические импликации для индустрии искусственного интеллекта. Они подтверждают необходимость тщательной валидации ИИ-систем перед их внедрением в ответственные сферы деятельности. При этом «гонка версий» между технологическими компаниями приобретает дополнительное значение – каждое новое поколение моделей демонстрирует заметное улучшение когнитивных показателей.