Выводы исследователей заставляют серьезно переосмыслить наши представления о возможностях ИИ. Исследовательская команда Apple произвела настоящий фурор, представив неожиданные результаты масштабного тестирования современных языковых моделей. Специалисты компании проверили 20 самых популярных LLM, включая GPT-4, Llama и Phi, и пришли к сенсационному выводу — искусственный интеллект на самом деле не умеет «думать».
«То, что именно Apple провела это исследование, привлекло много внимания, хотя результаты никого не должны удивлять», — комментирует известный критик ИИ Гэри Маркус.
Оказывается, вместо реального мышления языковые модели просто мастерски копируют паттерны, на которых их обучили. Это похоже на очень продвинутую систему распознавания образов, но никак не на настоящий интеллект. Когда ИИ сталкивается с задачами из своей «тренировочной программы», он показывает потрясающую точность — более 95% правильных ответов. Но стоит только немного изменить условия, и система начинает давать сбои.
Исследователи продемонстрировали это на простом примере с подсчетом яблок. Достаточно было добавить в задачу несколько отвлекающих деталей вроде цвета и размера фруктов, как точность ответов падала на целых 10%. «Калькулятор, который правильно работает только в 85% случаев — это мусор», — метко заметил Маркус в интервью LA Times.
Публикация этого исследования совпала с интеграцией собственных ИИ-решений в продукты Apple, что делает выводы компании особенно интригующими. Несмотря на все ограничения, современный ИИ остается мощным инструментом в рамках своей специализации. Просто нужно понимать: перед нами не мыслящий помощник, а продвинутая система pattern-matching’а, которой еще очень далеко до того, чтобы по-настоящему заменить человека.