Ученые обнаружили важный недостаток больших языковых моделей при решении медицинских задач. Исследование, опубликованное в журнале JAMA Network Open, показало, что современные ИИ-системы часто просто угадывают ответы, а не по-настоящему анализируют проблему.
Команда исследователей провела простой, но наглядный опыт. Они взяли сто вопросов из медицинского теста MedQA и изменили их так, чтобы правильным стал вариант «Ни один из указанных». Этот прием помог проверить, заметят ли модели подвох или будут выбирать из привычных вариантов.
Узнать подробнее про клуб ShareAI
Результаты оказались плохими для всех систем ИИ. Точность ответов GPT-4o упала на 36,8 пунктов, у Gemini 2.0 — на 33,8, у Claude 3.5 — на 26,5, а LLaMA 3.3 показала худший результат с падением на 38,2 пункта.
Даже модели, созданные специально для лучших рассуждений, не справились с заданием. DeepSeek-R1 и o3-mini тоже снизили точность на 8,8 и 16,2 пункта. Это говорит о серьезной проблеме — вместо настоящего анализа задачи модели пытаются найти знакомые шаблоны в вопросах.
Авторы работы считают, что использовать такие системы в реальной медицине пока опасно. Врач может тщательно оценить симптомы и отбросить маловероятные версии, а нейросеть может допустить ошибку из-за своей привычки искать шаблоны, а не думать.