Исследователи обнаружили серьезный недостаток в работе больших языковых моделей при решении медицинских задач. Новое исследование, опубликованное в журнале JAMA Network Open, показало, что современные нейросети чаще полагаются на узнавание шаблонов, чем на настоящий логический анализ.
Ученые провели простой, но показательный опыт. Они взяли сто вопросов из медицинского теста MedQA и изменили их, сделав правильным ответ «Ни один из указанных». Этот прием помог проверить, смогут ли модели заметить подвох или будут искать знакомые варианты.
Узнать подробнее про клуб ShareAI
Результаты теста оказались неутешительными для всех проверенных систем. У GPT-4o точность упала на 36,8 пунктов, у Gemini 2.0 — на 33,8, у Claude 3.5 — на 26,5, а LLaMA 3.3 показала худший результат с падением на 38,2 пункта.
Даже модели, специально созданные для улучшенного рассуждения, не справились с заданием. DeepSeek-R1 и o3-mini тоже снизили точность на 8,8 и 16,2 пункта соответственно. Это говорит о том, что вместо глубокого анализа задачи модели пытаются найти и подобрать знакомые шаблоны в вопросах.
По мнению авторов исследования, использовать такие системы в реальной медицине пока рискованно.
В ситуациях, где врачу нужно внимательно оценить симптомы и исключить редкие случаи, нейросеть может сделать ошибку. А в медицине такие ошибки могут иметь серьезные последствия.