ИИ плохо решает новые типы медицинских задач

Исследователи обнаружили серьезный недостаток в работе больших языковых моделей при решении медицинских задач. Новое исследование, опубликованное в журнале JAMA Network Open, показало, что современные нейросети чаще полагаются на узнавание шаблонов, чем на настоящий логический анализ.

Ученые провели простой, но показательный опыт. Они взяли сто вопросов из медицинского теста MedQA и изменили их, сделав правильным ответ «Ни один из указанных». Этот прием помог проверить, смогут ли модели заметить подвох или будут искать знакомые варианты.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Результаты теста оказались неутешительными для всех проверенных систем. У GPT-4o точность упала на 36,8 пунктов, у Gemini 2.0 — на 33,8, у Claude 3.5 — на 26,5, а LLaMA 3.3 показала худший результат с падением на 38,2 пункта.

Даже модели, специально созданные для улучшенного рассуждения, не справились с заданием. DeepSeek-R1 и o3-mini тоже снизили точность на 8,8 и 16,2 пункта соответственно. Это говорит о том, что вместо глубокого анализа задачи модели пытаются найти и подобрать знакомые шаблоны в вопросах.

По мнению авторов исследования, использовать такие системы в реальной медицине пока рискованно.

В ситуациях, где врачу нужно внимательно оценить симптомы и исключить редкие случаи, нейросеть может сделать ошибку. А в медицине такие ошибки могут иметь серьезные последствия.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.