Исследование выявило слабость ИИ в медицинских задачах

Ученые обнаружили важный недостаток больших языковых моделей при решении медицинских задач. Исследование, опубликованное в журнале JAMA Network Open, показало, что современные ИИ-системы часто просто угадывают ответы, а не по-настоящему анализируют проблему.

Команда исследователей провела простой, но наглядный опыт. Они взяли сто вопросов из медицинского теста MedQA и изменили их так, чтобы правильным стал вариант «Ни один из указанных». Этот прием помог проверить, заметят ли модели подвох или будут выбирать из привычных вариантов.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Результаты оказались плохими для всех систем ИИ. Точность ответов GPT-4o упала на 36,8 пунктов, у Gemini 2.0 — на 33,8, у Claude 3.5 — на 26,5, а LLaMA 3.3 показала худший результат с падением на 38,2 пункта.

Даже модели, созданные специально для лучших рассуждений, не справились с заданием. DeepSeek-R1 и o3-mini тоже снизили точность на 8,8 и 16,2 пункта. Это говорит о серьезной проблеме — вместо настоящего анализа задачи модели пытаются найти знакомые шаблоны в вопросах.

Авторы работы считают, что использовать такие системы в реальной медицине пока опасно. Врач может тщательно оценить симптомы и отбросить маловероятные версии, а нейросеть может допустить ошибку из-за своей привычки искать шаблоны, а не думать.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.