Исследователи Гарвардской медицинской школы опубликовали в журнале Science результаты масштабного эксперимента: языковая модель OpenAI o1 обошла живых врачей по точности диагностики в условиях приёмного покоя.
В первом эксперименте участвовали 76 пациентов бостонской больницы. ИИ и пары врачей получали одинаковые данные: показатели жизнедеятельности, краткое описание от медсестры, демографию. Модель поставила точный или близкий диагноз в 67% случаев — врачи справились лишь в 50–55%.
При наличии более полной информации разрыв сохранился: ИИ — 82%, лучшие специалисты — 70–79%, — однако эта разница статистически незначима.
Ещё разительнее выглядят результаты по планам лечения. В тесте с пятью клиническими случаями 46 врачей набрали в среднем 34%, пользуясь обычными ресурсами вроде поисковиков. ИИ — 89%.
В одном из случаев исследования пациент поступил с тромбом в лёгком и ухудшающимися симптомами. Врачи решили, что не работают антикоагулянты. ИИ заметил другое: в истории болезни была волчанка, которая и вызвала воспаление. ИИ оказался прав.
Но авторы оговариваются: модель видела только текст. Внешний вид пациента, уровень тревоги, интонации — всё это осталось за скобками. По сути, ИИ выступал как второй мнение по бумагам, а не полноценный осмотр.
Доктор Адам Родман из медицинского центра Beth Israel Deaconess, где проходило исследование, описывает будущее как «триаду»: врач, пациент и ИИ работают вместе. Уже сейчас почти каждый пятый американский врач использует ИИ для диагностики. В Великобритании 16% делают это ежедневно.
Главные опасения — ошибки модели и отсутствие чётких правил ответственности. Формального фреймворка для случаев, когда ИИ ошибся, пока не существует.
Исследователи из Эдинбургского университета называют работу важной: «Эти системы больше не просто сдают медицинские экзамены. Они начинают выглядеть как полезный инструмент второго мнения для клиницистов».