ИИ в ряде случаев точнее врачей поставил диагноз в приёмном отделении — исследование Гарвардской медицинской школы

В исследовании, опубликованном в журнале Science, команда учёных из Гарвардской медицинской школы (Harvard Medical School) и университетской клиники Beth Israel Deaconess в Бостоне (Beth Israel Deaconess Medical Center) сравнила точность диагностических решений, предлагаемых врачами и крупными языковыми моделями OpenAI в условиях реального приёмного отделения.

Работа включала анализ 76 случаев пациентов, поступивших в отделение неотложной помощи. Для каждого случая диагноз, поставленный двумя врачами-терапевтами, сравнивался с ответами моделей OpenAI o1 и GPT-4o. Оценку проводили независимые врачи, не знавшие, какие диагнозы были сгенерированы ИИ.

На первом этапе диагностики — в момент триажа, когда информации о пациенте минимум — модель o1 в 67% случаев давала точный или близкий к точному диагнозу. Для сравнения, один из врачей достигал такого результата в 55% случаев, другой — в 50%.

По словам авторов, модели не получали никаких дополнительных данных: им предоставлялась та же информация из электронных медицинских карт, которая была доступна врачам в момент принятия решения. Это позволяло напрямую сравнить качество первичной интерпретации клинической информации.

Иллюстрация: Nano Banana

Исследователи отмечают, что в ряде сценариев языковые модели либо превосходили врачей, либо показывали сопоставимый уровень точности. Особенно это проявлялось в условиях дефицита данных, характерных для первичного приёма пациентов.

В Гарварде подчёркивают, что целью работы не было доказать готовность ИИ к самостоятельной медицинской практике. Авторы настаивают на необходимости проспективных клинических испытаний и проверки таких систем в реальных условиях здравоохранения перед любым практическим применением.

Отдельно исследователи указывают на ограничения: модели работали только с текстовыми данными, тогда как в реальной медицине критическую роль играют изображения, анализы и обследование. По их оценке, текущие системы хуже справляются с многомодальными задачами, требующими комплексного клинического мышления.

Один из авторов работы, врач Адам Родман, отметил, что в настоящий момент отсутствует единая система ответственности за решения, предлагаемые медицинским ИИ, что делает вопрос внедрения особенно чувствительным.

Критики исследования также указывают, что сравнение проводилось с врачами внутренней медицины, а не с профильными специалистами отделения неотложной помощи. По их мнению, это может искажать интерпретацию результатов и завышать относительное преимущество моделей.

©  iXBT