ИИ в ряде случаев точнее врачей поставил диагноз в приёмном отделении — исследование Гарвардской медицинской школы
В исследовании, опубликованном в журнале Science, команда учёных из Гарвардской медицинской школы (Harvard Medical School) и университетской клиники Beth Israel Deaconess в Бостоне (Beth Israel Deaconess Medical Center) сравнила точность диагностических решений, предлагаемых врачами и крупными языковыми моделями OpenAI в условиях реального приёмного отделения.
Работа включала анализ 76 случаев пациентов, поступивших в отделение неотложной помощи. Для каждого случая диагноз, поставленный двумя врачами-терапевтами, сравнивался с ответами моделей OpenAI o1 и GPT-4o. Оценку проводили независимые врачи, не знавшие, какие диагнозы были сгенерированы ИИ.
На первом этапе диагностики — в момент триажа, когда информации о пациенте минимум — модель o1 в 67% случаев давала точный или близкий к точному диагнозу. Для сравнения, один из врачей достигал такого результата в 55% случаев, другой — в 50%.
По словам авторов, модели не получали никаких дополнительных данных: им предоставлялась та же информация из электронных медицинских карт, которая была доступна врачам в момент принятия решения. Это позволяло напрямую сравнить качество первичной интерпретации клинической информации.
Иллюстрация: Nano BananaИсследователи отмечают, что в ряде сценариев языковые модели либо превосходили врачей, либо показывали сопоставимый уровень точности. Особенно это проявлялось в условиях дефицита данных, характерных для первичного приёма пациентов.
В Гарварде подчёркивают, что целью работы не было доказать готовность ИИ к самостоятельной медицинской практике. Авторы настаивают на необходимости проспективных клинических испытаний и проверки таких систем в реальных условиях здравоохранения перед любым практическим применением.
Отдельно исследователи указывают на ограничения: модели работали только с текстовыми данными, тогда как в реальной медицине критическую роль играют изображения, анализы и обследование. По их оценке, текущие системы хуже справляются с многомодальными задачами, требующими комплексного клинического мышления.
Один из авторов работы, врач Адам Родман, отметил, что в настоящий момент отсутствует единая система ответственности за решения, предлагаемые медицинским ИИ, что делает вопрос внедрения особенно чувствительным.
Критики исследования также указывают, что сравнение проводилось с врачами внутренней медицины, а не с профильными специалистами отделения неотложной помощи. По их мнению, это может искажать интерпретацию результатов и завышать относительное преимущество моделей.
© iXBT
