Исследование: ChatGPT превзошел врачей в клинических рассуждениях
Новый обзор показывает, что ChatGPT-4 превзошел ординаторов и лечащих врачей двух академических медицинских центров в обработке медицинских данных и демонстрации клинических рассуждений, сообщает MedicalXpress.
Ученые из Медицинского центра Бет Исраэль Диаконесса (BIDMC) сравнили способности к рассуждению большой языковой модели с человеческими способностями, используя стандарты, разработанные для оценки врачей. За постановкой диагноза обычно стоит несколько этапов, поэтому исследователи хотели оценить, насколько хороши как языковые модели, так и врачи, в такого рода клинических рассуждениях.
В исследовании использовался инструмент для оценки клинических рассуждений врачей под названием r-IDEA. Исследователи набрали 21 лечащего врача и 18 ординаторов, каждый из которых работал над одним из 20 выбранных клинических случаев, состоящих из четырех последовательных стадий диагностического рассуждения.
Авторы поручили врачам выписать и обосновать свои дифференциальные диагнозы на каждом этапе. Чат-бот GPT-4 получил подсказку с идентичными инструкциями и проанализировал все 20 клинических случаев. Их ответы затем оценивались по критериям клинического мышления r-IDEA и некоторым другим показателям рассуждения.
В итоге чат-бот получил самые высокие оценки r-IDEA: средний балл 10 из 10 для магистратуры, 9 для лечащих врачей и 8 для ординаторов. Когда дело касалось точности диагностики (насколько высоко правильный диагноз находился в списке предоставленных ими диагнозов) и правильных клинических рассуждений, между людьми и ботом было больше сходства.
Однако исследователи обнаружили, что боты чаще делают ошибочные выводы и приводят некорректные рассуждения в своих ответах, в сравнении с ординаторами. Это подчеркивает, что искусственный интеллект будет наиболее полезен как дополнение, а не замена человеческого процесса рассуждения.
Ранее ChatGPT стал доступен без регистрации.