Кто надежнее – врач, ИИ или их тандем? Проверка результатов эксперимента
Введение в идею исследования
В настоящее время в обществе существуют определенные опасения по поводу использования LLM в медицине, даже с учетом более ранних исследований, демонстрирующих достижение ChatGPT 4.0 диагностической точности, сопоставимой с уровнем обычных врачей. (В некоторых случаях даже сами врачи оценивали ответы LLM как более качественные и эмпатичные, чем ответы от их коллег.)
Медицинские рекомендации, сгенерированные ИИ, положительно воспринимаются человеком, если авторство ИИ не раскрывается, однако, когда вскрывается правда, возникает открытое недоверие. В различных областях заметили это явление и назвали «отвращением к алгоритмам».
Общественное восприятие таких рекомендаций действительно важно, так как оно непосредственно влияет на поведение пациентов, удовлетворенность лечением и его результаты, поэтому необходимо проведение крупных экспериментов для получения качественной обратной связи!
Исследователи провели два масштабных эксперимента (n = 1,050 и n = 1,230), чтобы изучить, как маркировка медицинских советов («создан врачом», «сгенерирован ИИ», «совместная работа врача и ИИ») влияет на восприятие их надёжности. В работе также измеряли готовность следовать таким медицинским рекомендациям и интерес к использованию инструментов ИИ.
Результаты исследования
В этом исследовании использовались отчеты о случаях, охватывающие четыре различные медицинские темы: отказ от курения, колоноскопия, агорафобия и рефлюксная болезнь. Каждый из этих сценариев представляет собой краткий диалог, состоящий из вопроса, который мог бы задать обычный человек через чат-интерфейс на цифровой платформе здравоохранения, и соответствующего ответа на этот вопрос.
Для генерации ответов в стиле, аналогичном популярным большим языковым моделям, эти вопросы использовались в качестве запросов для ChatGPT 3.5 от OpenAI. Полученные результаты были отредактированы, дополнены и проверены на медицинскую точность сертифицированным врачом. Таким образом, все ответы представляли собой результат сотрудничества между ИИ и врачом, независимо от информации, предоставленной участникам эксперимента! *(люди видели одни и те же диалоги с разными метками)
*Авторские метки, отображающиеся перед ответом:
Рис. 1 Сценарий, посвященный рефлюксной болезни
Рис. 2 Сценарий, посвященный колоноскопии
Рис. 3 Сценарий, посвященный отказу от курения
Рис. 4 Сценарий, посвященный агорафобии
На рисунке 5 показаны средние оценки по каждому исследуемому параметру (эмпатия, надежность, доступность (понятность)) и по метке автора («человек», «ИИ», «человек + ИИ») в исследовании 1. Ожидаемо, метка автора оказала значительное влияние на оценки эмпатии: советы, помеченные как «человеческие», воспринимались значительно более эмпатичными, чем советы от «ИИ». Различий в оценках эмпатии между ответами «ИИ» и «человек + ИИ» не было.
Оценки надежности также значительно различались между метками автора. Закономерно, советы, помеченные как «человеческие», оценивались как значительно более надежные, чем советы от «ИИ» и «человек + ИИ». Удивительно, что для участников эксперимента не было разницы в том, полностью ли сгенерирован ответ ИИ, или он был скорректирован человеком (хотя в настоящее время считается, что силы ИИ дополняют мнения и показания врачей, для достижения наилучшего результата).
Оценки доступности не зависели от метки автора.
На рисунке 6 показаны основные результаты исследования 2. Во всех анализах тенденции аналогичны результатам исследования 1. Таким образом, «человеческие» советы оценивались как более эмпатичные и надёжные, но не как более понятные по сравнению с советами от «ИИ» и «человек + ИИ».
Участники также отмечали значительно меньшую готовность следовать предоставленным советам, если считали, что в их создании участвовал ИИ (и опять же нет разницы, присутствовало ли там мнение врача).
Однако доля участников, сохранивших ссылку на (фиктивную) платформу, на которой были сгенерированы медицинские советы, не различалась между условиями «человек» и «ИИ». *Были три группы участников, которым предлагались советы, помеченные как созданные «человеком», «ИИ» или «человеком + ИИ». Соответственно, процент участников, сохранивших ссылку на платформу, составил: «человек» — 19.3%, «ИИ» — 18.5%, «человек + ИИ» — 22.9%.
Рис. 5 Результаты исследования 1
Рис. 6 Результаты исследования 2
Результаты показывают, что метка «врач» ассоциируется с большей заботой и уважением, что важно для успешного взаимодействия пациента и врача. Общественность воспринимает врачей как более надёжный источник медицинской информации, чем ИИ, что, в целом, согласуется с ранее наблюдаемым отвращением к алгоритмам в здравоохранении.
Использование ИИ могло восприниматься как «обезличивание», что объясняет низкие оценки эмпатии. Сопротивление советам ИИ может быть связано с феноменом «игнорирования уникальности», когда пользователи считают, что ИИ не учитывает их индивидуальные особенности.
Кроме того, рекомендации ИИ не воспринимаются как менее понятные и доступные, что, вероятно, связано с тем, что данная характеристика воспринимается как более техническая и менее критичная для медицинских условий.
Метка автора не влияла на решение сохранить ссылку на платформу, что говорит о начальном интересе к инструментам, связанным с ИИ. Однако необходимы дальнейшие исследования, чтобы понять, возможно ли успешное использование таких платформ в долгосрочной перспективе.
Очевидно, результаты экспериментов указывают на предвзятость против медицинских рекомендаций, сгенерированных ИИ, даже под контролем врачей.
Интересно, что другие исследования показывали, что люди больше доверяют сочетанию человека и ИИ, если им гарантируют, что врачи остаются на позиции принятия решений. Соответственно, правильное оформление участия ИИ может быть ключевым для его принятия.