ChatGPT успешно сдаёт экзамены на получение медицинских лицензий24.01.2023 15:31

Исследователи оценили эффективность языковой модели ChatGPT на экзамене по медицинскому лицензированию, который используют в США для аттестации медиков. Нейросеть показала высокий результат прохождения тестирования, а исследователи заявили, что при должном обучении ChatGPT может сдать экзамен и получить медицинскую лицензию в США.

Группа исследователей проверила возможности ChatGPT на экзамене по медицинскому лицензированию USMLE (United States Medical Licensing Examination, Экзамен медицинского лицензирования США). Само тестирование состоит из 3 этапов и обязательно для всех студентов американских медицинских вузов, планирующих заниматься медицинской практикой.

Для тестирования ChatGPT использовали открытый банк из 376 вопросов, которые применялись на экзамене в июне 2022 года. Все вопросы опубликованы на сайте USMLE. Также исследователи провели проверку входных данных, чтобы убедиться, что вопросы не были проиндексированы Google. Типовые вопросы проверили на корректность, а вопросы, содержащие изображения или графики, были удалены. После всего этого в банке осталось 305 вопросов.

Также вопросы разделили на 3 категории:

вопросы с текстовым ответом в свободной форме;
вопросы со множественным выбором без обоснования;
вопросы со множественным выбором с обоснованием.

Экзаменационные вопросы вводились в ChatGPT последовательно. Для каждого вопроса запускали новый сеанс, чтобы избежать проблем с памятью на стороне сервера, а все ответы записывались в таблицу результатов.

Для оценки результатов были приглашены три независимых практикующих врача с опытом оценки экзаменационных листов USMLE. Два специалиста оценивали ответы ChatGPT на предмет точности, правильности и согласования. Третий эксперт оценивал ответы, которые не прошли проверку на первом этапе. Исследователи отметили, что только 3,6% ответов требовалась дополнительная проверка у третьего эксперта.

Итоги исследования показали, что ChatGPT выдал ответы и объяснения к ним с высоким процентом соответствия и точности. Языковая модель отвечала на вопросы с точностью более 50%, а для успешного прохождения USMLE необходимо набрать 60%. Таким образом, языковая модель была близка к порогу сдачи экзамена и получения медицинской лицензии.

Вместе с этим исследователи проверили возможности ChatGPT на сдаче экзамена магистра экономического управления. За ответы на экзаменационные вопросы языковая модель могла бы получить оценку от B до B-.