Исследование: ChatGPT выдал ошибочные ответы на 52% вопросов по программированию

cb839ecd7e8bed27420d53bc7d41b63d

Согласно ещё одному исследованию, посвящённому работе ChatGPT, чат-бот OpenAI даёт неправильные ответы на вопросы по программированию более чем в половине случаев. При этом ответы бота выглядят настолько правдоподобными, что часть людей-участников эксперимента, оценивавших его ответы, игнорировала ошибки.

Команда исследователей Университета Пердью проанализировала ответы ChatGPT на 517 вопросов Stack Overflow, чтобы оценить правильность, последовательность, полноту и краткость ответов чат-бота. Кроме того, учёные провели лингвистический анализ и анализ тональности ответов и попросили двенадцать добровольцев оценить работу искусственного интеллекта. Статья по итогам исследования «Кто ответит лучше? Углублённый анализ ChatGPT и Stack Overflow. Ответы на вопросы разработчиков программного обеспечения» опубликована на arXiv.org.

Исследователи сообщили, что 52% ответов ChatGPT содержали ошибки, а 77% показались им слишком многословными. В The Register этот результат оценили «хуже, чем выбор ответа при помощи подбрасывания монетки». При этом в 39,34% случаев  ответам ChatGPT отдали предпочтение, благодаря их развёрнутости и чётким формулировкам, несмотря на то что 77% из них были неправильными. 

И только когда ошибки в ответах ChatGPT становились очевидными, участники эксперимента могли их идентифицировать. В случаях, когда ошибка требовала обращения к документации или к инструментам разработчика, добровольцы часто либо пропускали, либо недооценивали её. Учёные считают, что причина этого кроется в «авторитетном стиле» изложения ChatGPT: «вежливый язык, чёткость формулировок в стиле учебника и полнота ответов заставляют совершенно неправильные решения воспринимать как правильные». И даже когда в ответах чат-бота появились «вопиющие ошибки», двое из 12 добровольцев всё равно отдавали предпочтение рекомендациям бота, а не пользователя Stack Overflow. 

Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота «более формальны, выражают более аналитическое мышление, демонстрируют больше усилий для достижения целей и проявляют меньше негативных эмоций». Проанализировав тональность ответов, учёные пришли к выводу, что ответы ChatGPT выражают «более позитивные настроения», чем ответы пользователей Stack Overflow.

Говоря о характере ошибок ChatGPT, исследователи отметили, что тот чаще совершает концептуальные ошибки, чем фактические. «Многие ответы были неверными из-за неспособности ChatGPT понять основной контекст задаваемого вопроса».

В публикации The Register проводится параллель между ростом популярности ChatGPT и снижением трафика Stack Overflow: с января 2022 года он терял 6% каждый месяц, а в марте падение составило 13,9%. При этом ежегодный опрос разработчиков Stack Overflow, в котором приняли участие 90 тыс. программистов, показал, что хотя 77% респондентов положительно относятся к инструментам искусственного интеллекта, только 42% доверяют их точности.

© Habrahabr.ru