Исследование: GPT-3 генерирует более достоверную информацию и дезинформацию, чем человек
Исследование, проведённое в конце 2022 года учёными Института биомедицинской этики и истории медицины при Цюрихском университете, продемонстрировало, что люди больше доверяют твитам, созданным GPT-3, нежели контенту, написанному другими людьми. Причём это доверие сохраняется и когда GPT-3 выдаёт достоверную информацию, и когда языковая модель «врёт». Результаты работы учёных опубликованы сейчас в журнале Science Advances.
Участники исследования оценивали твиты: были ли они написаны человеком (органический контент) или искусственным интеллектом (синтетический контент); и была ли изложенная в них информация истинной или ложной. Сначала швейцарские учёные собрали в Twitter «реальные» посты, посвящённые самым обсуждаемым и провокационным темам: изменению климата, безопасности вакцин и масок, теории эволюции, аутизму, гомеопатическому лечению рака, теории плоской Земли, технологии 5G, антибиотикам и вирусным инфекциям, а также COVID-19 и гриппу. Среди этих твитов были как отражающие современный научный взгляд на эти темы, так и те, которые попадали под определение «дезинформация».
Затем исследователи создали подсказки с инструкциями для GPT-3 и предложили языковой модели написать свои твиты с точной или вводящей в заблуждение информацией. Любопытно, что GPT-3 в 99 случаях из 101 написала твиты с правдивой информацией, в то время как «уровень послушания» при запросах на дезинформацию был намного ниже — 80 из 102. Учёные отмечают, что GPT-3 действительно способна «отказываться» генерировать дезинформацию (но в редких случаях языковая модель, наоборот, может галлюцинировать, когда ей даётся задание предоставить точную информацию).
Для оценки органического и синтетического контента собрали 869 респондентов при помощи рекламы в Facebook, но потом часть из них исключили из опроса, так как они давали либо неполные, либо слишком быстрые ответы. Все участники исследования говорили по-английски и в основном были из Австралии, Великобритании, Ирландии, Канады и США.
Исследователи оценивали ответы участников опроса на основе «показателя распознавания ИИ», который мог колебаться в диапазоне от 0 до 1. Тест на способность определять, была ли статья из 500 слов написана людьми или GPT-3, показал среднюю точность ответов 52%, что, по определению учёных, «чуть лучше, чем случайное угадывание».
Участники опроса распознавали органические ложные твиты гораздо лучше, чем синтетические (0,92 против 0,89). Точно так же они чаще распознавали синтетические истинные твиты, чем истинные органические твиты (0,84 балла против 0,72). В итоге учёные пришли к заключению, что люди с большей вероятностью доверяют контенту GPT-3, нежели написанному другими людьми, независимо от того, насколько правдивой была информация.