Представлен единый стандарт оценки текстов, сгенерированных ИИ-сервисом ChatGPT10.07.2023 18:47

ИИ-сервисы действительно могут выдать отсебятину, это не секрет.

Группа исследователей из США представила набор руководящих принципов под названием LongEval, который поможет оценивать качество длинных сгенерированных текстов с помощью генеративных нейросетей наподобие ChatGPT.

Данные принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они даже получили премию за лучшую статью. Эксперты считают, что в настоящий момент нет надёжного способа оценить длинные сгенерированные тексты без участия людей, а существующие протоколы человеческой оценки являются дорогостоящими и требующими много времени.

Перед составлением LongEval исследователи изучили 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а оставшиеся 27% подвергались оценкам в рамках не связанных между собой методик.

Именно поэтому в целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных текстов, авторы исследования создали список из трёх ключевых рекомендаций, которые включают в себя то, как и что должен читать оценщик, чтобы судить о надёжности текста.

Эти рекомендации выглядят следующим образом:

оценивать достоверность резюме по отдельным фрагментам, а не по всему тексту целиком. Это должно позволить повысить согласованность оценок между разными экспертами и уменьшить нагрузку на них;
использовать автоматическое выравнивание между фрагментами резюме и источника — для упрощения поиска соответствующей информации в длинных документах;
выбирать подходящий набор фрагментов для оценки в зависимости от цели исследования.

Исследователи заверили, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». В настоящий момент LongEval существует в виде библиотеки Python, поэтому сообщество сможет использовать и развивать набор в своих исследованиях.