Представлен единый стандарт оценки текстов, сгенерированных ИИ-сервисом ChatGPT
ИИ-сервисы действительно могут выдать отсебятину, это не секрет.
Группа исследователей из США представила набор руководящих принципов под названием LongEval, который поможет оценивать качество длинных сгенерированных текстов с помощью генеративных нейросетей наподобие ChatGPT.
Данные принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они даже получили премию за лучшую статью. Эксперты считают, что в настоящий момент нет надёжного способа оценить длинные сгенерированные тексты без участия людей, а существующие протоколы человеческой оценки являются дорогостоящими и требующими много времени.
Перед составлением LongEval исследователи изучили 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а оставшиеся 27% подвергались оценкам в рамках не связанных между собой методик.
Именно поэтому в целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных текстов, авторы исследования создали список из трёх ключевых рекомендаций, которые включают в себя то, как и что должен читать оценщик, чтобы судить о надёжности текста.
Эти рекомендации выглядят следующим образом:
- оценивать достоверность резюме по отдельным фрагментам, а не по всему тексту целиком. Это должно позволить повысить согласованность оценок между разными экспертами и уменьшить нагрузку на них;
- использовать автоматическое выравнивание между фрагментами резюме и источника — для упрощения поиска соответствующей информации в длинных документах;
- выбирать подходящий набор фрагментов для оценки в зависимости от цели исследования.
Исследователи заверили, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». В настоящий момент LongEval существует в виде библиотеки Python, поэтому сообщество сможет использовать и развивать набор в своих исследованиях.