[Перевод] Могут ли исследователи искусственного интеллекта доверить ему проверку своих работ?
Исследователь машинного обучения из Вирджинского технологического института предложил способ рассмотрения научных работ с использованием ИИ, оценивающего внешний вид текста и графики в документе. Достаточно ли будет его методов оценки «законченности» научной работы для ускорения процесса независимого рецензирования?
В области машинного обучения наблюдается целая лавина исследований. Эту ситуацию инженер из Google Клифф Янг сравнил с законом Мура, приспособленным для публикаций на тему ИИ — количество академических работ по этой теме, появляющихся на сайте arXiv, удваивается каждые 18 месяцев.
И эта ситуация создаёт проблемы при рецензировании работ — опытных исследователей в области ИИ просто недостаточно для того, чтобы тщательно прочесть каждую новую работу. Могут ли учёные доверить ИИ работу по приёму или отклонению работ?
Этот интересный вопрос поднимает отчёт, недавно опубликованный на сайте arXiv; автор работы, исследователь в области машинного обучения Цзя-бинь Хуан [Jia-Bin Huang] назвал её «Глубинный гештальт работы».
Хуан использовал свёрточную нейросеть — распространённый инструмент в области машинного обучения, применяемый для распознавания изображений — чтобы просеять 5000 работ, опубликованных с 2013 года. Хуан пишет, что только по одному внешнему виду работы — смеси текста и изображений — его нейросеть может отличить «хорошую» работу, достойную включения в научные архивы, с точностью в 92%.
Для исследователей это означает, что во внешнем виде их документа самую важную роль играет пара вещей: яркие картинки на заглавной странице исследовательской работы и заполнение всех страниц текстом, так, чтобы в конце последней страницы не оставалось пустого места.
Свёрточная нейросеть Хуана переваривает тысячи одобренных и не одобренных научных работ, создавая «тепловую карту» сильных и слабых сторон. Крупнейшие ошибки работ, не прошедших отбор: отсутствие цветных картинок и пустое место в конце последней страницы.
Хуан основывает свою работу на другой работе от 2010 года, автором которой был Карвен фон Бирненсквош [Carven von Bearnensquash] из Университета Финикса. В работе использовалось не глубинное обучение, традиционная технология компьютерного зрения, чтобы найти способ «одним взглядом оценить общий внешний вид» работы и сделать вывод о том, стоит ли одобрять работу.
Используя эту идею, Хуан скормил компьютеру 5618 работ, принятых на двух важнейших конференциях по компьютерному зрению, CVPR и ICCV за последние пять лет. Также Хуан собрал работы, представленные на рабочих семинарах конференций, которые играли роль отвергнутых работ — поскольку доступа к работам, отвергнутым на конференциях, нет.
Хуан натренировал сеть, чтобы она ассоциировала прошедшие и не прошедшие работы с двоичным исходом «хорошая» и «плохая», чтобы вычленить из них признаки «законченности» или гештальта. Гештальт — это нечто целое, превышающее по размеру сумму его частей. Это то, что пионер машинного обучения Терри Сейновски назвал «всеобщим организованным восприятием», нечто более осмысленное, чем холмы и овраги местности, находящейся в непосредственной близости к вам.
Натренированную сеть затем проверили на подмножестве работ, которые она не видела ранее. Обучение сбалансировало ложные положительные срабатывания — принятые работы, которые стоило отвергнуть — с ложными отказами, отвергнутыми работами, которые стоило принять.
Ограничивая количество «хороших», но отвергнутых работ 0,4% — то есть, всего 4 работами — сеть смогла правильно отвергнуть половину «плохих» работ, которые и нужно было отвергнуть.
Автор даже додумался скормить собственную работу собственной нейросети. В результате нейросеть её отвергла: «Мы применили натренированный классификатор к этой работе. Наша сеть безжалостно предсказала, что с вероятностью в 97% эту работу нужно отвергнуть без независимого рецензирования».
Что касается этих косметических требований — красивых картинок в статье — Хуан не просто описывает результаты работы. Он ещё предлагает код, который позволит создавать хорошо выглядящие работы. Он скармливает «хорошие» работы в тренировочную базу данных генеративно-состязательной сети, которая может создавать новый план, обучаясь на примерах.
Хуан также предлагает и третий компонент, «переделывающий» отвергаемую работу в допустимую, «автоматически дающий советы по тому, что нужно поменять во входящей работе», к примеру, «добавить картинку для привлечения внимания и картинки на последней странице».
Хуан предполагает, что подобный процесс одобрения работ может стать «предварительным фильтром», облегчающим нагрузку на рецензентов, поскольку он способен просмотреть тысячи работ за несколько секунд. И всё же «вряд ли такой классификатор будет использоваться на реальной конференции», — заключает автор.
Одно из ограничений работы, которое может повлиять на её использование состоит в том, что даже если внешний вид работы, её визуальный гештальт, совпадает с историческими результатами, это не гарантирует наличия в работе реальной ценности.
Как пишет Хуан, «игнорируя содержание работ, мы можем несправедливо отвергнуть работы с хорошим материалом, и плохим визуальным оформлением, или принять хреновые работы, выглядящие хорошо».