Нейросети научились судить книгу по обложке09.11.2016 06:07

Устойчивое выражение «не суди книгу по ее обложке» предостерегает от оценки чего-либо или кого-либо по одному только внешнему виду. Но когда читатель видит книгу, это все равно происходит: знакомство обычно начинается с обложки. Именно она оставляет первое впечатление о содержании и начинает рисовать историю в сознании человека. Хорошие обложки просто созданы для того, чтобы по ним судили.

Люди отлично справляются с определением жанра, едва взглянув на визуальное оформление книги. Согласитесь, что выбрать кулинарную книгу, биографию или путеводитель, просто посмотрев на обложку — довольно легко. Тогда возникает интересный вопрос: может ли искусственный интеллект так же успешно судить о книге по обложке, как и человек?

Ответ на него попытались получить ученые из Университета Кюсю в Японии. Они поставили перед сверточной нейронной сетью (CNN) задачу изучить книжные обложки и определить категорию, к которой они относятся. Метод обучения оказался довольно простым: исследователи скачали более 13,5 тысяч обложек с сайта Amazon.com вместе с названием, именем автора и жанром книги. Помимо определения категории, этот набор данных может в дальнейшем пригодиться для обучения нейронных сетей распознаванию и анализу шрифтов и решению других задач, связанных с дизайном. В своем эксперименте ученые использовали только жанры, отбросив все остальные данные из набора. Нейросеть разбиралась в 20 возможных жанрах. Если книга повторялась сразу в нескольких категориях, ученые просто указывали самый первый.

Затем группа исследователей использовала 80% набора данных, чтобы обучить нейронную сеть распознавать жанр в зависимости от изображения на обложке. Нейросеть, которую они использовали в своем эксперименте, состояла из четырех слоев, в каждом из которых насчитывалось 512 нейронов. Вместе они учились определять корреляцию между дизайном обложки и жанром. Еще 10% набора данных ушли на проверку сети. На заключительном этапе использовались оставшиеся 10%, чтобы определить, насколько хорошо сеть может классифицировать незнакомые изображения.

Результат оказался довольно интересным. Алгоритм корректно определял наиболее часто встречающуюся ему тройку жанров в 40% случаях. Со всеми остальными жанрами точность составила порядка 20%. Это значительно лучше, чем просто случайность. Относительно корректная работа нейросети показывает, что классификация книг по обложкам реальная, хотя и трудновыполнимая задача.

Некоторые жанры оказалось легче распознать, чем другие. Например, туристические книги или книги о компьютерах и технологиях сравнительно легко поддаются определению, поскольку дизайнеры обычно используют схожие по смыслу изображения для обложки. Кроме того, ученые установили, что нейросеть с легкостью узнавала кулинарные книги, если при их оформлении используются фотографии еды.

Однако нейросеть начинала сомневаться, стоило только появиться на обложке фотографии повара или другие объекты, косвенно связанные с приготовлением блюд.

Биографии и мемуары также вызвали у нейросети затруднения: очень часто такие книги отправлялись в категорию исторических. Интересно, что для многих подобных книг вторичным жанром на Amazon.com оказывалась именно история. Поэтому нельзя сказать, что алгоритм ошибся на 100%.

Еще CNN перепутала детские книжки с комиксами и графическими романами, а также медицинские книги с учебниками по математике. Это неудивительно, учитывая определенное сходство между этими категориями. Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии. Обычно их обложки выполнены либо в одном цвете без каких-либо рисунков, либо с абстрактными изображениями.

В работе, представленной японскими учеными, есть один существенный недостаток. Они не сравнивали производительность их нейронной сети со способностью человека определять жанры по обложкам. Получился бы интересный эксперимент, который было бы легко организовать силами краудсорсинговых онлайн-платформ. И до тех пор, пока этот эксперимент не будет осуществлен, мы не узнаем, справляется ли искусственный интеллект с поставленной задачей лучше, чем человек. Но несмотря на это досадное упущение, независимо от того, насколько хорошо мы можем определять жанры по обложке, машины однажды смогут сделать это быстрее. Это лишь вопрос времени.

Тем не менее, результат этого исследования заслуживает внимания. Он может помочь дизайнерам улучшить свои навыки, когда дело доходит до книжных обложек. Можно пойти еще дальше и обучать технику проектировать обложки без участия человека. В будущем это может означать, что создание человеком дизайна обложки — еще одна задача, которая отправится в архивы истории.

Графический дизайн стал объектом для машинного обучения сравнительно недавно. Самый известный опыт практического применения нейронных сетей связан, в первую очередь, с распознаванием художественного стиля известных авторов картин и дальнейшим его переносом на другие изображения. Исследователи из Университета Кюсю преследовали похожую цель, но зашли немного дальше: они попытались выявить скрытый смысл, который кроется за стилем оформления. Если говорить о классификации, уже были попытки научить нейросети сортировать музыку, картины, тексты по жанрам.

Научная работа опубликована на arXiv.org (ArXiv:1610.09204 [cs.CV])