Машину учат красоте, или тест Тьюринга для профессиональных фотографов

Программисты из Google задались целью привить машине художественный вкус и начали с эстетически правильной обработки фотографий. Особенность понятия красоты — в том, что у неё нет четких критериев. Машине предстояло создать эти критерии. Обучение происходило на основе популярного сайта фотографий, контекстной базы данных с метаданными по изображениям, а предметом обработки стали панорамные сферические снимки из Google Street View. Полученный набор алгоритмов носит название Creatism — система глубокого обучения для создания художественного контента.

Авторы Creatism Хуэй Фанг (Hui Fang) и Мэн Чжан (Meng Zhang) считают, что по итогам разработали шкалу оценок красоты, которые в будущем фотографы могут использовать для объективных сравнений. По результатам они провели то, что назвали тест Тьюринга для фотографов. Исследователи предложили экспертам оценить смесь лучших снимков, сделанных людьми и созданных Creatism, не говоря что в наборе есть созданные машинами. 40% работискусственного интеллекта удостоились оценки «хорошие снимки с художественным вкусом». Разработчики ставят целью помочь любому фотолюбителю превратить свой фотоснимок в красивое изображение без фильтров и настроек. Нажатием одной кнопки, запускающей Creatism.

fae8b6a2924b49248a312bebe77a0535.jpg
Приблизив передачу света к естественной и наиболее «глубокой», алгоритм иногда делал мелкие ошибки склейки панорамы, которые можно увидеть на этом фото.


Матрица цифровой камеры не способна одновременно зафиксировать информацию и в тёмных участках изображения, для которых нужна экспозиция (выдержка) побольше, и в светлых, где хватит экспозиции поменьше. Динамический диапазон — это разница в ступенях экспозиции между самым тёмным и самым светлым участком изображения, которые могут быть воспроизведены без потери информации. В совершенно чёрных участках изображения (в переэкспонированных), равно как и в пересвеченных (недоэкспонированных) информацию восстановить невозможно. Тёмные участки изображения можно высветлить, но уже с искажениями. При HDR методе картинка из нескольких снимков, сделанных с разной экспозицией, объединяется в одном 32-битном файле.

Зрение человека способно фиксировать зрительную картинку с разницей в 10–14 ступеней освещенности под ярким солнечном светом (на солнце у зрачка нет возможности адаптации к разной освещённости) и до 24 ступеней при тусклом свете звёзд (возможна адаптации зрачка к световой разнице). Увидеть мы можем, а вот запечатлеть даже часть этого диапазона на фото бывает сложно. Динамический диапазон обычной негативной плёнки составляет около 9–11 ступеней экспозиции, слайдовой плёнки — 5–6 ступеней, матрицы цифровой камеры — от 8 до 11 для большинства цифровых камер. Специальные камеры обеспечивают 17 и более ступеней съемки. Воспроизвести реальный динамический диапазон тоже непросто. Фотобумага например способна воспроизвести всего 7–8 ступеней экспозиции.


Для эксперимента были взяты 15 000 профессиональных фотографий с сайта 500 px.com с разрешением не менее 299×299 пикселей. С их помощью разработчики научили Creatism выделять самое интересное в пейзаже. Затем на базе 40 000 панорамных сферические снимков пейзажей в национальных США, Канады и Европы алгоритм научили работать с цветом и светом.

Затем каждому кадру усилили динамический диапазон, и применили собственную операцию «фильтр выразительности», улучшающую тени, освещение и цвет. Для этого уже по традиции для обработки изображений, использовали модель генеративной состязательной нейросети — модель, когда одна часть программы ухудшает качество оригинала, а другая пробует его восстановить и обучается «как делать не надо».

a1f40333c4c946f1b119b60e839634f1.png

Для создания конечной оценочной шкалы взяли базу AVA, в которой 250 000 изображений, а главное — множество разнообразных метаданных, включая большое количество эстетических оценок для каждого изображения, семантические метки по 60 категорий, а также ярлыки, связанные с фотографическим стилем для профессиональной сортировки.

По итогам всех операций обработки 400 фотографий эксперимента смешали с 800 фотографиями AVA и дали оценить экспертам.


Фотоэкспертам с профессиональным образованием и минимум 2 летним опытом было предложено оценить к какой категории относится снимок и дать соответствующую оценку:

  1. Сделано «мыльницей» — как вышло, так вышло. Ни настроек, ни фокуса.
  2. Хорошее фото неопытного новичка, но художественная ценность минимальна.
  3. Полупрофессиональный снимок. Четко виден художественный вкус.
  4. Сделано профессионалом.


Из числа обработанных Creatism 40% снимков попали в категорию от 3 до 4 — то есть были признаны как минимум полупрофессиональными. Средняя же оценка была ниже 3.

Исследователи опубликовали лучшие снимки, обработанные Creatism. Под каждым для сравнения показана полная панорама, из которой он был вырезан.

© Geektimes