Машину учат красоте, или тест Тьюринга для профессиональных фотографов
Программисты из Google задались целью привить машине художественный вкус и начали с эстетически правильной обработки фотографий. Особенность понятия красоты — в том, что у неё нет четких критериев. Машине предстояло создать эти критерии. Обучение происходило на основе популярного сайта фотографий, контекстной базы данных с метаданными по изображениям, а предметом обработки стали панорамные сферические снимки из Google Street View. Полученный набор алгоритмов носит название Creatism — система глубокого обучения для создания художественного контента.
Авторы Creatism Хуэй Фанг (Hui Fang) и Мэн Чжан (Meng Zhang) считают, что по итогам разработали шкалу оценок красоты, которые в будущем фотографы могут использовать для объективных сравнений. По результатам они провели то, что назвали тест Тьюринга для фотографов. Исследователи предложили экспертам оценить смесь лучших снимков, сделанных людьми и созданных Creatism, не говоря что в наборе есть созданные машинами. 40% работискусственного интеллекта удостоились оценки «хорошие снимки с художественным вкусом». Разработчики ставят целью помочь любому фотолюбителю превратить свой фотоснимок в красивое изображение без фильтров и настроек. Нажатием одной кнопки, запускающей Creatism.
Приблизив передачу света к естественной и наиболее «глубокой», алгоритм иногда делал мелкие ошибки склейки панорамы, которые можно увидеть на этом фото.
Матрица цифровой камеры не способна одновременно зафиксировать информацию и в тёмных участках изображения, для которых нужна экспозиция (выдержка) побольше, и в светлых, где хватит экспозиции поменьше. Динамический диапазон — это разница в ступенях экспозиции между самым тёмным и самым светлым участком изображения, которые могут быть воспроизведены без потери информации. В совершенно чёрных участках изображения (в переэкспонированных), равно как и в пересвеченных (недоэкспонированных) информацию восстановить невозможно. Тёмные участки изображения можно высветлить, но уже с искажениями. При HDR методе картинка из нескольких снимков, сделанных с разной экспозицией, объединяется в одном 32-битном файле.
Зрение человека способно фиксировать зрительную картинку с разницей в 10–14 ступеней освещенности под ярким солнечном светом (на солнце у зрачка нет возможности адаптации к разной освещённости) и до 24 ступеней при тусклом свете звёзд (возможна адаптации зрачка к световой разнице). Увидеть мы можем, а вот запечатлеть даже часть этого диапазона на фото бывает сложно. Динамический диапазон обычной негативной плёнки составляет около 9–11 ступеней экспозиции, слайдовой плёнки — 5–6 ступеней, матрицы цифровой камеры — от 8 до 11 для большинства цифровых камер. Специальные камеры обеспечивают 17 и более ступеней съемки. Воспроизвести реальный динамический диапазон тоже непросто. Фотобумага например способна воспроизвести всего 7–8 ступеней экспозиции.
Для эксперимента были взяты 15 000 профессиональных фотографий с сайта 500 px.com с разрешением не менее 299×299 пикселей. С их помощью разработчики научили Creatism выделять самое интересное в пейзаже. Затем на базе 40 000 панорамных сферические снимков пейзажей в национальных США, Канады и Европы алгоритм научили работать с цветом и светом.
Затем каждому кадру усилили динамический диапазон, и применили собственную операцию «фильтр выразительности», улучшающую тени, освещение и цвет. Для этого уже по традиции для обработки изображений, использовали модель генеративной состязательной нейросети — модель, когда одна часть программы ухудшает качество оригинала, а другая пробует его восстановить и обучается «как делать не надо».
Для создания конечной оценочной шкалы взяли базу AVA, в которой 250 000 изображений, а главное — множество разнообразных метаданных, включая большое количество эстетических оценок для каждого изображения, семантические метки по 60 категорий, а также ярлыки, связанные с фотографическим стилем для профессиональной сортировки.
По итогам всех операций обработки 400 фотографий эксперимента смешали с 800 фотографиями AVA и дали оценить экспертам.
Фотоэкспертам с профессиональным образованием и минимум 2 летним опытом было предложено оценить к какой категории относится снимок и дать соответствующую оценку:
- Сделано «мыльницей» — как вышло, так вышло. Ни настроек, ни фокуса.
- Хорошее фото неопытного новичка, но художественная ценность минимальна.
- Полупрофессиональный снимок. Четко виден художественный вкус.
- Сделано профессионалом.
Из числа обработанных Creatism 40% снимков попали в категорию от 3 до 4 — то есть были признаны как минимум полупрофессиональными. Средняя же оценка была ниже 3.
Исследователи опубликовали лучшие снимки, обработанные Creatism. Под каждым для сравнения показана полная панорама, из которой он был вырезан.