[Перевод] Человек научил машину смотреть кино. А затем началась настоящая фантастика
На прошлой неделе Warner Bros. отправили уведомление видеохостингу Vimeo о нарушении авторских прав согласно Закону об авторском праве в цифровую эпоху (Digital Millennium Copyright Act, DMCA). В уведомление был включён обычный список нелегально закачанных видеоматериалов, правами на которые владеет Warner. Там были эпизоды шоу «Friends», «Pretty Little Liars», а также две закачки с видео из фильма Ридли Скотта «Бегущий по лезвию» (Blade Runner).
Обычный пример нарушения авторских прав? Не совсем. В Warner сделали удивительную ошибку. Часть видео (заявление от Warner уже отозвано) не была взята из фильма. Точнее, была взята, но в таком виде, который мир ещё не видел.
Это была часть проекта по кодированию данных с помощью машинного обучения, в котором классическая сказка про андроидов за авторством Ф. Дика была восстановлена из горсти цифр.
Иначе говоря, компания Warner отправила DMCA-запрос на искусственно восстановленное видео из фильма, в котором рассказывают об искусственных существах, неотличимых от людей, поскольку не смогла отличить симуляцию и настоящую вещь.
Разбираем «Бегущий по лезвию» при помощи ИИ
Теренс Броуд [Terence Broad] — исследователь из Лондона, работающий над дипломом по специальности «творческие вычислительные методы». Его диссертация «Автокодирование кадров видео» звучит скучно, пока вы не начинаете понимать, что она является ключом к странному переплетению культуры ремиксов, авторских прав в интернете и искусственного интеллекта, приведшему Warner к решению отправить запрос на удаление нелегального видео.
Целью Броуда было применение «глубинного обучения» — фундаментальной техники ИИ, использующей алгоритмическое машинное обучение — к видео. Он хотел посмотреть, на что способен ИИ, если его научить понимать данные из видеоряда.
В видео содержится огромное количество визуальной информации. Когда вы смотрите видео на компьютере, вся эта информация предварительно кодируется и сжимается, чтобы затем быть раскодированной и распакованной. Без этого файлы были бы слишком большими и не поместились бы на жёстком диске.
Обычно кодирование видео заключается в работе алгоритма, использующего стандарт сжатия, разработанного людьми, которые выбирали все его параметры — сколько данных сжимать, в какой формат, как упаковать их, как уменьшить разные параметры вроде отношения сторон, звука, метаданных и т.п.
Броуд хотел научить нейросеть управлять процессом кодирования видео самостоятельно, без вмешательства человека. Нейросеть — это машинная симуляция функций, выполняемых мозгом и центральной нервной системой. Это механическая форма ИИ, работающая на решение сложных задач теми же методами, что и ЦНС — используя различные свои части для сбора информации и передачи её всей системе.
Броуд надеялся, что в случае успеха этот новый способ может стать «новой техникой в подготовке экспериментальных изображений и видео». Но до того ему надо было обучить нейросеть смотреть кино — не так, как это делают люди, но так, как это подходит машине.
Мечтают ли кодировщики об электроовцах (или как научить ИИ смотреть кино?)
Броуд выбрал вариант нейросети под названием «свёрточный автокодировщик» [convolutional autoencoder]. Для начала он настроил «выученную метрику схожести» [learned similarity metric], чтобы помочь кодировщику разобраться с данными «Бегущего по лезвию». Метрика выдаёт кодировщику выбранные кадры фильма, а также «ложные» данные, или данные, не являющиеся частью фильма. Сравнивая данные фильма с внешним «мусором», кодировщик учится распознавать сходные черты наборов данных, пришедших из фильма. Иначе говоря, он выучил, как выглядит фильм.
Научившись распознавать данные фильма, кодировщик уменьшил каждый кадр до представления в виде числа из 200 цифр, и затем реконструировал это число обратно в новые кадры, с целью добиться совпадения с оригиналом. Броуд выбрал небольшой размер файла, из-за чего результат реконструкции оказался очень размытым. Наконец, Броуд дал указание кодировщику восстановить последовательность реконструированных кадров, чтобы они шли в том же порядке, что и кадры в оригинальном фильме.
Кроме «Бегущего по лезвию», Броуд научил свой автокодировщик смотреть фильм «Помутнение», анимированный с помощью ротоскопирования. Оба фильма — это адаптации знаменитых произведений Ф. Дика в жанре научной фантастики, и Броуд решил, что они как раз подойдут для его проекта.
Для каждого из фильмов обучение повторялось по шесть раз, и каждый раз Броуд подправлял алгоритм, чтобы помочь машине «умнее» подходить к задаче чтения собранных данных. Вот как избранные кадры «Бегущего по лезвию» выглядели для кодировщика после шестой тренировки. На картинке представлено два ряда кадров «до/после». Слева — оригинальный, справа — интерпретация кодировщика.
Во время шести тренировок Броуд использовал только выбранные кадры из двух фильмов. По окончанию шестой тренировки и точной подстройки, Броуд запустил нейросеть на реконструкцию обоих фильмов целиком на основе полученных ею знаний. Вот пример того, как у неё получился «Помутнение»:
Броуд пояснил Vox, что версия фильма от нейросети была полностью уникальной и созданной на основе того, что она увидела в оригинальном фильме. «По сути, вы видите фильм с точки зрения нейросети. Поэтому реконструкция — это интерпретация фильма системой (и других фильмов, которые я прогнал через модели), основанная на ограниченном репрезентативном «понимании».
Почему произведения Ф. Дика идеально подходят для такого проекта
Дик — легендарный писатель-фантаст, чья работа совмещала изучение социальных проблем с метафизическими исследованиями и вопросами реальности нашей Вселенной. Множество экранизаций его работ включают «Особое мнение», «Вспомнить всё», «Меняющие реальность», и сериал от Amazon TV «Человек в высоком замке».
И, конечно, знаменитый рассказ «Мечтают ли андроиды об электроовцах?», вдохновивший создание фильма «Бегущий по лезвию» — антиутопического шедевра научной фантастики и одиного из величайших фильмов всех времён. В фильме работа персонажа Харрисона Форда Рика Декарда состоит в выслеживании и уничтожении «репликантов» — группы развитых андроидов, которые почти идеально могут выдавать себя за людей. Антагонист героя, Рой Бэтти, является одним из репликантов — эту знаменитую роль исполнил с убедительной «усталостью от жизни» актёр Рутгер Хауэр. Бэтти пытается совладать со своей человечностью, одновременно борясь за продление своей жизни и стремясь победить в схватке с Декардом до того, как тот «отправит его на пенсию».
Дика очень беспокоил вопрос пропасти между «видимостью реальности» и «настоящей реальностью». В свой диссертации Броуд указал, что, по его мнению, эти две работы Дика для этой симуляции было очень подходящими:
Для исследования этих тем (субъективности рациональности) вряд ли может найтись более подходящий фильм, чем «Бегущий по лезвию» (Blade Runner, 1982), ставший одним из первых произведений, изучающих субъективность, и постоянно концентрирующий внимание на глазах, фотографиях и других символах восприятия.
Другой фильм, использованный в качестве модели, это «Помутнение» (A Scanner Darkly, 2006), является ещё одной экранизацией новеллы Ф.Дика 1977 года. Этот рассказ также исследует природу реальности, и его реконструкция нейросетью особенно интересна, поскольку каждый кадр фильма уже был реконструирован аниматором, прорисован поверх вручную.
То есть, использование «Бегущего по лезвию» в проекте с искусственным воссозданием материала имеет глубокое символическое значение. «У меня было чувство, что первым фильмом, воссозданным нейросетью, должен быть «Бегущий по лезвию».
Головоломка с копирайтом
Все эти сложности и нюансы нф-культуры и искусственного обучения не дошли до человека, решившего отправить запрос на удаление материала от имени Warner Bros. Возможно, именно из-за этого, после того, как Vox связалась с Warner, последняя провела внутреннее расследование и восстановила два видео, прежде изъятые с сайта.
Тем не менее, Броуд сообщил Vox, что то, как он использовал в своём исследовании ИИ фильм «Бегущий по лезвию», вряд ли составит образцово-показательное дело о нарушении авторских прав: «Никто ещё не делал видео таким образом, поэтому и прецедентов для этого нет, и нет пока законных определений того, являются ли такие реконструированные видеоматериалы нарушением копирайта».
Неважно, будут ли ещё возникать вопросы авторских прав вокруг его видеофильмов, эксперименты Броуда не остановятся на «Бегущем по лезвию». На сайте Medium в статье, описывающей проект, он написал, что «был удивлён, как хорошо модель повела себя, как только я стал тренировать её на «Бегущем по лезвию», и что он «однозначно будет проводить больше экспериментов с тренировками моделей на большем количестве фильмов в будущем, чтобы увидеть, что из этого выйдет».
Потенциал машин чётко и просто «прочитывать» и воссоздавать видеоматериалы открывает удивительные возможности, как для ИИ, так и для создания видео. Очевидно, им предстоит ещё долгий путь до того момента, когда нейросеть Броуда создаст какую-нибудь потрясающую видеотехнологию, но мы точно можем сказать уже сейчас — мы видели то, чему вы бы никогда не поверили.