Нейросеть видит сны братьев Люмьер: как мы учили машину распознавать 3D-поезда

По легенде, во время премьеры первого в истории человечества фильма «Прибытие поезда на вокзал Ла-Сьота» зрители устроили панику — они решили, что поезд настоящий и движется прямо на них. Больше века спустя на поезда смотрят нейросети — и даже принимают 3D-модели вагонов за реальные.

Я Никита Каменев, видеоаналитик СИБУР Диджитал. Сегодня расскажу, как мы учили нейросеть распознавать прибытие поезда на 3D-моделях из Unreal Engine.

Исходная задача

Допустим, у нас есть сливо-наливная эстакада. Когда на неё приезжает поезд, опускаются мостики. На эти мостики выходят сотрудники завода и выполняют работы. Потом рабочие уходят, мостик поднимается и поезд уезжает. Для оптимизации этой рутины нужна нейросеть-классификатор, которая распознаёт:

  • Положения поезда — стоит, движется или эстакада пустая;

  • Положения мостиков — подняты или опущены;

  • Рабочих — нужно отличить наших сотрудников от рабочих со стороны подрядчика;

  • Наличие и отсутствие привязи — так как это высотные работы, нужно следить за безопасностью, и сообщать оператору, если на рабочем нет страховки.

Разработку нейросети мы начали со сбора датасета — нам скинули изображения с камеры видеонаблюдения, на которых видно поезда и рабочих в разных положениях и состояниях. На сбор данных ушёл месяц, на обучение модели — ещё один. Потом тестирование и дообучение, в общем, здесь всё стандартно.

Модель в итоге оказалась настолько хороша, что привела к перевыполнению плана — и заказчик предложил масштабировать её на другие площадки.

Задача со звёздочкой

Изначально мы обучили классификатор на данных с одной конкретной эстакады, которая находилась в закрытом помещении. Что будет, если показать нейросети прибытие поезда на уличную эстакаду?

Для алгоритма это не один и тот же поезд

Для алгоритма это не один и тот же поезд

Можно предположить, что модель, обученная на закрытой эстакаде, так же хорошо покажет себя и на открытой, но нет. Она не учитывает дождь, снег, время суток, засветы от солнца, туман и другие факторы. В текущем виде выпускать на другие площадки её нельзя — нужно дообучение. Но на уличных площадках факторов много: с учётом всех сезонов и погодных условий реальные данные в идеале нужно собирать целый год. Неужели нельзя побыстрее?

Бистро для алгоритма

Расширить датасет без сбора настоящих новых данных можно тремя способами:

  • Аугментация — модифицируем то, что уже есть.

  • Open source — скачиваем чужие данные из интернета и размечаем их под себя.

  • GAN — обучить нейросеть на данных, сгенерированных другой нейросетью.

Но проблема не только в деградации модели из-за разных погодных условий. Дело в том, что нейросеть ищет объекты на изображениях с камер видеонаблюдения —, а они могут выдавать шумную картинку, где даже человек не всех рабочих найдёт. Например, сколько рабочих на этой фотографии?

9343293f9cd2ef1e3d6ac62793f65370.jpeg

В этом случае не справилась даже нейросеть — например, приняла двух человек за одного, просто потому что они стояли рядом:

c02be765916f2bf9d191cd990912aa59.jpeg

Сначала мы пробовали решить эту проблему всё той же аугментацией. Брали сложные ракурсы и добавляли на них людей с других изображений, вырезая их в GIMP и фотошопе. Это сэкономило время — не нужно было ждать, когда мы получим те же сложные ракурсы с людьми. Но результаты выглядели нереалистично. Поэтому мы пошли другим путём.

Строим игровой завод

Так ли принципиально обучать нейросеть на настоящих кадрах и видео с камер, если алгоритм просто ищет контуры нужных объектов в разных состояниях? Нет — поэтому мы решили построить эстакаду в игровом движке Unreal Engine. Для генерации картинок взяли открытый сетпак с 3D-моделями разных модулей завода, построили пространство и пустили гулять ботов-рабочих. Вот как это выглядело:

772b4cc255cf4d53f4d86e3a71c93ae6.jpeg

После обучения на таких данных точность определения рабочих возросла с 81% до 92%. Да, всего на 11% лучше, но эта разница чувствуется в проде. Тем не менее этого всё равно мало — заводы в Unreal Engine выглядят игрушечными, что бы мы ни делали.

Если ваше производство не выглядит так, лучше не зовите меня на смену.

Если ваше производство не выглядит так, лучше не зовите меня на смену.

Вот бы был способ перенести реальные эстакады в пространство Unreal Engine… В теории, это можно сделать с помощью NeRF.

Игра на NeRFах

NeRF — это Neural Radiance Field, нейросеть, которая создаёт 3D-модели на основе видео и фотографий. Чтобы сделать игровой завод из Unreal Engine менее игрушечным, мы попробовали действовать так:

  • Берём телефон и устраиваем прогулку по заводу.

  • Создаём реалистичную 3D-модель с NeRF.

  • Закидываем эту модель в Unreal Engine и на её основе создаём датасет.

Но обучение NeRF и генерация моделей — это отдельная задача. У нас был выбор из трёх инструментов: Luma AI, Nerfstudio и Instant NeRF.

Критерий/Инструмент

Luma AI

Nerfstudio

Instant NeRF

Простота установки

Не требует установки

Тяжело ставится на Windows, лучше на Linux

Сложнее Luma AI, требует хорошую видеокарту

Удобство использования

Закрытый ящик, не надо кодить вообще

Надо кодить, но пара команд и всё

Кодить на более продвинутом уровне, чем в Nerfstudio

Гибкость в обучении моделей

Особо не настроить

Проигрывает Instant NeRF в кастомизации

Очень гибкий, можно управлять всеми параметрами

В выборе инструмента важно учесть ещё и то, что нам все эти модели надо перенести в Unreal Engine. Так, Luma AI может при помощи отдельных плагинов экспортировать в платном формате .nvol с помощью плагина volinga или в бесплатном формате .luma. Nerfstudio тоже позволяет использовать volinga для экспорта. Но есть вариант лучше — можно экспортировать модель как облако точек для Blender и потом перенести её в движок. Та же схема применима и к Instant Nerf. 

В итоге мы выбрали экспорт через Blender — формат .luma не позволяет использовать промышленные данные, которые не надо светить в открытых источниках. Полученные таким способом модели выглядели как из снов:

Мечтает ли нейросеть об эстакадах?

Мечтает ли нейросеть об эстакадах?

Проблема моделей больших объектов в том, что результат сильно зависит от исходных данных. Мы эстакады обходили пешком и снимали видео на телефон с широкоугольным объективом. Из-за этого местами сетка ломалась и мы получали странные результаты с размытием и чёрными пятнами. В идеале для таких задач надо облететь объект на квадрокоптере. У нас такой возможности не было, поэтому мы дорабатывали модели из NeRF в движке.

6b203746c3eb06ba15d07daf27959894.jpeg

Модели поездов мы скачивали из открытых источников и сами анимировали, поднимали и опускали мостики, создавали разные условия. Получилась своего рода коллаба NeRF и Unreal Engine.

GAN и техника безопасности

Один из компонентов нашей исходной задачи — модель, которая обнаруживает привязь на рабочих. Человек сложнее поезда, состояний у него больше. Поэтому с учётом всех условий мы бы замучились делать тысячи картинок с 3D-человечками в разных позах. Чтобы ускорить процесс, мы использовали GAN — генеративно-состязательную нейросеть.

Модель, которую мы обучаем, находит на изображениях человека и контур привязи.

7295282ee61126aab4f2ee0f66bb66b5.jpegКачество – 10 шакалов из 10

Качество — 10 шакалов из 10

У привязи разных состояний будет меньше. Поэтому, вместо того, чтобы ставить 3D-человечков в разные позы, мы заставили GAN генерировать изображения людей на основе рандомных контуров привязи. Потом использовали сгенерированные картинки для обучения модели. Эти нейрорабочие выглядели искажёнными, но в целом похожими на людей.

Но сразу возникает вопрос. Чтобы GAN что-то выдавала, ей надо скормить фотографии рабочих с привязями в разных ракурсах — из нашего реального датасета. Не будет ли она копипастить данные из датасета, и в итоге его не расширит? И неужели нельзя обойтись просто аугментацией?

Мы задались этим вопросом и нашли на него ответ:

  • F1 Score для модели, при обучении которой мы использовали только аугментацию, равен 82%.

  • Аугментация вместе с данными из GAN повысила точность модели до 89%.

А оно того стоит?

Вернёмся к исходной задаче и модели, которая не обучалась на настоящих данных с открытой площадки. Если выпустить её на улицу без дообучения, она будет определять все нужные нам классы с точностью 67%. А после обучения на синтетических данных из игрового движка её точность возросла до 95%. И это модель, которая не видела настоящих фотографий уличной эстакады!

Но нужно ли это вам? Зависит от задачи:

  • Для большинства задач хватает открытых источников и настоящих данных с производств. Так, прирост в точности определения привязи на рабочих мы получили за счёт фотографий из гугла.

  • Если задача сложная, данных мало и нужно быстрее обучить модель, можно подключить игровой движок. 

  • А если модели из игрового движка недостаточно реалистичны, можно использовать NeRF для моделирования реальных объектов с производств.

Значит ли это, что реальные данные не нужны? Нет, мы никогда от них не отказываемся — они всё равно полезны, даже если мы будем их собирать целый год. Постучали по дереву. 

В общем, примерно так мы изворачиваемся ради высокого результата. А вы как решаете проблемы с нехваткой данных? Пишите в комментах, будет интересно обсудить!

© Habrahabr.ru