Google представила нейромодель Pathdreamer для ориентации в помещениях24.09.2021 13:46

В Google AI Research представили нейромодель Pathdreamer, которая генерирует визуальные сцены помещений, учитывая невидимые области, с использованием ограниченных исходных данных и навигации. Pathdreamer может синтезировать иммерсивную сцену с одной точки обзора, предсказывая, что агент может увидеть, если он переместится в другое место или в совершенно невидимую область, например, за угол. Помимо приложений для редактирования видео и оживления фотографий, модель можно задействовать в обучении роботов для работы в реальном мире.

Как работает Pathdreamer

Основная проблема на сегодняшний день заключается в том, что роботизированным агентам сложно использовать семантические подсказки в новых зданиях. Типичный подход состоит в том, чтобы использовать такие сигналы посредством обучения с подкреплением. Однако навигационные подсказки, полученные таким образом, трудно проверять и повторно использовать для другого агента без повторного обучения с нуля.

Семантические подсказки может заменить модель визуального мира, которая позволила бы агенту делать конкретные прогнозы. Однако игровые среды все еще относительно просты по сравнению со сложностью и разнообразием реальных.

Pathdreamer, к примеру, позволит роботу найти определенную комнату или объект в незнакомом здании путем симуляции для определения ее/его вероятных местоположений. Нейромодель также можно использовать для увеличения объема обучающих данных для агентов.

Работа Pathdreamer включает два этапа

Используя RGB, глубину, сегментацию и предлагаемую навигационную траекторию в качестве входных данных, Pathdreamer синтезирует сцены на 360º с высоким разрешением на расстоянии до 6–7 метров от исходного местоположения, в том числе из-за угла. Pathdreamer создает трехмерное облако точек для представления поверхностей в окружающей среде. Точки в облаке помечаются значением цвета RGB и по семантическим признакам, например, как стена, стул или стол.

Направляющие изображения в крайнем левом столбце представляют пиксели, которые агент ранее видел. Черные пиксели представляют области, которые ранее были невидимы, и для них Pathdreamer визуализирует различные выходные данные путем выборки нескольких векторов случайного шума

Облако точек сначала повторно проецируется в 2D в новом месте, чтобы получить «навигационные» изображения, из которых Pathdreamer затем генерирует реалистичный RGB с высоким разрешением, семантическую сегментацию и глубину. По мере «движения» модели новые наблюдения накапливаются в облаке точек. Pathdreamer работает в два этапа: на этапе генерации структуры создаются изображения сегментации и глубины, а на этапе генерации изображений их преобразуют в выходные сигналы RGB. Концептуально первый этап обеспечивает правдоподобное высокоуровневое семантическое представление сцены, а второй этап преобразует его в реалистичное цветное изображение. Оба этапа основаны на сверточных нейронных сетях.

В областях с высокой степенью неопределенности, таких как места за углом или в невидимой комнате, возможно множество различных сцен. Генератор структуры в Pathdreamer обусловлен шумовой переменной, которая представляет стохастическую информацию о следующем местоположении. Выбирая несколько переменных шума, Pathdreamer может синтезировать различные сцены, позволяя агенту выбирать несколько вероятных результатов для заданной траектории.

Pathdreamer обучается с изображениями и реконструкциями трехмерной среды из Matterport3D, а также способен синтезировать реалистичные изображения в виде непрерывных видеопоследовательностей.

В Google нейромодель уже применяют в задаче визуальной и языковой навигации (VLN), где агент должен следовать инструкциям на естественном языке, чтобы перейти к местоположению в реалистичной трехмерной среде. При предварительном планировании на три шага вперед (примерно 6 м) агент VLN достигает показателя успешности навигации 50,4%, что значительно выше, чем показатель успешности 40,6% в других случаях. Максимальный коэффициент успеха агента составляет 59%, хотя он тратит немного больше времени на принятие решения.

Планирование наперед с использованием навигационного графика с соответствующими визуальными наблюдениями оказалось более эффективно, чем планирование с использованием одного только навигационного графа

Код Pathdreamer выложили на GitHub.

В августе Google Research представила аудиокодек SoundStream на нейросети, который обрабатывает речь и музыку и может работать в режиме реального времени на процессоре смартфона. SoundStream будет выпущен как часть следующей улучшенной версии Lyra. Интегрируя его, разработчики смогут использовать существующие API-интерфейсы Lyra. Кроме того, SoundStream выйдет как отдельная модель TensorFlow для экспериментов.