Учёные превратили дрожащий в руке смартфон в камеру, способную заглянуть за угол
Исследователи из Массачусетского технологического института (MIT) показали, что обычный потребительский LiDAR — уровня смартфона или недорогого датчика для компьютерного зрения — можно превратить в примитивную камеру, которая буквально позволит заглянуть за угол. Эффект основывается на дрожании рук и отсутствии стабилизации камеры — чем сильнее дрожание, тем точнее скрытая от глаз картинка.
Источник изображений: MIT
Визуализация объектов вне прямой видимости — важная задача для машинного зрения. Пока это в основном лабораторные эксперименты, поскольку подобные решения опираются на мощные лазеры и сверхточную калибровку со сверхчувствительными датчиками. Учёные из MIT предложили другой подход — они использовали слабый, шумный, но массовый ToF-LiDAR и компенсировали его недостатки алгоритмами многокадровой обработки, которые естественным образом создаются, когда камера дрожит в руках и лишена стабилизации изображения.
Базовый принцип работы «камеры за углом» опирается на регистрацию вторичных отражений луча от невидимого объекта. Для этого необязательно напрямую светить на скрытый объект. Свет на него и от него может отражаться от окружающих стен и других объектов и таким же образом возвращаться к камере. Новшеством стала регистрация множества кадров со слабым переотражённым сигналом, которые делаются при нестабилизированной съёмке. Это тот случай, когда чем хуже, тем лучше. Затем по серии кадров восстанавливается изображение скрытого объекта, для чего используются алгоритмы предсказания.
Таким образом, главная идея исследователей из MIT — не бороться с движением камеры, а использовать его как источник дополнительной пространственной выборки. Авторы называют это MAS — «выборкой апертуры, индуцированной движением». По смыслу это близко к синтетической апертуре: когда смартфон или датчик слегка смещается, он получает слабые измерения из разных точек, а алгоритм объединяет их в более информативную картину. В модели MAS форма скрытого объекта, его движение и положение камеры сводятся к единой измерительной методике с последующим моделированием с использованием пространственно-временного импульсного отклика сцены (STIR).
Во время демонстрации система выполняла три класса задач: грубую 3D-реконструкцию скрытых объектов, отслеживание одного или нескольких объектов за пределами прямой видимости и локализацию камеры с использованием скрытых объектов в качестве ориентиров. Во всех случаях система работала с неплохим результатом, который можно развивать.
Если учёные смогут создать практичное решение, это значительно расширит возможности смартфонов, очков дополненной реальности, машинного зрения роботов и дронов. Но технология пока не даёт «чёткой картинки за углом»: разрешение низкое, сцены должны быть относительно простыми, отражающие свойства материалов сильно влияют на результат, а вычислительная часть остаётся сложной. Впрочем, работать есть над чем, и это главное.
© 3DNews
