[Из песочницы] Очки дополненной реальности: где мы сейчас?
[Источник]
Все мы в той или иной степени знакомы c AR технологиями. Новостные ленты пестрят рассказами о компаниях, выпустивших новенькие очки дополненной реальности. Футурологи предвещают колоссальные перемены в привычном для нас мире. Настолько часто вокруг появляются игры, приложения и прочие крутые штуки, связанные с AR, что невольно создается ощущение, будто вот-вот и совсем скоро можно будет купить новенькие очки и погрузится в мир AR.
Но где же очки с дополненной реальностью, которые мы все так ждем?
Какие, вообще, технологии AR сейчас используются?
Очки, которые по качеству изображения не будут уступать экранам современных смартфонов, а по размеру будут сравнимы с обычными очками для коррекции зрения. Ну и конечно, чтобы они были доступны.
Появление таких очков AR включает огромное количество факторов начиная от дизайна, проходя через маркетинг и заканчивая программной оболочкой (непонятная формулировка). В данной статье мы затронем только технологии отображения, наложения изображения на образ окружающего мира в очках AR. При этом технологии будут рассмотрены с точки зрения принципов работы, физических процессов и технических параметров, а также перспектив использования. Будут рассмотрены положительные и отрицательные черты отдельных реализаций, которые уже вышли на рынок.
P.S. В посте специально не будет делаться акцент на точных технических параметрах той или иной используемой системы, так во многих случаях эти показатели могут быстро устаревать. Автор не претендует на полноту изложения, но дает обзор современных технологий AR. Материал дополнен множеством ссылок, что при желании позволит подробнее разобраться в деталях.
Читатели, которые помнят со школы физиологию глаза, могут пропустить часть текста и сразу перейти к пункту “Технологии AR”.
1. Немного о принципе работы глаза
Глаз — это один из самых важных органов чувств человека. Порядка 80% информации об окружающем мире поступает к нам через зрение.
Наш глаз работает аналогично камере. Когда мы смотрим на объект, отраженный, рассеянный или излученный им свет попадает в глаз через зрачок и фокусируется через оптическую систему внутрь глаза. Передняя часть оптической системы состоит из роговицы, радужки, зрачка и хрусталика и предназначена для фокусировки изображения на сетчатку. Сетчатка является светочувствительным слоем, который покрывает заднюю поверхность глаза. Этот слой состоит из миллионов нервных клеток (палочек, колбочек), которые собираются вместе за глазом, образуя большой нерв, называемый зрительным нервом. Зрительные нервы обоих глаз соединяются внутри мозга. Мозг использует информацию от каждого зрительного нерва, чтобы объединить сигналы с обоих глаз и в результате получить одно изображение.[1]
Рис. 1: Схема строения глаза с соответствующими названиями каждого элемента.
Об особенностях и строении глаза можно говорить много, но выделим несколько наиболее важных факторов необходимых для лучшего понимания принципов работы систем дополненной реальности.
Аккомодация глаза
Аккомодация глаза – это физиологическая настройка элементов хрусталика для изменения силы преломления и фокусировки на близких и дальних объектах. Глаз приспосабливается, изменяя кривизну хрусталика за счет работы цилиарных мышц. Расслабление цилиарных волокон позволяет расслабить хрусталик, образуя более выпуклую форму. Чем больше выпуклость хрусталика, тем меньше фокусное расстояние оптической системы глаза и тем четче видны объекты, расположенные вблизи. По мере увеличения напряжения цилиарных волокон кривизна хрусталика уменьшается и человек может наблюдать удаленные объекты [2]. Более подробное описание можно найти по ссылкам: [3] и [4].
Рис. 2: слева – изменение кривизны хрусталика глаза за счет работы цилиарных мышечных волокон, справа – близкий объект находится в фокусе, удаленный (фон) – не в фокусе. [5]
Поле зрения (FOV)
Поле зрения определяется, как общий угловой размер изображения, видимого для обоих глаз. В среднем горизонтальное бинокулярное поле зрения составляет 200°, из которых 120° представляет собой бинокулярное перекрытие. Бинокулярное перекрытие особенно важно для стереоскопического эффекта зрения и других эффектов, связанных с восприятием глубины и объемности видения. Вертикальное поле зрения для обоих глаз составляет около 130°.
Рис. 3: слева – горизонтальное поле зрения, справа – вертикальное поле зрения. [6]
Периферическое зрение
Периферическое зрение – это способность видеть вещи, на которые мы не смотрим прямо – “краем глаза”. Даже при нормальном зрении периферическое зрение отличается низкой остротой. Такой эффект связан с неравномерным распределением плотности палочек и колбочек. Наибольшая плотность клеток и нервных волокон приходится на область под названием макула (“fovea”). Именно эта часть сетчатки обеспечивает центральное зрение, характеризующееся высокой остротой. Область четкого видения составляет около 1% от общего поля зрения, что соответствует углу не более 2° по горизонтали. Большая часть нашего поля зрения – остальные 99% — отличается низкой остротой. Периферическим зрением мы видим мир как бы через мутное стекло [7], [8].
Рис. 4: Распределение четкости видения изображения. [9]
Движение глаз
Как мы уже выяснили, человеческий глаз обладает наибольшей четкостью в пределах всего лишь 2° от общей области зрения. Для четкого наблюдения всего окружающего мира, наш глаз имеет возможность двигаться. Движение позволяет нам направить наиболее чувствительную часть глаза в интересующее место обзора. Таким образом при чтении текста мы последовательно сканируем весь текст с экрана [10]
Рис. 5: Движение глаза под действием сокращающихся глазных мышц: слева – горизонтальное движение, справа — вертикальное движение.
2. Параметры технологий AR к которым все стремятся
Рассмотрим какими техническими параметрами должны обладать устройства AR, чтобы найти массовое применение, а может и заменить все существующие экраны в мире. Будем рассматривать все, что относится к очкам дополненной реальности. Линзы для глаз со встроенной технологией дополненной реальности рассматривать не будем, так как по технологическим причинам человечеству до них еще далеко. Системы наподобие WayRay (дополненная реальность на лобовом стекле авто), мы также не будем рассматривать, так как там другие технологические особенности и свои проблемы.
Идеальная технология очков дополненной реальности:
- Форм-фактор обычных очков (очки для коррекции зрения)
- Тонкие дужки очков, не мешающие периферическому зрению
- FOV на уровне человеческого глаза (200 град. по горизонтали, 130 град. по вертикали)
- Мультипросмотровость (изображение видно при любом положении глаза)
- Мультицветность (вся палитра RGB)
- Разрешение на уровне технологии Retina (наблюдатель не может различить отдельные пиксели)
- Отсутствие отслеживания глаз для переключения между различными видами (для разных направлений видения глаз). (Во многих технологиях отслеживание применяется как “костыль” для отображения разных изображений под разными углами. Не путать с отслеживанием положения глаз для управления и прочих функциональных задач)
- Отсутствие радужной окраски (появляется при использовании дифракционных и голографических оптических элементов)
Такой параметр как энергоэффективность не будем рассматривать, так как сама технология отображения дополненной реальности составляет часть от всего энергопотребления устройства. Рассматривать также не будем возможность отображения одного изображения с переменной глубиной, так как слишком мало технологий имеют подобную функцию.
Рис. 6: Один из возможных вариантов будущих очков AR. [11]
3. Основные технические концепции в очках AR
По способу отображения изображения
Можно выделить три основных способа отображения изображения в сторону глаза наблюдателя. В данном случае под способом подразумевается то, как сгенерированное изображение попадает в конечном счете на сетчатку глаза.
Также каждый из способов отображения можно разделить ещё по нескольким признакам:
- По положению источника изображения: источник совмещён с просмотровой областью, источник находится отдельно от просмотровой области
- По использованию оптических элементов в зоне просмотра: светоделительные пластины (beam splitter), голографические или дифракционные оптические элементы (HOE, DOE), микро-зеркала располагающиеся вне области фокусировки глаза
- По типу источника излучения подсветки (генератора изображения): когерентные точечные источники (лазеры), некогерентные протяженные источники (LED, IPS, AMOLED, …)
4. Технологии AR
Голография
Под голографией тут подразумевается именно истинная голография (не путать с голографическими оптическими элементами и псевдо-голографией). Подробнее про настоящую голографию можно почитать тут [12].
Как известно из курса школьной физики, свет обладает двумя основными характеристиками – интенсивностью и фазой. И эти два параметра и есть всё, что нужно свету для его полного детектирования нашими органами зрения. Обычные дисплеи отображают только амплитуду света. Но также существуют дисплеи с экстремальным разрешением, размер пикселей которых сравним с длиной волны. Такие дисплеи получили название пространственные модуляторы света (SLM) и используются в науке для создания цифровых голограмм. Размер пикселя такого модулятора настолько мал, что позволяет управлять фазой света. Различают SLM на пропускание, который может быть встроен прямо в оправу очков, и SLM на отражение, который, как правило, устанавливается в дужке очков. В качестве освещения используются лазерные (когерентные) источники для возможности создания интерференционной картины. В результате появляется изображение, которое под разными углами принимает разное значение. Стоит отметить, что такой способ несет всю информацию об изображении, т.е. позволяет полностью подменить реальное изображение [13].
Рис. 7: слева — система дополненной реальности на основе отражающего SLM (свет от точечного лазерного источника попадает на отражающую голограмму SLM-а и затем перенаправляется в глаз наблюдателя), справа – пример генерируемого изображения с различной глубиной фокусировки [14].
Технология отличается тем, что мы не пытаемся найти какой-то хитроумный способ отобразить изображение в глаз, а полностью подменяем его. При этом возможно создание изображения с произвольной глубиной фокусировки. Также возможно использование трехцветного освещения для создания мульти-цветного изображения.
Для лучшего понимания работы SLM в AR будет полезно прочитать: [Ссылка]
Но в настоящее время данная технология не получила широкого применения в качестве массовых портативных устройств. Существуют единичные экземпляры приборов, исследуемые в лабораториях, принцип работы которых описывается в статьях. Связано это со стоимостью SLM, которая может составлять до 2000$. Также к проблемам относится низкая скорость обновления картинки и необходимость проведения большого количества расчетов для создания цифровой голограммы (отличается от расчётов и обработки обычного изображения).
Основные представители: пока только в статьях ((( [15], [16], [17]
Перспективы: данная технология отличается полной подменой реального изображения. При данном развитии технологий SLM и необходимости проведения настолько большого количества вычислений, является сомнительным, что технология получит широкое распространение в ближайшее время. Данная технология является пока что недостижимым Граалем.
Дифракционный волновод (diffraction waveguides)
В настоящее время наиболее популярной технологией AR является технология на основе дифракционных волноводов. Всем известные Microsoft Hololens и Magic Leap работают именно по этому принципу. Он заключается в следующем: на оптической плоскопараллельной пластине — волноводе, находится пара дифракционных решёток. Через одну из решёток, расположенную вне области просмотра (обычно выше, над глазом), за счет дифракции света на решётке вводится изображение. В данном методе высокой когерентности не требуется, поэтому изображение может быть сгенерировано как OLED матрицей, так и IPS и прочими методами. Изображение, заведенное через дифракционную решётку, распространяется по волноводу в следствии эффекта полного внутреннего отражения. Дойдя до второй решётки, которая расположена в просмотровой зоне (на месте очковой линзы), свет дифрагирует на ней, в следствие чего изображение проецируется в сторону глаза. Так как дифракционная решётка рассчитана на работу при определенном угле освещения, то наблюдатель может видеть через неё окружающий мир без помех. Возможно использование дополнительных решёток для изменения направления распространения изображения или для расширения изображения от источника. Данная технология относится к способу с искусственным добавлением оптического пути (то есть перенос изображения с расстояния вблизи глаза на комфортное расстояние наблюдения).
Рис. 8: слева — схема работы системы дополненной реальности на основе дифракционного волновода [18] , справа – типичная проблема дифракционных решеток: радужная окраска [19].
Можно отметить, что технология на основе дифракционных волноводов получила наибольшее признание, так как имеет большую экспериментальную базу [20], [21], [22] и лишена многих фундаментальных недостатков, однако все же имеет два основных. Во-первых, тот факт, что зоны заведения изображения от источника и зоны высвечивания в сторону глаза сильно разнесены, не позволяет добиться компактного форм-фактора, сравнимого с форм-фактором очков для коррекции зрения. Во-вторых, использование дифракционных элементов приводит к радужной окраске отображаемого изображения (рис. 8), как со стороны пользователя, так и со стороны внешнего наблюдателя.
Основные представители: Microsoft Hololens, Magic Leap, Sony AR glasses, …
Перспективы: дальнейшая отработка технологии (использование объемных дифракционных решёток или решёток с подавлением других порядков дифракции), а также различного рода компенсации радужной окраски для пользователя могут немного продвинуть технологию. Однако проблема с размером устройства пока остается потенциально не разрешимой. Скорее всего, данная технология продолжит свое лидерское движение в среде AR технологий ровно до того момента, пока не будет найдена альтернативная компактная замена.
Виртуальный ретинальный дисплей (virtual retinal display)
Эта технология относится к способу отображения прямо на сетчатку [23]. В качестве источника излучения, как правило, используется лазерный источник, установленный в оправу очков. Его мощность специально ограничивается так, чтобы не повредить сетчатку. Узкий параллельный лазерный пучок светит на зеркальный сканирующий элемент (MEMS), также установленный в оправе очков. Отразившись от микро-зеркала MEMS, параллельный пучок перенаправляется на голографический оптический элемент (HOE или DOE), который, в свою очередь, перенаправляет лазерный пучок в сторону глаза. При этом HOE подбирают таким образом, чтобы при сканировании MEMS-ом пучок проходил через центр зрачка наблюдателя. В результате создается эффект сканирования лазерного луча по сетчатке глаза, который можно сравнить с рисованием электронным лучом на экране кинескопа.
Рис. 9: слева – схема работы виртуального ретинального дисплея с DOE [24], справа – типовой зеркальный сканер MEMS [25].
Данная технология отличается возможностью создания большого FOV, который может достигать 120 град, что сравнимо с максимально доступным для глаз наблюдателя. Также выделяется очень высокая компактность системы, которая может сравниться с обычными очками. Другие технологии не могут похвастаться такой компактностью. Поскольку изображение проецируется прямо на сетчатку, то изображаемый объект пользователю кажется удаленным на бесконечность, что позволяет четко наблюдать сгенерированное изображение при фокусировке глаза на окружающих предметах, удаленных на любое расстояние. Но у данной технологии также существуют две фундаментальные проблемы. Во-первых, разрешение устройства определяется скоростью работы микро-зеркала MEMS структуры. В настоящее время разрешения не превышает порядка 100x100 пикселей, что явно маловато для полноценной системы дополненной реальности [26]. Во-вторых, сама технология подразумевает прохождение лазерных пучков точно через центр зрачка. При фиксированном положении глаза (наблюдатель смотрит только вперед) изображение видно полностью и четко, но при смещении взгляда (право, лево), радужная оболочка перекрывает пучок и изображение исчезает или отображается неправильно. Существуют различные схемы проецирования для разных положений глаза [27], но они больше похожи на “костыли”, которые создают дискретность при перемещении взгляда, чем на изящные технические решения.
Основные представители: IntelVaunt, North Focals.
Перспективы: Для увеличения скорости могут использоваться различные методы перекрытия при сканировании или же улучшена технология производства микро-сканирующих MEMS. Что касается корректного отображения только при фиксированном положении глаза, то возможно использование нескольких лазерных источников, создающих матрицу, но в таком случае это приведет к увеличению всей конструкции. Автор сего поста считает, что данная проблема с современным подходом не может быть качественно решена. В итоге, данная технология подойдет только для отображения простых уведомлений и только в центре дисплея (исходя из принципа работы периферического зрения).
Изогнутые зеркала / светоделитель / оптический головной дисплей (Curved Mirror / beam splitter / OHMD) – как только не называют эту технологию
Самая старая из известных технологий AR. Берет свое начало с технологии проекционного дисплея (HUD) [28], которая в настоящее время получили широкое распространения в автомобильной промышленности. Работа устройств основывается на принципе частичного переотражения изображения от источника в сторону глаза. В качестве источника может использоваться любой из видов дисплеев (IPS, OLED, DLP, …). Сгенерированное дисплеем в близи глаза изображение не может быть сразу перенаправлено в глаз, так как дисплей удален на очень малое расстояние от глаза. На расстояние порядка 5 см, а на такое расстояние глаз не способен сфокусироваться. Поэтому необходимо искусственное добавление оптического пути, за счет системы линз. Изображение удаляется на комфортное расстояние, порядка 1-2 метров. Далее удаленное изображение попадает на светоделительную пластину (beam splitter) и проецируется в сторону глаза. Для уменьшения габаритов части, ответственной за увеличение удаленности изображения, могут быть использованы светоделители изогнутой формы.
Рис. 10: слева – схема работы Google Glass, справа – внешний вид Google Glass [29], [30]
К этому же классу технологий можно отнести использование голографических оптических элементов (HOE) установленные на место очковой линзы. HOE представляет собой записанный голографический образ системы линз и светоделителя, обеспечивающих создание “оптического пути” и перенаправление изображения в сторону глаза. Использование HOE позволяет уменьшить размер оптического элемента, располагающегося перед глазом наблюдателя. В качестве источника излучения используется лазерный диод.
Рис. 11: слева – схема работы системы AR на основе HOE, справа – реализация системы AR на основе HOE [31].
Основные представители: Google Glass, Lumus, Mira Prism, …
Перспективы: технология является наиболее простой и имеет большой задел. Основной недостаток технологии – громоздкость устройства – может решаться за счет использования разделённого светоделителя [32] и голографических оптических элементов. Но уменьшение устройства до форм-фактора очков для коррекции зрения не представляется возможным, так как в системе просмотровая область и область генерирующая изображение расположены раздельно. Данная технология может получить широкое распространение в среде DIY и устройств низкой стоимости.
LetinAR
Данная технология основана на неспособности человеческого глаза сфокусироваться на близких предметах, расположенных на поверхности очковой линзы. Изображение генерируется отдельно от просмотровой области, как правило над линзой, далее фокусируется на микро-зеркале, которое внедрено в очковую линзу. Для увеличения просмотровой области используется массив упорядоченных микро-зеркал. Переотражаясь, изображение попадает в глаз наблюдателя. Размер микро-зеркал меньше диаметра зрачка человеческого глаза и располагается на расстоянии нескольких сантиметров, что позволяет наблюдать образ окружающей среды без помех с возможностью наложения дополненной реальности.
Рис. 12: слева – схема работы LetinAR, справа – вид для наблюдателя при близком расположении дисплея к глазу (сверху) и вид при удалении на 15 см (снизу) [33], [34].
Основные представители: LetinAR.
Перспективы: разделение области генерации изображения и просмотровой области не позволяет создать компактное устройство. Также проецирование и фокусирование изображения через торец устройства очковой линзы приводит к необходимости увеличения толщины стекла с включенными микро-зеркалами. Данная технология отличается оригинальностью подхода и может послужить началом новых технологий.
Другие технологии:
Хотя выше приведены наиболее распостраненные технологии, однако есть еще много потенциально интересных реализаций, которые, возможно, станут популярны в будущем. Здесь приведен список других технологий дополненной реальности, которые пока остаются только в лабораториях и статьях исследователей. Возможно, скоро мы узнаем об этих технологиях больше.
- Массив голографических линз [35]
- Микро – источники [36], [37]
- Двумерная сеть оптических волноводов + HOE [38]
- Голографический оптический волновод (Является разработкой автора данного поста. Раскрытие технологии ожидается в следующем посте.)
Заключительная часть
Более 10 лет прошло с момента внедрения мобильных устройств в нашу жизнь. Сейчас мы уже воспринимаем смартфоны как нечто обыденное и то, без чего наша жизнь была бы скучнее. Возможно, дополненная реальность через несколько лет станет для нас обыденной вещью и позволит избавиться от необходимости каждый раз доставать из кармана электронное устройство с интернетом.
Мы уже видим, как AR проникает в нашу жизнь (WayRay, PokemonGo, HoloLens, …). Но даже при нынешнем развитии технологий на рынке пока не существует системы, которая позволила бы собрать очки дополненной реальности, которые бы устроили большую часть потребителей. Конечно, производители взяли курс на оптимизацию технологии, поиск баланса между FOV, просмотровыми областями, компактностью и разрешением. Но фундаментально на нынешнем уровне ни одна из перечисленных выше технологий не позволяет создать компактное носимое устройство дополненной реальности, которое способно целиком и полностью погрузить человека в мир AR.
Нам нужны новые технологии и новые подходы.
Один из лучших блогов по технологиям дополненной реальности: https://www.kguttag.com/