Биометрическая хиромантия: гиперспектральная визуализация сосудов ладони для идентификации личности

Отпечатки пальцев в качестве инструмента идентификации человека начали использоваться еще в середине 19 века. С тех времен многое изменилось, и спектр биометрических параметров, используемых для защиты данных и устройств от несанкционированного доступа, расширился. Однако и отпечатки, и сетчатка глаза, и лицо являются видимыми физическими характеристиками, что делает их менее надежными и более уязвимыми к подделыванию. Ученые из Университета Осаки (Япония) разработали систему биометрической защиты, использующую гиперспектральную съемку. В чем суть такой съемки, какую роль в этом играют вены, и насколько данный метод идентификации надежен? Ответы на эти вороновы мы найдем в докладе ученых.
Основа исследования
Биометрия — это метод аутентификации, который использует физические характеристики, уникальные для каждого человека, для проверки личности. Традиционные биометрические данные, такие как отпечатки пальцев, лицо и отпечатки ладоней обычно используются для персональной аутентификации или идентификации. Однако многие из этих признаков видны снаружи, что делает их менее безопасными и более подверженным подделыванию. Напротив, внутренние биометрические данные обеспечивают повышенную безопасность, поскольку они не так легко обнаруживаются и их трудно воспроизвести. Такие признаки, как рисунок вен, присущие человеческому телу, обеспечивают повышенную безопасность по сравнению с внешними признаками, поскольку их нельзя зафиксировать на расстоянии.
В последнее время важность проверки личности резко возросла, особенно в таких областях, как офлайн-обработка платежей. Биометрическая аутентификация приобрела популярность как решение без пароля из-за проблем, связанных с управлением идентификаторами и паролями. Эти методы особенно устойчивы к краже личности из-за их зависимости от уникальных биологических особенностей. Аутентификация по венам ладони, в частности, известна своей высокой точностью и устойчивостью к мошенничеству, поскольку она основана на внутренней информации тела. Это объясняется меньшими отложениями меланина и меньшим количеством меланоцитов в кожных тканях ладони по сравнению с другими частями тела, что делает ее пригодной для оптической визуализации.
Оптические методы визуализации для биометрии используют оптическую когерентную томографию (OCT от optical coherence tomography) и фотоакустическую томографию (PAT от photoacoustic tomography) для измерений пальцев. Эти модальности позволяют расширить измерения тканей с 2D до 3D. OCT обеспечивает поперечные изображения кончика пальца, выявляя такие особенности, как распределение потовых желез и папиллярные соединения в слое эпидермиса. С другой стороны, PAT использует трехмерные структуры вен для биометрической идентификации. Оба подхода продемонстрировали высокую точность аутентификации, что позволяет предположить, что использование подкожной информации для персональной идентификации может повысить устойчивость к подделке.
Гиперспектральная визуализация, тип оптической визуализации, захватывает последовательность изображений одной и той же сцены в широком спектре смежных длин волн. Гиперспектральное изображение можно визуализировать как гиперкуб, структурированный в трех измерениях, где начальные два измерения представляют пространственную геометрию изображения (x, y), а третье измерение соответствует спектральной длине волны (λ). Различные длины волн света проникают в различные слои кожи и освещают различные спектры. Поэтому видимый спектр и ближний инфракрасный спектр могут улучшить различные слои ладони и содержать наиболее полезные функции для проверки отпечатков ладони. В частности, высокое спектральное разрешение выявляет различные рисунки вен. Спектральная информация из гиперспектральной визуализации позволяет обнаруживать структуры подкожных тканей, которые значительно различаются от человека к человеку. В дополнение к биометрии с помощью OCT и PAT, использование информации о глубине из спектральных данных, полученных с помощью гиперспектральной визуализации, также может быть мощным инструментом для идентификации личности.
Гиперспектральная визуализация предлагает богатство информации, однако ее обработка осложняется высокой размерностью пространства данных. При обработке изображений размер изображения существенно влияет на вычислительные затраты различных алгоритмов и операций. Более крупные изображения требуют больше памяти, вычислительной мощности и времени для таких задач, как извлечение признаков, фильтрация и распознавание. Кроме того, уменьшение требуемой площади ладони снижает стоимость и размер устройства. С другой стороны, поперечное изображение куба гиперспектральных данных содержит непрерывную последовательность спектров, изображающих текстурные узоры, которые могут различаться у разных людей. Создавая поперечное изображение части ладони, можно уменьшить размер изображения, сохранив при этом всю информацию о длине волны вдоль линии среза. Поэтому ожидается, что персональная идентификация с использованием поперечного гиперспектрального изображения снизит вычислительные затраты.
При создании поперечного изображения гиперспектрального изображения извлечение области интереса (ROI от region of interest) является важным шагом, поскольку оно напрямую влияет на последующее извлечение признаков и сопоставление. Исследователи постоянно изучают инновационные методы для повышения точности и эффективности регистрации изображений руки и ладони для извлечения ROI. Недавние достижения в области глубокого обучения и компьютерного зрения подтолкнули разработку распознавания положения руки. Таким образом, метод обнаружения ROI на основе искусственного интеллекта был использован для определения плоскости сечения гиперспектрального куба, автоматизируя и упрощая процесс настройки ROI.
В рассматриваемом нами сегодня труде персональная идентификация оценивалась с использованием предложенного метода на основе самостоятельно созданной базы данных. Целью этого исследования является демонстрация того, что локальное поперечное гиперспектральное изображение ладони, сохраняющее богатую спектральную информацию в пределах сечения, может точно идентифицировать людей. Кроме того, была подтверждена эффективность и точность извлечения области с использованием настроек ROI на основе ИИ.
Методология и принцип работы

Изображение №1
Экспериментальная установка включала гиперспектральную камеру, сканер ладони, широкополосный источник света и персональный компьютер (фото выше). Гиперспектральное изображение руки было создано с помощью гиперспектральной камеры, оснащенной однофокусным объективом, обеспечивающим спектральное разрешение 5 нм во всем диапазоне от 400 до 1000 нм (1a). Сканер имел область сканирования 240 × 240 мм, расположенную на высоте 900 мм над полом и наклоненную под углом ∼30 градусов к горизонтальной поверхности, со вставленной 5-миллиметровой высокопрозрачной стеклянной пластиной для передачи видимого в ближний инфракрасный свет. Испытуемые помещали одну ладонь на стеклянную пластину для получения гиперспектральных изображений (1b).
Гиперспектральные изображения ладони были получены через стекло с помощью низкоугольного снимка с гиперспектральной камеры. Расположенный на расстоянии ~500 мм позади сканера, кончик объектива гиперспектральной камеры был установлен на высоте ~450 мм над полом и наклонен под углом ~40 градусов к горизонтальной поверхности. Галогенная лампа мощностью 500 Вт, размещенная под сканирующей секцией, освещала ладонь испытуемого с обратной стороны стекла. Управление камерой и сбор данных осуществлялись с помощью программного обеспечения, предоставленного производителем. Спектральное отражение было зафиксировано с помощью гиперспектральной камеры, а гиперспектральные кубические данные (640 × 480 пикселей и 121 полоса) были сохранены на жестком диске персонального компьютера. Скорость сканирования была установлена на уровне 20 строк/с, а время экспозиции камеры было установлено на уровне 0.05 с (50 мс). Общее время сканирования составило ∼24 с. Боковое разрешение (направление датчика) составило 0.36 мм/пикс, тогда как осевое разрешение (направление сканирования) составило 0.42 мм/пикс.
Исходное гиперспектральное изображение было откалибровано по балансу белого и темного с использованием следующего уравнения:
В представленном уравнении Iref представляет собой относительную отражательную способность гиперспектрального изображения, масштабированную от нулевой отражательной способности при значении 0 до 100% отражательной способности при значении 1. Iraw обозначает исходные данные изображения, тогда как Iwhite и Idark обозначают данные изображения с отражательной способностью белого цвета и данные темного изображения. Белое эталонное изображение было получено при тех же условиях, что и необработанные изображения, с использованием доски с белой поверхностью. Темное эталонное изображение было получено путем выключения источника света и полного закрытия объектива камеры черной крышкой. Этот процесс калибровки был выполнен с помощью ImageJ. Откалиброванное гиперспектральное изображение было сохранено в 32-битном формате tiff.
Изображение №2
Чтобы обеспечить единообразие в области, извлеченной из ладони для каждого измерения, ориентиры были обнаружены на изображении ладони с помощью MediaPipe Hands (версия 0.10.1), библиотеки машинного обучения с открытым исходным кодом для обработки изображений, разработанной Google Inc. Среда разработки состояла из блокнота Jupyter (версия 6.5.4) с языком программирования Python (версия 3.11.5). Для повышения точности распознавания MediaPipe Hands из гиперспектрального изображения было сгенерировано псевдо-RGB-изображение. RGB-изображения были получены с помощью программного обеспечения LabVIEW. Впоследствии предварительно обученная модель ориентиров MediaPipe Hand от Google была применена к RGB-изображению ладони руки, автоматически сгенерировав 20 ориентиров на изображении (фото выше). Эти ориентиры использовались для рисования прямой линии в качестве ROI через ориентир № 0, а средняя точка между ориентирами №9 и №13 была определена с помощью ImageJ.
Средняя длина линии ROI, размещенной на изображении, составила 76.19 мм. Перед трассировкой ROI на гиперспектральном изображении был применен фильтр Гаусса (σ = 2) как к пространственному, так и к спектральному направлениям для снижения шума изображения с помощью ImageJ. Во время предварительного теста было замечено, что большие значения σ могут привести к проблемам с численным переполнением, в результате чего значения пикселей достигнут бесконечности. Чтобы избежать этой проблемы и обеспечить стабильную и точную фильтрацию, было определено, что σ = 2 обеспечивает оптимальный баланс. Это значение может эффективно снизить шум, сохраняя целостность важных характеристик изображения, не вызывая численного переполнения.
Изображение №3
Выше представлена схема процедуры визуализации, используемой для извлечения признаков. После обнаружения ROI гиперспектральное изображение было повторно разрезано вдоль прямой линии ROI с использованием функции «Reslice» ImageJ, что привело к получению 2D пространственно-спектрального изображения. Затем повторно разрезанное изображение было изменено до размера 100 × 100 пикселей с помощью билинейной интерполяции с использованием подключаемого модуля изменения размера ImageJ для стандартизации размера изображения. Это измененное изображение впоследствии было преобразовано в 8-битные оттенки серого и сохранено в формате JPEG.
Локальный бинарный шаблон (LBP от local binary pattern) использовался для извлечения признаков из измененных по размеру 2D пространственных спектральных изображений. Измененное по размеру изображение было разделено на 25 неперекрывающихся квадратных подобластей одинакового размера (20 × 20). Из каждой подобласти были извлечены признаки, и для каждой области были построены гистограммы. Эти гистограммы были объединены в длинный вектор, служащий вектором признаков для гиперспектрального изображения руки. Обработка изображений проводилась с использованием IMAQ Extract LBP Feature Vector VI30 из LabVIEW. Каждая гистограмма состояла из девяти бинов, что приводило к вектору признаков с размерами 225 (5 × 5 × 9).
Значения признаков, извлеченные из биометрических данных, были проанализированы с использованием K-средних с анализом главных компонент (PCA от principal component analysis), стохастического вложения соседей с t-распределением (t-SNE от t-distributed stochastic neighbor embedding) и равномерного многообразия аппроксимации и проекции (UMAP от uniform manifold approximation and projection), реализованных с использованием пакета Python. Используя scikit-learn версии 1.3 Python, эти трехмерные алгоритмы снижения размерности были выполнены с n_components = 2 и random_state = 0. Для PCA объясненное отношение дисперсии составило [0.4215, 0.10992], что составило всего 53.1% дисперсии. Хотя установка n_components = 8 превысила 80% дисперсии, объясненные отношения дисперсии для PC3 и PC8 были значительно ниже. Поэтому выбор PC1 и PC2 казался разумным. Даже при n_components = 8 ни одна комбинация компонентов, за исключением PC1 и PC2, не улучшила точность кластеризации. t-SNE и UMAP были выполнены с n_components = 2 и random_state = 0, что соответствовало PCA. Это гарантировало согласованность снижения размерности, облегчало сравнение, упрощало визуализацию и гарантировало воспроизводимость. Кроме того, результаты PCA с n_components = 2 соответствовали результатам кластеризации k-средних (k = 10). Аналогично, результаты t-SNE и UMAP также соответствовали результатам k-средних. Поэтому в этом исследовании для каждого процесса кластеризации была принята установка n_components = 2. Эти методы снижения размерности преобразуют вектор признаков из пространства с высокой размерностью в пространство с низкой размерностью (из 225 до двух измерений в этом исследовании), сохраняя некоторые значимые свойства исходных данных.
Сходство между различными векторами биометрических признаков после сокращения размерности оценивалось с использованием евклидового расстояния. Небольшое евклидово расстояние ожидается между внутрисубъектными, тогда как расстояние между межсубъектными больше. Кроме того, статистическая значимость разницы между средними евклидовыми расстояниями двух популяций (внутрисубъектной и межсубъектной) оценивалась с помощью непарного t-критерия Уэлча с использованием Kaleidagraph 5.0.
Для определения порогового значения были рассчитаны частота ложного принятия (FAR от false acceptance rate) и частота ложного отклонения (FRR от false rejection rate). FAR определяется как количество неправильно принятых личностей, деленное на общее количество неправильных совпадений, тогда как FRR определяется как количество неправильно отклоненных личностей и 9000 межклассовых совпадений. FAR и FRR рассчитывались для каждого порога евклидова расстояния, увеличиваясь пошагово. Этот расчет был выполнен с использованием внутреннего кода LabVIEW. Кроме того, эффективность распознавания оценивалась с использованием равной частоты ошибок (EER от equal error rate), которая является точкой, где FAR и FRR равны.
Эффективность кластеризации для идентификации пользователя оценивалась с использованием кривых рабочих характеристик приемника (ROC от receiver operating characteristics), которые строили график частоты истинного принятия (TAR от true acceptance rate), определяемой как 1 − FRR, как функции FAR. Для количественной оценки эффективности на основе кривых ROC площадь под кривой (AUC от area under the curve) вычислялась с использованием scikit-learn, библиотеки Python с открытым исходным кодом.
В исследовании приняли участие 10 здоровых взрослых (7 мужчин и 3 женщины) от 24 до 47 лет. Каждому испытуемому сканировали ладонь 10 раз с помощью системы визуализации. Одного испытуемого измеряли пять раз в два отдельных дня, тогда как другого испытуемого измеряли пять раз в разное время в тот же день. Другие испытуемые измерялись 10 раз непрерывно с коротким перерывом между каждым измерением.
Результаты исследования

Изображение №4
Репрезентативные результаты гиперспектральных изображений рук, усредненных по определенному диапазону длин волн, показаны на снимках выше. В низком диапазоне волн наблюдался пятнистый рисунок (4a). По мере удлинения диапазона волн пятнистый рисунок исчезал, и наблюдались узоры, похожие на вены (4b–4d).
Изображение №5
Выше показан пример поперечного гиперспектрального изображения вдоль интересующей линии. Поперечное изображение состояло из серии спектров в диапазоне от 400 до 1000 нм с шагом 5 нм. Последовательность спектров изображала текстурированный рисунок. Кроме того, на изображениях наблюдались теневые линии, перпендикулярные линии разреза. Эти теневые линии соответствовали морфологии поверхности ладони, такой как линии межфаланговых суставов, линии ладони, отпечатки ладоней и морщины на руке (5a).
Изображение №6
Изображение №7
Выше показаны обработанные изображения поперечного сечения одного субъекта (изображение №6) и разных субъектов (изображение №7). В целом, гиперспектральное изображение поперечного сечения демонстрирует слоистую структуру, вызванную градиентом яркости. Яркость была темнее в коротковолновом диапазоне и ярче в диапазоне от средних до длинных волн, с четкими распределениями яркости, наблюдаемыми в каждом слое. Кроме того, изображения поперечного сечения содержали вертикальные линии тени. Изображения одного и того же субъекта показали схожую картину, тогда как изображения разных субъектов имели тенденцию отображать разные картины. Аналогичные тенденции наблюдаются для векторов признаков одного субъекта, тогда как шаблоны гистограмм разных субъектов не показали сходства.
Изображение №8
Выше показана производительность K-средних с PCA (8a), t-SNE (8b) и UMAP (8c) кластеризацией векторов признаков, извлеченных из поперечного изображения с использованием LBP. Для каждого случая данные были сведены к двум измерениям, а графики были окрашены на основе истинности самостоятельно построенных данных. Результаты визуально иллюстрируют, что кластеры данных хорошо разделены. Примечательно, что UMAP показывает лучшую кластеризацию, t-SNE представляет лучшую кластеризацию, чем PCA, а PCA также показывает хорошие кластеры.
Изображение №9
Для определения кластеризации биометрических данных с гиперспектральной визуализацией были вычислены распределения дискриминантной функции на основе евклидовых расстояний. Были проанализированы евклидовы расстояния меж- и внутрисубъектного сопоставления (графики выше). Во всех случаях кривые распределения с гауссовой аппроксимацией имели очевидную бимодальную форму. Также можно заметить, что межсубъектные расстояния описываются широким распределением в отличие от внутрисубъектных расстояний, которые охвачены заметно пиковым распределением. Более того, межсубъектные расстояния были значительно больше внутрисубъектных расстояний во всех случаях (графики ниже).
Изображение №10
Для оценки точности аутентификации использовались FAR и FRR. Графики ниже иллюстрируют изменения FAR и FRR при различных евклидовых расстояниях каждого размерно сокращенного пространства с использованием PCA, t-SNE и UMAP.
Изображение №11
Абсциссы этих графиков представляют порог для нормализованного евклидова расстояния в каждом размерно сокращенном пространстве в диапазоне от 0 до 1. Если нормализованное евклидово расстояние между двумя точками данных в пространстве ближе к 0, это указывает на более высокую вероятность того, что это один и тот же субъект. И наоборот, расстояние ближе к 1 указывает на более высокую вероятность того, что это другой субъект. При установке порога в пределах диапазона расстояния ниже порога считались одним и тем же субъектом, тогда как расстояния выше порога считались разными субъектами. Следовательно, увеличение порогового значения приводит к уменьшению FRR, хотя и к увеличению FAR. Аналогично, уменьшение порогового значения приводит к уменьшению FAR, хотя и к увеличению FRR. Пороговое значение можно найти на пересечении графиков FAR и FRR. Значение в этой точке пересечения представляет собой EER. Наименьший порог наблюдался для UMAP, за которым следуют t-SNE и PCA.
Изображение №12
Как показано выше, была рассчитана кривая ROC. В качестве цели оптимизации использовалась AUC, поскольку она обеспечивает хорошее представление производительности ROC. UMAP продемонстрировал лучшую производительность, чем другие методы.
Процесс гиперспектральной визуализации занял 24 секунды; однако использование двух источников света сократило это время до 8 секунд. Для обработки изображения шумоподавление 3D-фильтром Гаусса потребовало 223.8 мс, преобразование гиперспектрального изображения в изображение RGB потребовало 4935.8 мс, аннотация MediaPipe Hands потребовала 29.9 мс, настройка ROI и извлечение поперечного изображения потребовали 81.2 мс, а извлечение вектора признаков LBP потребовало 0.6 мс. Наконец, общее время обработки изображения составило 5271.3 мс (∼5.3 с).
Для более подробного ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.
Эпилог
В рассмотренном нами сегодня труде ученые создали систему гиперспектральной визуализации, которую можно использовать для более безопасной биометрии.
Обычная камера создает изображения с использованием красного, зеленого и синего цветов, а гиперспектральная камера может получить более 100 изображений в видимом и ближнем инфракрасном диапазоне за один снимок. В результате гиперспектральная визуализация может получить информацию, которую человеческий глаз не может увидеть.
В эритроцитах крови человека содержится гемоглобин, поглощающий свет. Используя специальное оборудование, можно «увидеть» рисунок сосудов. Учитывая что это рисунок у разных людей будет разный, это можно использовать для их идентификации. Важно то, что невооруженным глазом нельзя увидеть рисунок сосудов, что делает эту информацию куда более защищенной чем просто лицо или отпечатки пальцев.
Авторы разработки уверены, что биометрическая аутентификация с использованием гиперспектральных изображений обеспечивает настолько высокую безопасность через ладонь руки, что ее можно даже использовать в качестве ключей от дома. В будущем ученые намерены расширить спектр возможностей своей системы, чтобы проверить ее применимость в области медицины. Если удастся оценивать состояние здоровья человека по сканированию ладони, то можно будет создать устройство для его ежедневного мониторинга.
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?