Терагерцевый сканер МТИ читает закрытые книги и запечатанные письма

80c7638ba5ef426293abda01d1263690.jpg
Фото: AP Photo / Akira Suemori

Исследователи из Массачусетского технологического института и Технологического института Джорджии разработали терагерцевый сканер, который позволяет читать книги, не открывая их. Это нужная вещь для оцифровки хрупких фолиантов, которые могут повредиться при листании страниц. Кроме того, технологию можно использовать для чтения писем в запечатанных конвертах, например.
Исследователи из лаборатории MIT Media Lab сообщают, что интерес к технологии уже проявило руководство музея Метрополитан в Нью-Йорке. Как и в некоторых других музеях, в их музейном фонде имеется ряд древних книг, которые боязно открывать. «Они не хотят даже прикасаться к ним», — говорит Бармак Хешмат (Barmak Heshmat), научный сотрудник MIT Media Lab и один из авторов научной статьи с описанием инновационного сканера.

Учёный добавил ещё, что прибор полезен не только для сканирования книг или чтения писем в запечатанных конвертах, но и для изучения любых материалов, которые нанесены в несколько тонких слоёв. Это может быть старый рисунок под слоем краски, содержимое таблетки под оболочкой или покрытие автомобиля под внешним слоем краски.


Специалисты из Массачусетского технологического института разработали аппаратную часть сканера, а коллеги из Технологического института Джорджии — программную часть для устранения искажений и улучшения качества отсканированных изображений. Учёные говорят, что программа устранения искажений в буквах работает настолько хорошо, что легко распознаёт многие картинки CAPTCHA, где используются искажённые символы.

Терагерцевое излучение — вид электромагнитного излучения, спектр частот которого расположен между инфракрасным и сверхвысокочастотным диапазонами. Диапазон частот от 0,01 до 10 ТГц. Терагерцевое излучение широко используется в системах безопасности для сканирования багажа и людей. В медицине начинают применять терагерцевые томографы, а в искусствоведении восемь лет назад начали использовать терагерцевые сканеры для изучения рисунков, скрытых под слоями краски. Такие сканеры позволяют обнаружить скрытые структурные дефекты в различных материалах.

Главной проблемой при сканировании многослойных поверхностей книг является быстрое падение уровня отражённого сигнала при «погружении» на несколько слоёв вглубь. Сигнал настолько слабый, что становится очень трудно выделить его из шума. Исследователи изобрели специальную технику для фильтрации сигнала и «фокусировки» на конкретном тонком слое.

В частности, они нашли способ фокусироваться на каждом слое многослойного материала по статистическим данным детектируемого электромагнитного излучения. Затем они выделяют спектральные изображения с наибольшим контрастом для каждого слоя, используя метод усреднённого временнóго стробирования спектрального эксцесса. Такой метод позволяет успешно считывать страницы даже с низким соотношением SNR менее 10 дБ, обеспечивая контрастность в 18 раз выше, чем при обычном сопоставлении амплитуды.

7af2bcc4cb814f0f83516fc4d4f44584.jpg
Экспериментальная установка со стопкой из 9 листов, на каждом из которых с одной стороны напечатана одна буква латинского алфавита. Листы из офисной бумаги толще обычного

Различение текста на страницах возможно благодаря тому, что между страниц закрытой книги остаются воздушные полости толщиной примерно 20 микрометров. Такие большие полости связаны с неровностью бумаги, ведь она изготавливается из дерева и не подвергается специальной шлифовке. Из-за разного показателя преломления воздуха и бумаги можно точно определить границы этих полостей по отражённому сигналу, который принимает терагерцевый детектор. Это позволяет распознавать конкретные листы в стопке.

7816f2f0f3994b09ad4818e3ba9bdf23.jpg
Результат измерений: 9 латинских букв на листах (A); результат сканирования, время поступления отражённого сигнала соответствует глубине слоя, изменение насыщенности соответствует нормированному значению амплитуды поля в произвольных единицах, значения меньше 0,5 соответствуют отрицательной амплитуде поля (B); срез куба данных записанной амплитуды электрического поля, соответствующий конкретному времени поступления отражённого сигнала, то есть конкретному слою ©

Пока что алгоритм может корректно определять расстояние до воздушных полостей примерно в 20 верхних листах стопки, но с каждой страницей сигнал становится всё слабее. Во время испытаний сканер успешно распознал 9 страниц в стопке в автоматическом режиме без человеческого участия и настройки.

31b532a9a39b477c8e7e2177be1fb79f.jpg
Результат работы сканера в автоматическом режиме, с улучшением контраста в пост-процессинге и OCR

Учёные не теряют надежды улучшить качество сканирования, используя более чувствительные детекторы и более мощные источники терагерцевого излучения.

Терагерцевое излучение — относительно новая область инженерного дела. Работа Массачусетского технологического института и Технологического института Джорджии — одна из первых, в которой сочетаются новые инструменты и продвинутые методы компьютерной обработки изображений. Это только начало.

Технология сейчас активно развивается, так что в ближайшие годы наверняка появятся более чувствительные и точные приборы. Возможно, они смогут читать содержание не одного запечатанного письма, а сразу целого мешка писем.

Научная статья «Terahertz time-gated spectral imaging for content
extraction through layered structures»
опубликована 9 сентября 2016 года в журнале Nature Communications (doi: 10.1038/ncomms12665).

© Geektimes