Восстановление утраченных текстов с помощью современных алгоритмов. Софт

image

В первой части мы с вами поговорили о научном оборудовании, которое используется для прочтения, казалось бы, утраченных навсегда текстов. А теперь мы поговорим о том, как обрабатывать эти данные. Мы рассмотрим интересные цветовые пространства, алгоритмы, фильтры и методы статистического анализа. Но перед этим еще раз вернемся к их извлечению. Нам, простым смертным, доступны два варианта — сканеры и фотоаппараты*. 

Есть еще USB микроскопы https://www.dinolite.us/products/digital-microscopes/usb, но при их цене в 500$ каждый при 12 диапазонах будет стоить слишком дорого. К тому же, он скорее для исследования деталей, чем для оцифровки. Рекламные видеоролики с примерами изображения мне не сильно понравились — перешарп изображения, как у дешевой китайщины.

Сканеры.


Со сканерами все понятно. Сейчас подавляющее количество сканеров на контактном сенсоре (cis) что позволяет питать сканер прямо по USB без применения дополнительного питания. Это действительно удобно. Однако, у них низкая разрешающая способность 600 dpi (хотя не всегда нужно выше) и очень большие проблемы с глубиной резкости. Если ваш документ приподнят над поверхностью стекла CIS сканера более чем на 3 мм — ждите мыла. Более того, как рассказал мне Дмитрий Николаев он лично наблюдал откровенное маркетинговое намахалово в разных сканерах. Ты выбираешь в настройках продукта формат tiff, а по USB шине сканер гонит jpeg, и уже драйвер сканера делает преобразование. 

cf3b36fec39c59233b4120083b386697.jpg


На что только не пойдешь, чтобы удовлетворить возросшие потребности покупателей!

.
О, молодец! Заметил!
Сейчас будет шутка
Где-то в компьютерном
image



Более профессиональные сканеры на CCD сенсоре. Их сканирующая часть состоит из объектива, зеркала и самого CCD сенсора. Из-за этого проблем с глубиной резкости у них нет. Так же есть еще одна важная физическая характеристика — это глубина цвета. Теоретически, изображение с цветовой глубиной в 48 бит для анализа лучше, чем в 16 бит. Как вы уже знаете, для формирования цветного изображения сканеру необходимо три цветовых фильтра перед сенсором. Существуют специальные мультиспектральные сенсоры для спутникового оборудования, но опять же, в готовых решениях их не найти. Мне даже попадался проект опенсурсного сканера, где существовала возможность менять белый источник света сканера на любой из 12 полос оптического диапазона. Но к сожалению, проект куда-то исчез из сети.

Если вы, дорогой читатель, имеете опыт построения железок этого уровня, можем попробовать это обсудить. Взять какой нибудь сканер, и переделать ему подсветку. Однако, вы все прекрасно знаете, сколько времени сканер тратит на изображение в 1200 dpi формата А4. А при необходимости 12 сканов мы получаем минимум час чистой работы железки. Это печалит. Поэтому в современных мультиспектральных системах используются 2D сенсоры. Но у сканера есть и свои преимущества.

Фотоаппараты


Если посмотреть даташиты на какие нибудь кремниевые сенсоры, то их спектральная отзывчивость от УФ  до 1000нм и выше. После 700нм это уже ближний ИК диапазон, который нужно отсекать для привычной для нашего глаза картинки. Для этого перед каждым сенсором в любой потребительской технике находится ИК фильтр такого зеленого, на отлив фиолетового, цвета. Для задач мультиспектрального сканирования он только мешает. Поэтому любители ИК фотографии его удаляют самостоятельно.

Мне больше импонирует использование USB3 промышленных камер без bayer-pattern т.е. использование монохромных сенсоров. (USB 3.0 monochrome industrial cameras) например, BFS-U3–200S6M-C. Очень удобно заниматься подготовкой лаборатории, корректировкой освещения и позиционированием документа, а особенно, проверки резкости (при разных длинах волн фокус разный!) наблюдая изображение на большом экране монитора. 

Не следует забывать и про любителей вглядываться в вечность. Продавец астрокамер заверил меня, что между исследованием космоса и документов нет разницы и вместо промышленных камер лучше использовать камеры с активным охлаждением матрицы (их рабочий режим до минус 45 по цельсию) Например ASI183MM Pro. (А наш терминатор кремния BarsMonster сообщал, что для коротких экспозиций до 5–10 секунд это не так важно.)

С этой камерой можно использовать объективы от потребительских камер стандарта micro 4/3. Когда я делал обычную съемку на фотоаппарат Lumix DMC-GX80 (16mpx) дневника Васи Баранова я убедился, что мой Olympus 45mm f/1.8 на диафрагме 5.6 выдает достаточно резкие фотографии и вполне пригоден для использования. Даже шумов не так много, учитывая, что света было не так много как хотелось бы.

из истории

Как-то Павел Полян укладывал меня спать у себя в московской квартире и предварительно разгребал для этого свои архивы. Одну комнату он расчистил, а другую — завалил. И в этом процессе и был обнаружен этот дневник, оставленный с какой-то выставки. Ну мы его и оцифровали.

bc5facf9d39bd37a37ab078ec9372dc3.jpg

И так, будем считать, что у нас так или иначе есть или RGB изображение или же мультиспектральный набор из серии монохромных фотографий. Последний требует особого подхода, о нем ниже.

Софт


ImageJ
Утилита ImageJ является популярным инструментом в анализе изображений на западе. Свободные графические алгоритмы, часто пишутся под эту программу и она часто упоминается в разного рода исследованиях как платформа для быстрой отработки графических алгоритмов. Особенно интересен раздел плагинов
https://imagej.nih.gov/ij/plugins/

ENVI
Если смотреть историю мультиспектрального анализа, то конечно же первым предметом исследования для ученых были фотографии со спутников. В них установлены те самые мультиспектральные датчики и задачи ставятся ровно такие же — произвести коррекцию и вытащить максимальное количества информации. В этом смысле нет разницы: вглядываемся ли мы в космос или в рукопись. Популярным исследовательским решением выступает программный комплекс ENVI. Я буду говорить о версии 5.3 (другой не нашел ;-)). В нем меня очень порадовал подход с возможностью анимирования результатов обработки изображений. У меня есть стойкие причины утверждать, что распознавание мозгом деталей на изображении происходит лучше в динамике изменений. То есть вместо того, чтобы передать переводчику статические файлы с набором контрастов, лучше дать ему анимашку. 
(Если знаете другое ПО, просьба сообщить.)

https://www.harrisgeospatial.com/Software-Technology/ENVI

Photoshop
Забывать его тоже не будем.

С чего начинать


Анализ каналов


ENVI / ImageJ / Photoshop plugin

RGB модель плохо подходит для максимизации отображаемых данных для нашей зрительной системы так же как и для сегментации изображений, определения краев и т.п. В 1989 году Xerox предложила цветовую модель YES. Она как раз основывается на физиологической модели нашего зрения. При съемке свитков Мертвого моря в 90-х  после преобразования RGB в модель YES в канале E были обнаружены ранее непрочитанные исследователями символы.

Цветовое пространство OHTA было экспериментально выведено при статистическом изучении некорреляционных компонентов цвета из большой выборки обычных фотографий. В 2012 году был предложен новый метод сегментации огня, основанный на OHTA.https://www.scientific.net/AMR.485.7  С помощью этого метода можно точно разделить пламя в различных погодных условиях и в различных условиях окружающей среды. 

Все это означает, что выделение требуемого контраста определенных компонентов теоретически возможно. Поэтому начинать все следует с анализа каналов известных цветовых моделей, а потом уже пускаться в статистический анализ. Вы, конечно же, можете найти в imageJ почти все популярные цветовые модели и разложить на каналы самостоятельно, но есть замечательный аналитический онлайн ресурс http://retroreveal.org

Он отобразит в галерее каналы следующего набора цветовых моделей: Yuv, YQ1Q2, HSI, HSV, HSL, LCHLuv, LSHLuv, LSHLa, XYZ, Yxy, YUV, YIQ, Luv, Lab, AC1C2, I1I2I3.

К моему удивлению, он по каким-то причинам специально недоступен через выдачу в гугле. Его robots.txt содержит запрет на индексирование. 

Если результат в анализе каналов показывает, что необходимая информация в изображении проявляется, то для увеличения читаемости ничего кроме перебора всего остального из статьи я вам предложить не смогу. Так или иначе с опытом приходит понимание:   есть ли в исследуемом документе что-то еще или же вам без ускорителя частиц все-таки не обойтись.

ColorTransform 2


http://www.russellcottrell.com/photo/colorTransformer2.htm

Если через онлайн сервис retroreveal.org вы получаете статический файл с маленьким приростом читаемого, это совсем не означает конечный результат работы с преобразованием цветовых моделей. Вам нужна  более точная корректировка. Видео с процессом работы плагина https://twitter.com/DJWrisley/status/1246143333501673473

Фильтры 


Levels and saturation


Приведу, как пример из истории, привожу его как часть интуитивного мышления исследователя. Чуть ранее мы говорили о цветовом пространстве YES и нашем восприятии, а в пространстве RGB мы интуитивно правим изображение по уровням и насыщенности. Хорошим примером такого чутья действия выступает расшифровка медальона

image

Как это прям точно было реализовано я не знаю, но обработка велась в photoshop Олегом Гусевым. Я же смог добиться разборчивости через предварительное поднятие банальной насыщенности.

Обратите внимание на скриншот с развертыванием бумаги. Как много остается мокрой бумажной пыли! А ведь такая кучка вполне может содержать пигмент на целую букву! При том, что идеальное решение этой задачи существует с помощью рентгеновской микротомографии! Я точно знаю, что рентгеновский томограф есть в институте кристаллографии им.А.В. Шубникова, но там такая очередь!
 

f4294f8c5fad613d400131e91035ecfd.jpg

(Пожалуйста, не пытайтесь обрабатывать пример выше самостоятельно, сохранив файл на компьютер. Это скриншот с видео — труп. Я проверял результат с другого увеличенного кадра и подтверждаю, что это реально) 

Black&White


Подробно о применении этого фильтра я писал здесь.

Пример
4fa6199efb2171c1bb16f8aa2ffab02f.jpg

Вот видео процесса https://www.youtube.com/watch? v=u2xnfsAiEJY и PDF версия

Если коротко, фильтр Black&White пересчитывает модель RGB в 7 цветных слоев, что позволяет регулировать интенсивность каждого довольно точно. Это как бы псевдо мультиспектральная съемка.

Highpass


Photoshop

В процессе обработки вы можете столкнуться с тем, что фильтры просвечивают и затемняют нужные зоны рукописи. В этом случае помогает фильтр highpass, его назначение именно в регулировании перепадов яркости. Опять же его практическое применение вы увидели в видео выше.

Алгоритмы


Decorrelation Stretch


ENVI / ImageJ

При отсутствии технологических возможностей, требования к анализу цифровых изображений выставляются часто предельные. Почему? Представьте, что у вас нет возможности слетать на марс с другим фотоаппаратом. Так в 2004 году марсоход Opportunity прислал фотографию после бурения породы.

1ed0216db594bbd44ca1153b28a15eb1.jpg

На изображении три отверстия, созданные внутри «кратера выносливости» летом 2004 года. Ученые из NASA применили алгоритм Decorrelation Stretch

Поскольку цветовые вариации на марсе крайне слабы, с помощью этого алгоритма  можно лучше различить структуру породы. Когда бур просверливает серый гематит, в результате получается ярко-красный порошок, а благодаря обработке можно различить процесс прохождения слоев. Первый слой красный, второй желтый, а самый глубокий — зеленый.  

0fc84e4e279cbcf54bb7790c7b6c4715.jpg


Реализация этого алгоритма конкретно для imageJ доступна за денежку. Его автор Jon Harman. Он написал не очень дешевое мобильное приложение с этим же функционалом, чтобы не скучать во время вылазки в горы для любителей изучения древней наскальной живописи. Ссылки на его софт встречаются в публикациях, но что касается рукописей, как-то мне ничего дельного не встретилось. 

Применение к рукописям членов зондеркоммандо программы Dstretch, чьи цифровые копии лежат у меня, по моему мнению, этот алгоритм неприменим из-за проблем с детализацией. Именно поэтому он лучше подходит для поиска крупных объектов. В базе матлаба тоже есть реализация этого алгоритма www.mathworks.com/help/images/ref/decorrstretch.html, но Dstrech умеет работать с конвертированием в массу цветовых пространств. 

Результат обработки обычных фотографий наскальной живописи на его сайте достаточно любопытен.

www.dstretch.com/Presentations.html

82fdf6b26fb715251720d497bf598312.jpg

Colour Deconvolution


ENVI / ImageJ / Photoshop plugin

https://imagej.net/Colour_Deconvolution

https://4n6site.com/improc/decoplugin/webapp.htm

Цветовая деконволюция активно применяется в медицине для разделения подкрашенной прозрачной клеточной ткани. У алгоритма строгие требования к однородности цветовых пигментов и необходимости их наложения с наличием полупрозрачности (то есть верхний слой пигмента не должен полностью закрашивать подложку). Но такие ситуации тоже могут быть. Например, в примерах коммерческого плагина для photoshop есть онлайн редактор. К сожалению, реализации работающего на лету алгоритма я не встретил. Нужно тупо задавать три параметра и жать кнопку. Это очень неудобно.

65e66b95f2a5488266da2862be8255d6.jpg

Мое мнение по этому алгоритму: если контраст, который мы ищем основан на разнице в цвете (не близкого по спектру), обойтись получится куда более удобными подходами выше. Но если исходить из результата, очень близкие прозрачные цвета, наложенные друг на друга могут быть успешно разделены. Повторить это из известных мне трюков в фотошопе у меня не получилось.

Методы статистической обработки


Статистические методы анализа предполагают, что разделить информацию на слои для обнаружения новых закономерностей возможно, только не ясны параметры, по которым это следует сделать.

Здесь мы переключаемся на программный пакет ENVI, специализирующийся на обработке мультиспектральных  спутниковых данных. В своем наборе он содержит больше количество алгоритмов, которые выступают стандартом первичного анализа данных, полученных после оцифровки. 

Метод главных компонент (PCA) и метод независимых компонент (ICA)


Спектральные полосы изображения сильно коррелируют, так как занимают близкие области в пространстве. Для анализа такой массив данных не очень удобен. Методы PCA и ICA используется для снижения размерности, то есть удаления избыточной информации. Из 12 каналов можно получить 3, но более детализированных. После обработки первый канал изображения содержит наибольшую дисперсию данных (наименьший разброс случайной величины относительно ее математического ожидания т.е среднего предполагаемого положения), второй — вторую по величине и так далее до того момента, когда данные уже сливаются в хаотический шум.

Удачным примером служат некоторые страницы палимпсеста Архимеда (287–212 ГГ. до Н.Э.)

8f05e40df72b823ecaf541904f83dbaa.jpg


На этом рисунке палимпсест содержит смесь из двух наложенных текстов и, вероятно, разные слои из плесени и прочих пятен. На основе мультиспектральной съемки из итоговых 14 слоев удалось извлечь чистые страницы первичного текста Архимеда.

На изображении ниже к рукописи Лейба Лангфуса применен ICA. Особенность этого документа — практически полное отсутствие цветового пигмента чернил и отдавался он на перевод таким, какой был со сканера.
После обработки появляется более значимый контраст. Даже этого достаточно, чтобы просто увеличить скорость перевода. 

1cbc1ca12d262441f58c76aca9b4e68a.png


А здесь применение ICA для образца из главы про цветовую деконволюцию. Мы получаем результат, но теряем оригинальные цвета.

c7ee8f4d9bf02150484a0bddefb463e1.png

Индивидуальные подходы


В зависимости от характера повреждения текста процесс возможной обработки является уже творческой задачей. К сожалению, примеров работ с подобными трюками пока мне известно крайне мало. 

Компенсация протекших чернил


В случае с рукописью марселя Наджари мне пришел в голову способ компенсирования протекших чернил.

Я уже отсылал к своей статье. Суть довольно проста — если у вас есть два скана одной страницы, вы можете использовать обратную сторону зеркально чтобы уменьшить ее влияние на восприятие информации на лицевой стороне. Так или иначе этот способ позволил значительно увеличить читаемость первой страницы Марселя и на дальнейших — значительно облегчить труд переводчика. 

Оптико-электроная текстология


Из российских проектов мне известны работы по прочтению рукописи Чехова и Достоевского. Не смотря на то, что те статьи озаглавлены как «ОСНОВЫ ОПТИКО-ЭЛЕКТРОННОЙ ТЕКСТОЛОГИИ» — это кропотливый труд. Суть рассматриваемой работы заключалась в большом мастерстве автора соединять видимые элементы рукописного текста, который зрительно можно разобрать. Оказывается, можно вполне себе восстановить целые предложения.

Ниже страницы письма Ф.М. Достоевского к А.Е. Врангелю от 14 июля 1856 г. с зачеркнутым текстом.

963f391d9ec67da05a6c750d7549e33d.jpg


А это результат 

bd1e848edb3d5f4272f9254a9753c035.jpg


Не смотря на то, что были попытки проводить мультиспектральный анализ, из-за идентичного состава чернил разницы в контрасте не возникло. На этом исследователи остановились. Еще фрагмент:

2aa3f983e14c23a49f2ac98bf1390f3d.jpg


Мастерству натренированного глаза можно только удивляться! По словам исследователей, данная работа продвигалась невероятно медленно. ЕЩЕ БЫ! Я когда это первый раз увидел, думал что за магия, где формулы? На мой взгляд, методы статистической обработки позволили бы сделать эту работу быстрее. 

Итог


На этом, я думаю можно подводить итоги и завершать экскурс в эту интересную тему. Я надеюсь, что вы сможете поделиться данной статьей с людьми, в чьих интересах лежит схожая область или же они не подозревают о существовании таких подходов. Мемуары вашего ветерана или же другой испорченный документ может быть восстановлен с помощью современных технологий. 

Обращусь к коммерческим компаниям, занимающимся как и фотокамерами так и другим исследовательским оборудованием. Для вас это может быть хорошим пиар ходом. Эту статью наверняка прочитают сотрудники государственных архивов и музеев и не долог тот час, когда вы можете быть нужны друг другу. Как много еще неизученных документов, письма Пушкина, Салтыкова-Щедрина, Достоевского, Чехова и других писателей, которые без вас еще долго будут пылиться на полках из-за отсутствия нужного оборудования. По данным вы можете подготовить замечательные и полезные рекламные статьи.

Источники

© Habrahabr.ru