Оцифровка всемирного книжного наследия с помощью смартфонов

На планете более двух с половиной миллиардов пользователей смартфонов. Если бы каждый из них оцифровал хотя бы одну книгу, нам бы понадобился всего один день для всех когда-либо написанных произведений. Калев Литару, специалист по системам обработки данных с двадцатилетним стажем, предлагает новый способ оцифровки книг на основе краудсорсинга и обычных смартфонов.

image

В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.

Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.

Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
image
Сотрудники российской компании «Элар» работают над оцифровкой книг

Литару предлагает разделить проект на две части. На первом этапе нужно составить список книг, подлежащих оцифровке. Для этого используют каталог WorldCat и другие инструменты: в первоначальный список войдут все книги, которые есть в библиотеках и которые не были оцифрованы. Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав. Составление списка может быть частично отдано на краудсорсинг — библиотеки будут публиковать список книг, статус которых в отношении защиты копирайтом неизвестен, а волонтёры будут проверять первые страницы книг и отправлять библиотекам эту информацию.

Один только первый этап позволит понять, каков процент оцифрованных книг в мире. По собственным данным Google, компания в рамках проекта Ngram оцифровала 6% всех опубликованных книг, но точный их список неизвестен.

После составления полного списка неоцифрованных произведений начинается основная краудсорсинговая часть проекта. Волонтёры будут приходить в библиотеку, брать книгу, доставать смартфон и фотографировать обложку. Система оптического распознавания символов наподобие той, что использует Google, определит автора и название книги и сравнит с имеющимся на сервере списком, после чего сообщит о необходимости оцифровать экземпляр или о том, что эта работу уже проведена. Если книга подлежит переводу в цифровой вид, волонтёр сфотографирует первые несколько страниц: на этом этапе система должна определить, насколько качественные получаются фотографии, всё ли хорошо со светом, можно ли распознать символы, не слишком ли у фотографа трясутся руки. Затем пользователь получает команду продолжить работу или взять другую книгу.

Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.

Изображения со смартфонов не будут того же качества, которое достигается с помощью профессиональной техники. Но их будет достаточно для чтения, а система оптического распознавания символов сделает текст доступным для поиска. Эти страницы были сфотографированы десять лет назад, а сегодня смартфоны имеют более качественные камеры и светодиодные вспышки.

Библиотеки могут позволить волонтёрам использовать имеющиеся в учреждении сканеры документов для этой работы. Все результаты будут отправлены на центральный сервер проекта, где будут переведены в PDF и другие форматы для чтения электронных книг, и где текст будет обработан и доступен для поиска.

В процесс оцифровки можно включить фактор геймификации. Волонтёры будут получать очки за оцифрованные произведения, а организации смогут устраивать «дни оцифровки» и дарить подарки лучшим участникам проекта. В работу смогут включиться даже школьники. Библиотеки будут получать отзывы от пользователей о наличии плохо оцифрованных страниц. Волонтёры станут кем-то вроде редакторов Википедии, а библиотеки будут координировать их работу.

Википедия и другие краудсорсинговые проекты показали свою эффективность. И краудсорсинг может вновь показать свою эффективность в оцифровке книжного наследия, уверен Калев Литару. Вместо селфи и фотографий еды в Instagram пользователи двух с половиной миллиардов смартфонов могут помочь сохранить множество произведений и создать огромную базу из всех когда-либо опубликованных книг, чтобы оставить её нашим потомкам.

© Geektimes