Internet Archive закачал на Flickr более 14 млн свободных исторических изображений

d86c86b8155b4700ac23faef58976c52.jpgОдин из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images, которые находятся в общественном достоянии.6b0aa059f78a4d51ac9d5a2f2c62e60d.jpg

Галерея картинок из старых книг — очень увлекательное дело. Здесь можно найти и пейзажи, и иллюстрации по кулинарному делу, и ноты, и картинки из медицинских справочников, и старые карты. Каталог иллюстраций приглашает к своеобразному «путешествию во времени»: введите какой-нибудь термин (телефон, самолёт) — и увидите, как эта вещь выглядела раньше.

a9d0925151504ba6862efcef5b4be9b5.jpg

c78cd359cb4545da8483785ad9f1eb05.jpg

Многие картинки — это какие-то странные непонятные объекты из прошлого. Без описания и не поймёшь, что это такое.

ce0690a37bec4735a9cc500d95bf218f.jpg

Наверняка редакторы Википедии найдут подходящий иллюстративный материал, чтобы пополнить многие исторические статьи.

Для каждой иллюстрации указано название книги, год её издания и страница, на которой встретилась иллюстрация. Есть ссылка, чтобы прочитать книгу в онлайне (все они опубликованы на сайте Internet Archive). В рамках этого проекта оцифровано уже 600 млн страниц.

Любой желающий может делать с этими изображениями что угодно, включая использование в некоммерческих или коммерческих целях, повторную публикацию, редактирование и т.д.

© Habrahabr.ru