Internet Archive опубликовала на Flickr миллионы изображений из старых книг01.09.2014 18:01

Организация Internet Archive опубликовала миллионы изображений из своей коллекции книг, сделав их доступными бесплатно на ресурсе Flickr. В настоящее время уже опубликовано более 2,6 миллионов изображений, но это только начало — общее число извлечённых из отсканированных книг изображений составляет 14 млн.

Это стало возможным благодаря работе научного сотрудника Джорджтаунского университета Калева Литару (Kalev Leetaru), который создал алгоритм, автоматически извлекающий изображения более чем из 2 млн книг, доступных в настоящее время в публичной коллекции Internet Archive. Благодаря технологиям автоматического оптического распознавания текста к каждому извлечённому изображению привязано около 500 слов, идущих до и после него в книге — другими словами, по коллекции можно осуществлять текстовый поиск.

После добавления указанных 14 млн изображений коллекция на Flickr будет постоянно пополняться новыми изображениями из более чем 1000 новых книг, сканируемых ежедневно Internet Archive. Глава Библиотеки Уэлкома Доктор Саймон Чаплин (Simon Chaplin) отмечает, что новые способы поиска изображений являются большим шагом вперёд и откроют для новых аудиторий коллекцию оцифрованных книг.

В собрании Internet Archive присутствуют книги за более чем 500 лет. В будущем специалисты планируют сделать эту коллекцию ещё более интересной — увеличить число изображений, добавить подкатегории, а также использовать некоторые средства анализа изображений, чтобы добиться более качественного описания и каталогизации.

Источник:

Материалы по теме