Национальная библиотека Австралии использует открытый код

Национальная библиотека Австралии сделала выбор в пользу платформы с открытым исходным кодом при создании поисковой системы. Поисковая система Trove обеспечивает доступ к более чем 90 млн единицам хранения, полученным из более чем 1000 библиотек и культурных учреждений по всей стране.

Проектная группа из 5 разработчиков использовала SOLR 1.4, основанный на Lucene 2,9, для организации поиска в основной библиографической базе данных и архиве веб-страниц и MySQL 5 для управления данными.

Поисковая система была создана на базе проекта по оцифровке газет, реализация которого началась 2 года назад с использованием Lucene 2,9. Это ПО дает возможность реализовать оптическое распознавание символов для автоматического преобразования изображений газет в цифровой формат. Мелкий шрифт и нечеткость печати некоторых страниц сделали процесс преобразования сложным и не всегда точным. В результате более 5000 пользователей онлайн помогали исправлять полученный текст.

Проектная группа решила использовать Jetty как веб-сервер, Nginx как HTTP прокси-сервер, Java Server Pages (JSP) для «газетной» сайта Restlet и FreeMarker и для остальных работ. Один из самых важных решений стало использование SSD - четырех Intel X-M25 160 Гб дисков в каждой машине – это позволило обеспечить необходимую производительность.

На сайте существует несколько категорий для поиска: Книги, журналы, статьи; Рисунки и фотографии; Австралийские газеты (1803 - 1954); Дневники, письма, архивы; Карты; Музыка, звук и видео; Архив сайтов (1996 - настоящее время); О людях и организациях. В отличие от поисковика Google, который предоставляет в качестве результата список веб-сайтов, Trove отображает ссылки на элементы. Для этого он использует механизм OAI (Open Archives Initiative).

Национальная библиотека Австралии установила контакты со многими книжными магазинами и открыта для обсуждения условий сотрудничества с другими предприятиями розничной торговли. Книжные магазины открыли свои базы данных для индексирования Trove.

В числе дальнейших планов разработчиков развертывание форума в рамках поисковой системы для того, чтобы ее пользователи имели возможность взаимодействовать между собой. Кроме того, предполагается дальнейшее расширение контента, доступного Trove, за счет материалов, хранящихся в галереях, музеях и правительственных архивах.

©  CNews