На Archive.org сделали библиотечный каталог с поиском по 107 миллионам научных статей

«Наука ― это единый язык», ― пишут на странице поисковика научных работ, собранного сотрудниками Archive.org, состоящего из 107,233,728 статей объемом 38 Тб. Об этом рассказывает Vice.

image-loader.svg

Отметим, что каталог не содержит полные версии статей, а названия, набор ключевых слов и определяющие последовательность слов N-граммы, которые выдают пользователю подсказки для поиска. 

Каталогом можно пользоваться напрямую с сайта Archive.org, но поскольку это не слишком удобный способ, пользователи сабреддита /r/DataHoarder загрузили каталог на удаленный сервер и выложили его для общего доступа на BitTorrent. 

«Каталог находится на раннем этапе разработки: порой попадается неправильно скопированный текст, не отображаются метаданные, или они просто показывают неправильную информацию. Его нужно воспринимать как словарь, дорожную карту, вспомогательный инструмент. Каталог послужит хорошим помощником для работников науки, ведь это неиссякаемый источник полезной информации. Мы не собираемся ограничивать к нему доступ, монетизировать его. Этот каталог общий, он принадлежит всем», ― рассказал Карл Маламуд, основатель Public.Resource.org и один из создателей каталога Archive.org.

Напомним, Sci-Hub, клон The Pirate Bay для научных сотрудников, сталкивался несколько раз с попытками властей различных стран ограничить доступ к нему из-за нарушения авторских прав. Каталог Archive.org, вероятно, не постигнет такая участь, поскольку база данных подходит под категорию всеобщего достояния. 

Ранее Маламуд получал повестку в суд от правительства штата Джорджия в США из-за того, что он выложил в открытый доступ местный свод законов. Тогда власти обвинили мужчину в терроризме, однако Верховный суд США не разделил с ними это мнение, и Карл Маламуд выиграл дело. 

© Habrahabr.ru