[Перевод] Что находится внутри физического Архива Интернета
Когда я был в Сан-Франциско на AI Engineer Summit, то воспользовался возможностью посетить Архив Интернета — физический архив в калифорнийском городе Ричмонде примерно в двадцати минутах езды от Сан-Франциско.
Я купил билет на «экскурсию по закулисью физического архива» 11 октября и прибыл прямо перед началом; я был рад, что не приехал раньше, потому что физический архив находится (вполне логично) на складе в промышленной части Ричмонда. Похоже, больше ничего интересного в окрестностях нет.
Я попросил водителя Uber подбросить меня до парковки со знаком Internet Archive. Но оглядевшись, я не смог найти публичного входа на склад. Рядом стояло ещё несколько озадаченных фанатов истории Интернета, мы неуклюже поздоровались и начали обсуждать, там ли находимся. Вскоре нас заметила пара людей в конце улицы и помахала нам.
Физическое хранилище Архива Интернета в Ричмонде.
Оказалось, что группа людей уже освоилась внутри основного здания, попивая бесплатную колу, пиво или минералку и заедая их фуршетными блюдами. В толпе были и пожилые люди (вероятно, из поколения, работавшего в Кремниевой долине в 1960-х и 70-х), и гики помоложе (думаю, это были или библиотекари, или заядлые пользователи веба; я отношусь ко второй категории).
Когда примерно через полтора часа началась экскурсия, тридцать-сорок человек собралось вокруг пышущего энтузиазмом человека в красной рубашке. Разумеется, это был основатель Архива Интернета Брюстер Кейл. Поначалу меня удивило, что он сам будет проводить экскурсию, но вскоре стало ясно, что Кейл живёт и дышит миссией Архива Интернета. Он начал экскурсию с демонстрации грузовых контейнеров, заполненных старыми книгами и другими материалами, параллельно делясь фактами («Архив Интернета — некоммерческая организация; мы основали её 27 лет назад, в 1996 году»).
Брюстер Кейл на фоне контейнеров (обычных, физических).
Позже Кейл с энтузиазмом рассказывал о машине для сканирования книг, показывал подаренные архиву стопки коробок (заполненных книгами, видеокассетами, дисками, аудиозаписями, кассетами и другими носителями) и гордо стоял в стороне, пока архивисты фильмов объясняли, как они преобразуют старые домашние видео в цифровые файлы с высоким разрешением. Это был впечатляющий обзор повседневной работы Архива, в штат которого входят калифорнийцы, в том числе и сын Брюстера Кэслон.
Что хранится в Архиве Интернета
Наверно, больше всего Архив Интернета известен благодаря своей Wayback Machine, которую запустили в 2001 году; она архивирует веб-страницы ещё с 1996 года. «Ежедневно мы собираем около миллиарда URL — потрясающе большое число. И сейчас в коллекции Wayback Machine два с половиной триллиона URL. Запросы к ним выполняются примерно шесть-семь тысяч раз в секунду».
Но физический архив, как следует из его неформального названия — это хранилище физических носителей: книг, каталогов, старых компьютерных дисков, плёнок, аудиозаписей, кассет и многого другого. Когда в Архив поступает новый носитель, его персонал сначала решает, не является ли он дубликатом чего-то уже имеющегося; этот процесс они называют дедупликацией. Если он оказывается дубликатом, то его выбрасывают или отдают. Если нет, то его оцифровывают, а физический объект архивируют. (Кстати, Архив Интернета заявляет, что делает доступными цифровые копии только тех книг, физическими экземплярами которых он владеет.)
Специально изготовленный сканер старых плёнок.
«Мы занимаемся оцифровкой книг ещё с начала 2000-х. В конечном итоге мы создали собственные сканеры книг», — рассказывает Кейл. Он добавил, что АИ оцифровывает примерно миллион книг в год и что они оцифровали порядка 7–8 миллионов книг (на странице About говорится, что АИ содержит »41 миллион книг и текстов», то есть большинство из них должно быть каким-то другими текстами, не книгами).
Что касается музыки, то она традиционно имела разнообразные форматы хранения — винил, компакт-диски, кассеты, MP3 и так далее. Особенно Кейла восторгают пластинки, записанные со скоростью 78 оборотов в минуту, которые, по его словам, выпускали примерно с 1900 по 1950 годы. «Всего их примерно 2–3 миллиона. Мы оцифровали примерно 450 тысяч».
Коробки с носителями, за которыми приглядывает картонный Дарт Вейдер.
«По сути, мы стараемся обрабатывать все типы носителей. И мы обнаружили, что всё устаревает, это происходит всё быстрее и быстрее. У нас не только нет доступа к прежним объектам; даже если доступ есть, использовать их не всегда возможно».
Примечание: если вы хотите пожертвовать предметы Архиву Интернета, то изучите список принимаемых им сейчас носителей на странице пожертвований.
Как Архиву удаётся продолжать работу
Кто-то из группы спросил Кейла, как часто АИ нужно покупать новые серверы для сохранения постоянно прибывающего потока новых носителей.
«Непрерывно. Мы покупаем новую пару стоек (потому что они всегда продаются по парам) каждые два-три месяца. Сейчас в одной стойке можно хранить примерно пять петабайтов».
Два предыдущих поколения машин для хранения Архива; слева — StorageTek 9710 (1990-е), справа — PetaBox первого поколения (2004 год).
В этом году Архив Интернета попал в новости из-за юридических атак со стороны как книгоиздательского бизнеса, так и музыкальной индустрии (иск от последней вызван проектом оцифровки пластинок на 78 оборотов в минуту). В процессе экскурсии Кейл сделал множество едких примечаний по поводу этих юридических проблем, но было очевидно, что они повлияли на Архив. «Иск от книгоиздателей до сих пор в суде, и он невероятно дорого нам стоит».
Как же АИ удаётся выживать? Кейл пояснил, что в основном АИ живёт на пожертвования примерно 110 тысяч человек, в среднем переводящих примерно по $5, а также «на средства фондов, переводящих нам серьёзные суммы денег». Ещё АИ предоставляет абонентские услуги библиотекам и другим организациям.
«К тому же мы выживаем благодаря тому, что мало тратим. Вы же заметили, что у серверов нет никакого воздушного кондиционирования? Если становится жарко, мы просто открываем окна. Так что это экологично. Но и экономично тоже».
Снаружи физического Архива Интернета в Ричмонде, штат Калифорния. Увлекательный вечер для фаната истории Интернета!