Компания Google передала проект HTTP Archive в руки сообщества Internet Archive

Компания Google объявила о передаче сообществу Internet Archive (archive.org) управления и прав владения над проектом HTTP Archive, в рамках которого организован сервис по мониторингу производительности сайтов в сети. Код web-интерфейса HTTP Archive написан на языке PHP и открыт под лицензией Apache. Для обеспечения загрузки контента с сайтов используется инструментарий WebPagetest, распространяемый под лицензией BSD.

Проект Internet Archive был основан в 1995 году для решения задачи формирования коллекции свободно распространяемых мультимедиа материалов и книг, ведение полного архива всех сайтов в глобальной сети. Ресурс предоставляет возможность отслеживания изменений в оформлении сайтов и при необходимости позволяет обратиться к контенту, который был размещен на уже не существующем ресурсе. В настоящее время архив насчитывает несколько петабайт данных и включает в себя более 150 миллиардов web-страниц. В сотрудничестве с более 160 библиотеками, музеями и архивами документов, ведется работа по оцифровке материалов и открытия к ним свободного доступа. В 2009 году Фонд свободного ПО присудил Internet Archive премию за развитие социально значимых свободных проектов. В другие годы эту премию получили такие проекты, как Tor (2010), Creative Commons (2008), Groklaw (2007), Sahana (2006) и Wikipedia (2005).

Сервис HTTP Archive был создан компанией Google с целью стимулирования оптимизации скорости работы сайтов и предоставления web-мастерам необходимых средств мониторинга для слежения за изменением параметров производительности сайтов со временем. Сервис содержит неплохую подборку аналитических инструментов и отчетов, позволяющих оценить динамику изменения таких показателей, как время загрузки страниц и размер страниц, выделить самые медленные страницы на сайте и посмотреть детальную информацию о загрузке различных частей страницы с целью локализации узких мест. Все данные мониторинга можно загрузить в raw-формате для последующего локального анализа (дамп базы MySQL).

Кроме привязанной к конкретным сайтам информации, HTTP Archive также предоставляет общую статистику, позволяющую оценить глобальное состояние. Например, представлены отчеты о наиболее популярных JavaScript-библиотеках и отдельных скриптах (лидируют jQuery, виджеты Facebook и счетчик Google Analytics). Имеется рейтинг сайтов c наибольшим количеством JavaScript кода (рекорд около 4 Мб), CSS-файлов (рекорд 900 Кб), числа изображений на странице (рекорд 645) и числа Flash-роликов (рекорд 75). Некоторая статистика:

  • 48% всех сайтов используют Flash, а 52% - нет;
  • 43% всех изображений распространяется в формате JPEG, 19% - PNG и 37% - GIF;
  • 12% всех сайтов работают под управлением nginx, 20% - Microsoft IIS, 39% - Apache;

В настоящее время HTTP Archive осуществляет постоянный мониторинг около 18 тысяч сайтов в сети. По словам представителя Google, компания намерена выделить ресурсы для доведения в ближайшие месяцы числа тестируемых сайтов до одного миллиона или больше. После передачи управления Google продолжит разработку проекта, будет финансово и технически поддерживать HTTP Archive на плаву, но проект уже будет развиваться под эгидой Internet Archive. По мнению Google система HTTP Archive гармонично дополнит существующую функциональность Internet Archive - если Internet Archive (сервис Wayback Machine) занимается отслеживанием контента в Web, то HTTP Archive позволяет составить картину того, как этот контент обслуживается и формируется.

©  OpenNet