Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt24.04.2017 18:52

Интернет-сайт — это обычный набор файлов и папок, который лежит на сервере. Среди этих файлов почти всегда есть один, который называется robots.txt, его размещают в корне. Он служит для инструктирования «пауков», его настраивают для того, чтобы поисковые роботы понимали, что можно сканировать, а что нет. В ряде случаев веб-мастера закрывают при помощи таких инструкций дублирующийся контент (теги, категории и т.п.) для улучшения SEO-показателей, кроме того, защищают от роботов и данные, которые не должны по какой-либо причине оказаться в сети.

Идея с robots.txt появилась более 20 лет назад и с тех пор, хотя различные настройки для различных поисковых ботов менялись, все работает так же, как и много лет назад. Инструкций, сохраненных в этом файле, слушаются почти все поисковики, а также бот Internet Archive, который бродит по интернету в поисках информации для архивации. Сейчас разработчики сервиса считают, что пришло время перестать обращать внимание на то, что размещено в robots.txt.
Проблема в том, что во многих случаях домены брошенных сайтов «дропаются», то есть не продлеваются. Или просто содержимое ресурса уничтожается. Затем такие домены «паркуются» (с самой разной целью, включая получение денег за размещаемую на припаркованном домене рекламу). Файлом robots.txt веб-мастера обычно закрывают все содержимое припаркованного домена. Хуже всего то, что когда робот Internet Archive видит в файле инструкцию по закрытию директории от индексации, он удаляет уже сохраненный контент для сайта, который раньше находился на этом домене.

Другими словами, был сайт в базе Internet Archive, и нет его, хотя владелец домена уже другой, а содержимое сайта, сохраненное сервисом, давно кануло в Лету. В итоге удаляются уникальные данные, которые вполне могли представлять собой большую ценность для определенной категории людей.

Internet Archive создает «снимки» сайтов. Если сайт существует в течение определенного количества времени, таких «снимков» может быть много. Так что историю развития различных сайтов можно отследить от самого начала до новейшей версии. Пример тому — habrahabr.ru. При блокировании доступа ботам к сайту при помощи robots.txt отследить его историю или получить хоть какую-то информацию становится невозможным.

Несколько месяцев назад сотрудники Internet Archive прекратили отслеживать инструкции в указанном файле на государственных сайтах США. Этот эксперимент прошел успешно и теперь бот Internet Archive прекратит обращать внимание на инструкции в robots.txt для любых сайтов. Если же веб-мастер захочет удалить содержимое своего ресурса из архива, он может обратиться к администрации Internet Archive по почте.

Пока что разработчики будут отслеживать поведение робота и работу самого сервиса в связи с грядущими изменениями. Если все будет хорошо, то эти изменения сохранят.