ИИ угрожает «интернет-архиву»: СМИ массово ограничивают доступ
Рост популярности искусственного интеллекта начал неожиданно подрывать работу одного из ключевых «хранителей цифровой истории» — Internet Archive. Организация, которая более 30 лет сохраняет веб-страницы и предоставляет к ним доступ, сталкивается с тем, что всё больше сайтов запрещают ей архивировать контент.
Internet Archive управляет сервисом Wayback Machine — крупнейшей в мире публичной «машиной времени» интернета, позволяющей просматривать старые версии сайтов. Система работает с помощью веб-краулеров, которые автоматически сохраняют веб-страницы. Эти данные широко используются журналистами, исследователями и историками, особенно в расследованиях, связанных с цензурой или дезинформацией.
Однако сейчас доступ к этим данным постепенно сокращается. По оценкам аналитиков, уже 241 новостной сайт из 9 стран частично или полностью запретил архивирование. Среди них — The New York Times и Reddit. Значительная часть ограничений приходится на медиа, принадлежащие крупнейшему американскому издателю Gannett.
Иллюстрация: Nano BananaНекоторые издания идут ещё дальше. Например, The Guardian не блокирует самих краулеров, но скрывает свои материалы из интерфейса Wayback Machine и ограничивает доступ через API, что делает архивы менее доступными для пользователей.
Главная причина — искусственный интеллект. СМИ опасаются, что их материалы используются для обучения больших языковых моделей без разрешения. Считается, что архив может служить обходным путём для сбора данных, позволяя технологическим компаниям получать доступ к контенту, защищённому авторским правом.
При этом сами медиа активно используют архив в своей работе. В открытом письме организации вроде Electronic Frontier Foundation подчёркивают, что «без Internet Archive значительная часть истории журналистики уже была бы потеряна». Архив остаётся одним из немногих инструментов, позволяющих фиксировать изменения в публичных заявлениях, удалённые публикации и другие цифровые следы.
В Internet Archive утверждают, что внедряют механизмы защиты от злоупотреблений, включая ограничения на массовое скачивание данных. Однако даже при этих мерах доверие со стороны издателей снижается. Представители медиа-индустрии признают, что проблема носит системный характер: технологии, созданные для сохранения знаний, начинают использоваться способами, которые не предусматривались изначально.
Ситуация осложняется тем, что полноценной альтернативы Wayback Machine не существует. Если доступ к крупным источникам будет и дальше сокращаться, то это может привести к постепенной утрате цифровых архивов — особенно в сфере новостей, где материалы часто удаляются или изменяются.
В результате интернет рискует потерять способность сохранять собственную историю. И если текущая тенденция сохранится, значительная часть цифрового прошлого может оказаться недоступной уже в ближайшие годы.
© iXBT
