ИИ угрожает «интернет-архиву»: СМИ массово ограничивают доступ

Рост популярности искусственного интеллекта начал неожиданно подрывать работу одного из ключевых «хранителей цифровой истории» — Internet Archive. Организация, которая более 30 лет сохраняет веб-страницы и предоставляет к ним доступ, сталкивается с тем, что всё больше сайтов запрещают ей архивировать контент.

Internet Archive управляет сервисом Wayback Machine — крупнейшей в мире публичной «машиной времени» интернета, позволяющей просматривать старые версии сайтов. Система работает с помощью веб-краулеров, которые автоматически сохраняют веб-страницы. Эти данные широко используются журналистами, исследователями и историками, особенно в расследованиях, связанных с цензурой или дезинформацией.

Однако сейчас доступ к этим данным постепенно сокращается. По оценкам аналитиков, уже 241 новостной сайт из 9 стран частично или полностью запретил архивирование. Среди них — The New York Times и Reddit. Значительная часть ограничений приходится на медиа, принадлежащие крупнейшему американскому издателю Gannett.

Иллюстрация: Nano Banana

Некоторые издания идут ещё дальше. Например, The Guardian не блокирует самих краулеров, но скрывает свои материалы из интерфейса Wayback Machine и ограничивает доступ через API, что делает архивы менее доступными для пользователей.

Главная причина — искусственный интеллект. СМИ опасаются, что их материалы используются для обучения больших языковых моделей без разрешения. Считается, что архив может служить обходным путём для сбора данных, позволяя технологическим компаниям получать доступ к контенту, защищённому авторским правом.

При этом сами медиа активно используют архив в своей работе. В открытом письме организации вроде Electronic Frontier Foundation подчёркивают, что «без Internet Archive значительная часть истории журналистики уже была бы потеряна». Архив остаётся одним из немногих инструментов, позволяющих фиксировать изменения в публичных заявлениях, удалённые публикации и другие цифровые следы.

В Internet Archive утверждают, что внедряют механизмы защиты от злоупотреблений, включая ограничения на массовое скачивание данных. Однако даже при этих мерах доверие со стороны издателей снижается. Представители медиа-индустрии признают, что проблема носит системный характер: технологии, созданные для сохранения знаний, начинают использоваться способами, которые не предусматривались изначально.

Ситуация осложняется тем, что полноценной альтернативы Wayback Machine не существует. Если доступ к крупным источникам будет и дальше сокращаться, то это может привести к постепенной утрате цифровых архивов — особенно в сфере новостей, где материалы часто удаляются или изменяются.

В результате интернет рискует потерять способность сохранять собственную историю. И если текущая тенденция сохранится, значительная часть цифрового прошлого может оказаться недоступной уже в ближайшие годы.

©  iXBT