Руководитель «Яндекс.Браузера» запустил поиск по архивам «Живого Журнала» на основе данных «Яндекса»

Руководитель «Яндекс.Браузера» Роман Иванов запустил сервис поиска по архивам «Живого Журнала», которые сохранились в «Поиске по блогам» «Яндекса». В разговоре с vc.ru он сообщил, что это его личный проект, не связанный с поисковой системой.

Проект предназначен для исследователей, которым будут интересны «культурные пласты нулевых годов», а также пользователей ЖЖ, желающих найти информацию тех лет, говорит Иванов. В сервисе собраны данные с 2000 года по осень 2015 года — 340 млн заметок и 1 млрд комментариев, всего более терабайта информации.

02b068c4b2c603.png

Я считаю, что в ЖЖ случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Культурное значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что этот архив должен быть сохранён для человечества. Ну и попросил у «Яндекса» архивы. А «Яндекс» внезапно согласился и дал их. Последние полгода я с несколькими другими волонтёрами программировал этот самый поиск и вроде бы довёл его до вменяемого состояния.

— Роман Иванов

Разработкой сервиса занимался сам Иванов при поддержке волонтёров — в частности, дизайн сервиса создавал основатель закрытого сейчас сервиса Eviterra Николай Заярный. Поисковик расположен на хостинге Servers.ru, который предложил безвозмездную помощь Иванову.

Поскольку новые записи не индексируются, то аудитория, на которую я рассчитываю — исследователи. Как в прямом смысле слова исследователи культурных пластов нулевых годов, так и просто настоящие или бывшие пользователи ЖЖ, которые хотят найти что-то, что было написано в те годы. Исходя из этого, например, я не стал ограничивать максимальное время выполнения поискового запроса — исследователь может подождать выполнения сложного запроса и минуту, и две. При этом, конечно, простые запросы выполняются быстро, а если сервис обнаруживает, что запросов сейчас задаётся много, он включает управляемую деградацию, в том числе, ограничивает таймаут запроса.

— Роман Иванов

Сейчас создатель сервиса планирует переиндексировать архив и добавить поиск по точным словоформам, а также дать возможность искать комментарий одного пользователя в журнале другого.

Чтобы предотвратить претензии со стороны правоохранительных органов, Иванов решил не показывать сохранённые копии уже удалённых записей пользователей с российских IP-адресов. «Так сказать, заранее ограничил русских детей от возможной пропаганды суицида, гомосексуализма, наркотиков, шоплифтинга, неуплаты штрафов и перехода улицы в неположенном месте», — сказал он. Администрация ЖЖ, к которой обратился Иванов с предложением сотрудничества, не проявила интереса к проекту.

«Яндекс» объявил о закрытии рейтинга блогеров в «Поиске по блогам» в апреле 2014 года — это произошло из-за инициативы о приравнивании блогов с посещаемостью свыше трёх тысяч пользователей в сутки к СМИ. C сентября 2015 года сервис ищет только по материалам, которые младше двух месяцев. В компании объяснили это тем, что «подавляющее большинство наших пользователей ищут свежие записи, а к архивам обращаются достаточно редко».

Присылайте новости на news@vc.ru

Твитнуть
Поделиться
Поделиться

В избр.

Ком.

Статьи по теме

©  vc.ru