Тестирование нового подхода к определению релевантности документов

В течение последних трех месяцев на части запросов Яндекс тестировал новый подход к определению релевантности документов.

Традиционный подход заключается в использовании заранее имеющейся информации о факторах, извлекаемых непосредственно после индексации документа, а также последующей «корректировке» релевантного топа с учетом пользовательского поведения на сайте.

Однако априорной информации о документе иногда недостаточно для определения потенциальной пользы в решении поисковой задачи. Некоторые полезные или просто новые документы могут из-за этого ранжироваться низко и, следовательно, потребуется много времени для накопления достаточного количества данных об удовлетворенности пользователя.

Поэтому имеет смысл периодически показывать в области видимости документы, по которым пользовательской информации недостаточно для принятия решения о полезности документа; при этом априорная релевантность такого документа может оказаться не самой высокой.

Таким образом, за счет возможного краткосрочного снижения качества удается получить информацию о документах, участвующих в поиске, и выиграть в качестве стратегически.

На практике невозможно для получения обратной связи от пользователей показать на топовых позициях всё множество документов, которое попадает в выдачу. Поэтому мы применяем комбинацию так называемого эксплуатирующего подхода, основанного исключительно на априорной релевантности документа, и экспериментирующего, — целью которого является сбор максимума информации о документах.

Сегодня многие компании проводят исследования в этой актуальной области информационного поиска. На конференции WWW'15 во Флоренции статья наших сотрудников, посвященная онлайн-обучению алгоритма ранжирования в терминах задачи о многоруких бандитах, была номинирована на Best Paper Award — это замечательный успех наших ребят. Мы гордимся их достижением и рекомендуем статью всем заинтересованным специалистам.

.

©  Яндекс