Классифицируй это: как определить тему поисковых запросов

В основе многих исследований Яндекса лежит анализ поисковых запросов. Иногда нужно понять тему запроса — то, о чём спрашивает пользователь. Это можно делать вручную, но такая работа занимает много времени. Если нужно проанализировать большое количество запросов — хотя бы сотни тысяч, мы используем автоматический классификатор. Как он устроен, рассказывает руководитель отдела внешних исследований Яндекса Наталия Крупенина.

Наталия Крупенина,
руководитель отдела внешних исследований Яндекса

У большинства поисковых запросов есть тема — это то, о чём спрашивает пользователь: автомобили, банки, домашние животные. В некоторых случаях определить тему несложно. Например, тема запроса [симптомы гриппа] — здоровье. Иногда у одного запроса может быть несколько тем: [жаропонижающее для детей до года] касается и здоровья, и детей. Бывает, что тема вроде бы одна, но определить её трудно. Запрос [снежная королева] может касаться одежды, сказки Андерсена, фильма или детского спектакля. Чтобы достоверно определить тему запроса в данном случае, нужно понять, что имел в виду пользователь.

Читайте также

Исследования Яндекса: как жизнь отражается в данных

Темы поисковых запросов определяет автоматический классификатор. Он не может знать, что именно люди имеют в виду в каждом конкретном случае, но может учесть их поведение — на какие сайты они переходят из результатов поиска.

В основе работы классификатора лежит разметка наиболее популярных сайтов. Для каждого из нескольких тысяч адресов мы вручную определяем основную тему. При этом мы опираемся на наборы запросов, по которым пользователи переходят на каждый сайт — поскольку нас интересует тема не сама по себе, а именно в связи с поиском. Определить основную тему получается у 80% популярных сайтов, на остальные переходят по запросам на разные темы. Всего мы выделяем несколько десятков тем в самых разных сферах жизни — от животных и бизнеса до IT и эзотерики.

Дальше классификатор переносит ручную разметку нескольких тысяч сайтов на миллионы сайтов рунета. Он определяет, на какие сайты переходят по запросам с теми же формулировками, что и на размеченные вручную ресурсы, и выставляет вероятности тем. Чем больше запросов совпало, тем выше вероятность, что сайт относится к той же теме. В результате каждому ресурсу классификатор присваивает несколько наиболее вероятных тем. Есть сайты, у которых чётко выделяется преимущественная тема. Например, на сайты, посвящённые кино, переходят в основном по запросам, связанным с фильмами, сериалами и мультфильмами. У других сайтов темы более расплывчатые — скажем, сайты про детей часто неразрывно связаны со здоровьем взрослых, а сайты про ремонт — с рукоделием.

Зная темы сайтов, классификатор может определить темы запросов. Для каждого запроса он считает, сколько раз по нему переходили на сайты с разными темами, и определяет доли каждой темы. Например, запрос [снежная королева] на 55% относится к теме «одежда», на 25% к «литературе» и на 15% к «детям». Оставшиеся 5% распределяются по другим темам. А запрос [носки черные мужские цена] относится к теме «одежда» на 99%.

Как выглядят поисковые запросы и сайты рунета с точки зрения классификатора, можно показать в виде карт. Суммарная доля запросов, которые невозможно отнести к одной теме, составляет 40%, а сайтов — 60%. На картах они обозначены океанами. Чёткие темы показаны в виде стран, расплывчатые — например, «домашнее хозяйство», в которую могут попадать запросы и про ремонт, и про детей, и про еду — в виде морей, омывающих близкие темы.

В реальности темы лучше не сравнивать друг с другом напрямую. Из-за того, что в основе классификатора лежит разметка наиболее популярных сайтов, а не просто случайных, популярные темы также получают преимущество. Поэтому в исследованиях мы сравниваем не темы между собой, а интерес к каждой теме в разных срезах.

©  Яндекс