Разведочный информационный поиск

Математик Константин Воронцов о роли информации в постиндустриальном обществе, инвертированных индексах и тематическом моделировании запросов поиска

Как сократить затраты времени при поиске информации в интернете? Возможно ли искать информацию, не используя точный предметный запрос? Какие парадигмы информационного поиска будут использоваться в будущем?

Мы вынуждены четко формулировать наш поисковый запрос в виде короткой текстовой строки. Для этого мы должны хорошо осознавать, что мы ищем, и знать терминологию предметной области. К сожалению, когда мы познаем новую предметную область, мы не знаем ни терминологию, ни что важно, а что не важно. И хотелось бы переходить к какой-то новой парадигме поиска, когда мы можем в качестве поискового запроса задать какую-то тему, наметить ее достаточно широко, например, просто скинуть большой документ по этой теме или подборку документов, орать целую коллекцию и сказать системе: «Ищи все, что есть по этой теме, мониторь весь Интернет и, как только появится что-то новое, сообщи нам об этом».


Появляется новая парадигма в информационно поиске — разведочный информационный поиск. Это парадигма поиска, которая понадобится человечеству буквально через несколько лет, десятилетий. Мы часто говорим о том, что мы переходим к обществу, основанному на знаниях, или постиндустриальному обществу, где будет постоянно увеличиваться доля людей, в силу своей профессии вынужденным приобретать новые знания постоянно.

Необходимы новые типы поисковых систем. Один их подходов, который ведет нас к разведочному поиску знаний в сети — это тематическое моделирование. Я и моя научная группа в физтехе и на факультете ВМК МГУ, мы занимаемся методами вероятностного тематического моделирования. Это методы, которые позволяют по большой коллекции текстовых документов узнать то, что мы не видим глазами в этой коллекции.

vorontsov.jpg

доктор физико-математических наук, профессор РАН, заведующий отделом «Интеллектуальные системы» ФИЦ ИУ РАН, профессор МФТИ, профессор НИУ ВШЭ

Полный текст статьи читайте на Postnauka.ru