Разведочный информационный поиск
Математик Константин Воронцов о роли информации в постиндустриальном обществе, инвертированных индексах и тематическом моделировании запросов поиска
Мы вынуждены четко формулировать наш поисковый запрос в виде короткой текстовой строки. Для этого мы должны хорошо осознавать, что мы ищем, и знать терминологию предметной области. К сожалению, когда мы познаем новую предметную область, мы не знаем ни терминологию, ни что важно, а что не важно. И хотелось бы переходить к какой-то новой парадигме поиска, когда мы можем в качестве поискового запроса задать какую-то тему, наметить ее достаточно широко, например, просто скинуть большой документ по этой теме или подборку документов, орать целую коллекцию и сказать системе: «Ищи все, что есть по этой теме, мониторь весь Интернет и, как только появится что-то новое, сообщи нам об этом».
Появляется новая парадигма в информационно поиске — разведочный информационный поиск. Это парадигма поиска, которая понадобится человечеству буквально через несколько лет, десятилетий. Мы часто говорим о том, что мы переходим к обществу, основанному на знаниях, или постиндустриальному обществу, где будет постоянно увеличиваться доля людей, в силу своей профессии вынужденным приобретать новые знания постоянно.
Необходимы новые типы поисковых систем. Один их подходов, который ведет нас к разведочному поиску знаний в сети — это тематическое моделирование. Я и моя научная группа в физтехе и на факультете ВМК МГУ, мы занимаемся методами вероятностного тематического моделирования. Это методы, которые позволяют по большой коллекции текстовых документов узнать то, что мы не видим глазами в этой коллекции.
Полный текст статьи читайте на Postnauka.ru