Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа
«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014 г, чтобы составить рейтинг цитируемости СМИ.В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.Собственно, сам рейтинг получился таким: Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014 г): Место врейтинге Название ресурса Адрес сайта ИндексSMI Количествоссылок 1 РИА «Новости» ria.ru 117 516 641 2 RT на русском russian.rt.com 83 364 845 3 Лента.Ру lenta.ru 72 318 735 4 Радиостанция «Эхо Москвы» echo.msk.ru 52 226 985 5 Газета.Ru gazeta.ru 51 226 760 6 Life News lifenews.ru 48 212 870 7 Телеканал «Дождь» tvrain.ru 48 210 413 8 ИТАР-ТАСС itar-tass.com 46 203 795 9 Вести.ru vesti.ru 45 197 654 10 Sports.ru sports.ru 42 184 831 11 РБК (РосБизнесКонсалтинг) rbc.ru 35 154 048 12 NEWSru.com newsru.com 32 140 082 13 Комсомольская правда kp.ru 31 136 291 14 Интерфакс interfax.ru 28 121 714 15 Российская газета rg.ru 27 118 643 16 НТВ ntv.ru 26 113 353 17 Новый Регион 2 nr2.ru 25 110 104 18 Деловая газета «Взгляд» vz.ru 23 100 647 19 Первый канал 1tv.ru 19 84 659 20 Сноб Медиа snob.ru 18 78 439 21 Информационное агентство REGNUM regnum.ru 17 76 920 22 Коммерсант.ru kommersant.ru 15 66 221 23 Slon.ru slon.ru 15 65 872 24 Ведомости vedomosti.ru 15 63 915 25 Аргументы и факты aif.ru 13 58 290 26 Известия.ру izvestia.ru 13 56 109 27 В Москве — Московские новости newsmsk.com 12 54 147 28 Новая газета novayagazeta.ru 12 52 367 29 Свободная пресса svpressa.ru 11 49 069 30 ИноСМИ.ru inosmi.ru 10 42 757 Подробнее о рейтинге, формировании индекса SMI и рейтинговании SMR можно прочитать в нашем блоге: http://br-analytics.ru/blog/? p=1264ЗАЧЕМ И ДЛЯ КОГО? На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.
Имея (дурную :-)) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.
КАК: ОТКРЫТИЯ И ТРУДНОСТИ Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20–25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15 млн в сутки!
Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4–5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.
«Лобовая» однопоточная обработка данных за одни сутки заняла часа 3–4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.
P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.
ИТОГИ Итоговые данные: • Обработано сообщений за март: 655 269 709• Уникальных авторов: 35 172 270• ВСЕГО найдено ссылок: 536 185 906• Cсылок БЕЗ КАРТИНОК: 357 853 627• КОРОТКИХ ссылок: 110 685 097Для любителей статистики приводим эксклюзивные данные по топу «сырых«ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
154 659 839 vk.com 25 776 485 apps.facebook.com 23 611 855 dsm.odnoklassniki.ru 10 531 545 facebook.com 10 123 556 youtube.com 5 240 568 instagram.com 4 026 849 twitter.com 2 320 472 plus.google.com 2 304 521 ask.fm 1 847 571 docs.google.com 1 225 210 islandandroid.17bullets.com Возвращаясь от технократических вопросов к методологическим…1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.
2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM’щиков :-)
Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».
P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.