О странностях хабростатистики
И раньше замечал странное поведение рейтингов, но в последнее время странность проявилась слишком наглядно. И я решил исследовать проблему доступными мне научными методами, а именно: проанализировать динамику плюсования-минусования. Вдруг померещилось?
Программист я еще тот, но совсем элементарные вещи делать умею. Вот и закодил простенькую утилитку, собирающую статистику с панелей хабровского поста: плюсы, минусы, просмотры, закладки и прочее.
Статистика выводится в графики, после изучения которых удалось обнаружить еще пару неожиданностей, помельче. Но обо всем по порядку.
Странность 1.
С нее, собственно, началось мое статистическое исследование.
Мне показалось странным, что в первые часы после опубликования некоторых моих постов они резко уходили в минус, затем обнулялись и в конце концов зарабатывали ожидаемый плюс. С чего бы это?
Я как раз собирался опубликовать очередной пост — в двух частях. Его и решил подвергнуть статистическому препарированию.
Опубликовал первую часть. Одновременно запустил утилиту и принялся дожидаться результата. К сожалению, ночью — в то время, пока я дрых, — программа прекратила сбор сведений из-за допущенного бага. Наутро я исправил ошибку, но статистика оказалась за неполные сутки. Впрочем, тенденции очевидны и за отработанное время.
Данные приводятся за первые 14 часов с момента опубликования, интервал между замерами 10 минут.
Глаза не обманули: большинство минусов приходится на первый час существования поста. Сначала пост резко ушел в минус, затем выправился. Вот цифры, по которым выстроен график:
И это при том, что просмотры возрастают плавно!
Ступени, идущие с тысячных значений, объясняются тем, что в хабровской панели начинаются сокращения: точного количества просмотров взять неоткуда (наверное, можно было взять из сторонних сервисов, но ими я не пользовался).
Я в статистике не спец, но ведь подобное распределение минусов анормально, насколько понимаю?!
Вот смотрите, закладки распределены по регистрационному периоду более-менее равномерно:
Комментарии — тоже равномерно:
Наблюдаются всплески активности и пассивности, но и они распределены по периоду: комментирование то затухает, то возобновляется.
То же с подписчиками — имеет место равномерное незначительное увеличение:
Карма за отчетный период не изменилась — ее не привожу. А рейтинг вычисляется Хабром, приводить его нет смысла.
Все показатели изменяются пропорционально количеству просмотров, и только с минусами творится неладное: вспышка озлобления приходится на первый час с начала публикации. То же самое наблюдалось с моими предыдущими постами. Но если раньше это были, так сказать, личные впечатления, то теперь их подтвердила регистрация.
По моему сугубо нубскому мнению, подобное распределение означает: на сайте сидят несколько пользователей, которые целенаправленно просматривают свежие публикуемые посты и некоторые из постов — исходя из известной только им потребности — минусуют. Пишу «некоторые из постов», потому что подмечал данный эффект не только у своих публикаций. Во всех случаях эффект выраженный, иначе я просто не обратил бы на него внимания.
У меня имеются четыре версии, почему так происходит.
Версия 1. Психическое извращение. Больные люди специально караулят неприятных им авторов и минусуют, с целью навредить.
В эту версию я не верю.
Версия 2. Психологический эффект. Какой — я не знаю. Ну почему читатели сначала дружно минусуют пост, затем не менее дружно плюсуют? Минусуют как нетематический, а плюсуют после того, как ценители прекрасного оказываются в большинстве? Не знаю, не знаю.
Если среди читателей имеются психологи, пусть скажут свое веское слово.
Версия 3. Действуют служивые. Зачем их начальству гнобить хабровские посты — Бог весть. Впрочем, служивые имеются не только в нашем отечестве. Кто из поймет, русофобов?!
Версия 4. Комбинированное воздействие ранее указанных факторов.
Вполне представимо.
Как бы там ни было, уменьшить количество просмотров минусаторам удается. Я не знаком с правилами вывода хабровских постов в топ, не знаю даже, обнародованы эти алгоритмы или нет, но для меня очевидно: раннее минусование не дает подвергаемым остракизму постам выходить в топы — точнее, задерживает попадание туда, что в свою очередь значительно, в разы, уменьшает количество просмотров.
Насколько понимаю, действенных способов борьбы с этим злом не существует. Единственный способ — именное голосование. Только в таком случае можно установить, из каких профилей идет периодическое отслеживание и минусование свежих постов. Однако, именное голосование на Хабре отсутствует (вернее, не обнародуется).
Но не все так просто.
Как я сказал, препарируемый материал публиковался по частям. После публикации второй части я ожидал схожей картины: с начальным выходом в минус и последующим — в плюс. Однако, эффект оказался куда более сглаженным: пост в минус не выходил.
Ко времени публикации второй части баг был исправлен, поэтому данные приводятся за сутки:
Откуда взялось сглаживание, мне не известно. Возможно, из-за публикации в субботу (минусаторы по субботам не работают?) или из-за того, что это окончание ранее опубликованного материала.
Впрочем, распределение минусов все равно неравномерное: все минусы приходятся на первую половину регистрационного периода, и минусование заканчивается намного раньше плюсования. В то же время просмотры распределены по периоду точно как в прошлый раз — равномерно:
Скачок, произошедший около трех пополудни — это не секретные материалы. Просто на час у меня отрубился интернет. Утилита не могла соединиться с сайтом.
Все остальное — совершенно стандартно.
Закладки:
Комментарии: как и в прошлый раз, периоды активности чередуются с периодами молчания.
Карма. Зафиксировано увеличение на пару единиц — само собой, не одновременное:
И подписчики. Общее количество осталось неизменным (видимо, желающие подписались при публикации первой части). Только около часа пополудни произошла единичная флуктуация: кто-то отписался — возможно, по ошибке, –, но тут же подписался снова. Если это и был другой человек, произошла компенсация: общее число подписчиков не изменилось.
Итак, показатели поста ведут себя понятным и предсказуемым образом. Все показатели, за исключением минусов. Поскольку я не вижу очевидной причины для этого, то нахожу минусаторский пик как минимум странным.
Странность 2.
Иногда количество просмотров уменьшается (что, понятное дело, невозможно), но вскоре возвращается в нормальное состояние.
Отследил случайно, во время отладки программы, когда функция экспорта-импорта еще не была приделана, поэтому на графике соответствующий зигзаг отсутствует. Можете поверить на слово — данный эффект наблюдался дважды. Несколько тысяч просмотров, внезапно число просмотров уменьшается на пару сотен, минут через 10–20 восстанавливается до прежнего уровня (без учета естественного увеличения).
С этим совсем просто: баг на сайте. И думать нечего.
Странность 3.
Вот что показалось мне куда более странным, чем волюнтаристский первый и технический второй эффекты. Плюсы случаются не одиночно, с равномерным распределением по периоду, а блоками. Но ведь плюсование — не комментарий, когда за вопросом естественно следует ответ, они акт индивидуальный!
Присмотритесь на опубликованные выше графики результата: блоки заметны.
Знающие люди кивнули мне на распределение Пуассона, но самостоятельно подсчитать вероятность я не в состоянии. Если вы способны, подсчитывайте. Для меня и без того очевидно, что количество сдвоенных плюсов намного превышает норму.
Вот цифровые данные по плюсам первой части поста. На графике показано число плюсов, приходящихся на единичные, удвоенные и утроенные позиции, в общем количестве выставленных оценок. Как говорилось ранее, интервал замеров составляет 10 минут.
Из 30 тыканий в 84 клетки в две клетки тыкнули трижды. Ну, не знаю, насколько это соответствует теории вероятности…
Данные по второй части поста (поскольку период измерений более длительный, сокращаю его по длительности первой части, для сравнимости):
Между прочим, здесь с утроенным соседствует по времени один из единичных плюсов, то есть в какие-то 20 минут наблюдался всплеск плюсования (поставлено плюсов 29% от общего их числа). И это происходило не в первые минуты опубликования.
Соотношение между единичными, удвоенными и утроенными позициями приблизительно то же самое, что для первой части. А уменьшение доли оценок в замерах объясняется тем, что оценки выставлялись реже. Замеры производились, но плюсов не фиксировалось.
Этот эффект блочного плюсования я никак не могу объяснить, то есть вообще никак. Для минусов подобное «блочное» поведение вроде бы не характерно.
Излучатели добра посылают внушения порционно, то включаясь, то выключаясь? Хе-хе-хе…
P.S.
Если у кого возникнет желание проанализировать статистику постов более совершенными методами или проверить арифметику, файлы с исходными данными здесь:
yadi.sk/d/iN4SL6tzsGEQxw
Не настаиваю на своих сомнениях — возможно, я не прав, тем более что в статистике нихт бельмес. Надеюсь, что комментарии профессиональных статистиков, психологов и других заинтересованных пользователей прояснят возникшее недоумение.
Спасибо за внимание.