О странностях хабростатистики

И раньше замечал странное поведение рейтингов, но в последнее время странность проявилась слишком наглядно. И я решил исследовать проблему доступными мне научными методами, а именно: проанализировать динамику плюсования-минусования. Вдруг померещилось?

Программист я еще тот, но совсем элементарные вещи делать умею. Вот и закодил простенькую утилитку, собирающую статистику с панелей хабровского поста: плюсы, минусы, просмотры, закладки и прочее.

pxr9r1geqnc9qteu9apud0bt1ck.png

Статистика выводится в графики, после изучения которых удалось обнаружить еще пару неожиданностей, помельче. Но обо всем по порядку.
Странность 1.
С нее, собственно, началось мое статистическое исследование.

Мне показалось странным, что в первые часы после опубликования некоторых моих постов они резко уходили в минус, затем обнулялись и в конце концов зарабатывали ожидаемый плюс. С чего бы это?

Я как раз собирался опубликовать очередной пост — в двух частях. Его и решил подвергнуть статистическому препарированию.

Опубликовал первую часть. Одновременно запустил утилиту и принялся дожидаться результата. К сожалению, ночью — в то время, пока я дрых, — программа прекратила сбор сведений из-за допущенного бага. Наутро я исправил ошибку, но статистика оказалась за неполные сутки. Впрочем, тенденции очевидны и за отработанное время.

Данные приводятся за первые 14 часов с момента опубликования, интервал между замерами 10 минут.

rwk7oamhxg6u2hwinomcwqklasc.png

Глаза не обманули: большинство минусов приходится на первый час существования поста. Сначала пост резко ушел в минус, затем выправился. Вот цифры, по которым выстроен график:

fmkyittyeoskc48hhcq6hp8bmmu.png

И это при том, что просмотры возрастают плавно!

6fkegzt4abphmb0sgkz6_0gxmga.png

Ступени, идущие с тысячных значений, объясняются тем, что в хабровской панели начинаются сокращения: точного количества просмотров взять неоткуда (наверное, можно было взять из сторонних сервисов, но ими я не пользовался).

Я в статистике не спец, но ведь подобное распределение минусов анормально, насколько понимаю?!

Вот смотрите, закладки распределены по регистрационному периоду более-менее равномерно:

bgslxfl6siyunmuxsctkvdp5vpe.png

Комментарии — тоже равномерно:

io_yralvrluv2mhxzvakcqpafxi.png

Наблюдаются всплески активности и пассивности, но и они распределены по периоду: комментирование то затухает, то возобновляется.

То же с подписчиками — имеет место равномерное незначительное увеличение:

k1dq-b4lhrzfzrtbrnqjynqdrvs.png

Карма за отчетный период не изменилась — ее не привожу. А рейтинг вычисляется Хабром, приводить его нет смысла.

Все показатели изменяются пропорционально количеству просмотров, и только с минусами творится неладное: вспышка озлобления приходится на первый час с начала публикации. То же самое наблюдалось с моими предыдущими постами. Но если раньше это были, так сказать, личные впечатления, то теперь их подтвердила регистрация.

По моему сугубо нубскому мнению, подобное распределение означает: на сайте сидят несколько пользователей, которые целенаправленно просматривают свежие публикуемые посты и некоторые из постов — исходя из известной только им потребности — минусуют. Пишу «некоторые из постов», потому что подмечал данный эффект не только у своих публикаций. Во всех случаях эффект выраженный, иначе я просто не обратил бы на него внимания.

У меня имеются четыре версии, почему так происходит.

Версия 1. Психическое извращение. Больные люди специально караулят неприятных им авторов и минусуют, с целью навредить.

В эту версию я не верю.

Версия 2. Психологический эффект. Какой — я не знаю. Ну почему читатели сначала дружно минусуют пост, затем не менее дружно плюсуют? Минусуют как нетематический, а плюсуют после того, как ценители прекрасного оказываются в большинстве? Не знаю, не знаю.

Если среди читателей имеются психологи, пусть скажут свое веское слово.

Версия 3. Действуют служивые. Зачем их начальству гнобить хабровские посты — Бог весть. Впрочем, служивые имеются не только в нашем отечестве. Кто из поймет, русофобов?!

Версия 4. Комбинированное воздействие ранее указанных факторов.

Вполне представимо.

Как бы там ни было, уменьшить количество просмотров минусаторам удается. Я не знаком с правилами вывода хабровских постов в топ, не знаю даже, обнародованы эти алгоритмы или нет, но для меня очевидно: раннее минусование не дает подвергаемым остракизму постам выходить в топы — точнее, задерживает попадание туда, что в свою очередь значительно, в разы, уменьшает количество просмотров.

Насколько понимаю, действенных способов борьбы с этим злом не существует. Единственный способ — именное голосование. Только в таком случае можно установить, из каких профилей идет периодическое отслеживание и минусование свежих постов. Однако, именное голосование на Хабре отсутствует (вернее, не обнародуется).

Но не все так просто.

Как я сказал, препарируемый материал публиковался по частям. После публикации второй части я ожидал схожей картины: с начальным выходом в минус и последующим — в плюс. Однако, эффект оказался куда более сглаженным: пост в минус не выходил.

Ко времени публикации второй части баг был исправлен, поэтому данные приводятся за сутки:

ehj9-im856ohbw73bidqqxegy_e.png

Откуда взялось сглаживание, мне не известно. Возможно, из-за публикации в субботу (минусаторы по субботам не работают?) или из-за того, что это окончание ранее опубликованного материала.

Впрочем, распределение минусов все равно неравномерное: все минусы приходятся на первую половину регистрационного периода, и минусование заканчивается намного раньше плюсования. В то же время просмотры распределены по периоду точно как в прошлый раз — равномерно:

5i1f6hnlwflt1axllifzqx0b39s.png

Скачок, произошедший около трех пополудни — это не секретные материалы. Просто на час у меня отрубился интернет. Утилита не могла соединиться с сайтом.

ejpohxm2cfvyjquuvvlbzkolv4g.png

Все остальное — совершенно стандартно.

Закладки:

q-lg5maykavijwkioticdr5xjgq.png

Комментарии: как и в прошлый раз, периоды активности чередуются с периодами молчания.

annq1htqxa1goosysj3nkttujo0.png

Карма. Зафиксировано увеличение на пару единиц — само собой, не одновременное:

w1u2xlfztbxivixg6sy9czb3b1q.png

И подписчики. Общее количество осталось неизменным (видимо, желающие подписались при публикации первой части). Только около часа пополудни произошла единичная флуктуация: кто-то отписался — возможно, по ошибке, –, но тут же подписался снова. Если это и был другой человек, произошла компенсация: общее число подписчиков не изменилось.

taxvfaj6omhhqjrwm8ieved2uss.png

Итак, показатели поста ведут себя понятным и предсказуемым образом. Все показатели, за исключением минусов. Поскольку я не вижу очевидной причины для этого, то нахожу минусаторский пик как минимум странным.

Странность 2.
Иногда количество просмотров уменьшается (что, понятное дело, невозможно), но вскоре возвращается в нормальное состояние.

Отследил случайно, во время отладки программы, когда функция экспорта-импорта еще не была приделана, поэтому на графике соответствующий зигзаг отсутствует. Можете поверить на слово — данный эффект наблюдался дважды. Несколько тысяч просмотров, внезапно число просмотров уменьшается на пару сотен, минут через 10–20 восстанавливается до прежнего уровня (без учета естественного увеличения).

С этим совсем просто: баг на сайте. И думать нечего.

Странность 3.
Вот что показалось мне куда более странным, чем волюнтаристский первый и технический второй эффекты. Плюсы случаются не одиночно, с равномерным распределением по периоду, а блоками. Но ведь плюсование — не комментарий, когда за вопросом естественно следует ответ, они акт индивидуальный!

Присмотритесь на опубликованные выше графики результата: блоки заметны.

Знающие люди кивнули мне на распределение Пуассона, но самостоятельно подсчитать вероятность я не в состоянии. Если вы способны, подсчитывайте. Для меня и без того очевидно, что количество сдвоенных плюсов намного превышает норму.

Вот цифровые данные по плюсам первой части поста. На графике показано число плюсов, приходящихся на единичные, удвоенные и утроенные позиции, в общем количестве выставленных оценок. Как говорилось ранее, интервал замеров составляет 10 минут.

eya08ltjtal4sfqqsqdfdsod8ik.png

Из 30 тыканий в 84 клетки в две клетки тыкнули трижды. Ну, не знаю, насколько это соответствует теории вероятности…

Данные по второй части поста (поскольку период измерений более длительный, сокращаю его по длительности первой части, для сравнимости):

blg1ala76hf_xt6uhnqht73k6zo.png

Между прочим, здесь с утроенным соседствует по времени один из единичных плюсов, то есть в какие-то 20 минут наблюдался всплеск плюсования (поставлено плюсов 29% от общего их числа). И это происходило не в первые минуты опубликования.

Соотношение между единичными, удвоенными и утроенными позициями приблизительно то же самое, что для первой части. А уменьшение доли оценок в замерах объясняется тем, что оценки выставлялись реже. Замеры производились, но плюсов не фиксировалось.

Этот эффект блочного плюсования я никак не могу объяснить, то есть вообще никак. Для минусов подобное «блочное» поведение вроде бы не характерно.

Излучатели добра посылают внушения порционно, то включаясь, то выключаясь? Хе-хе-хе…

P.S.
Если у кого возникнет желание проанализировать статистику постов более совершенными методами или проверить арифметику, файлы с исходными данными здесь:
yadi.sk/d/iN4SL6tzsGEQxw

Не настаиваю на своих сомнениях — возможно, я не прав, тем более что в статистике нихт бельмес. Надеюсь, что комментарии профессиональных статистиков, психологов и других заинтересованных пользователей прояснят возникшее недоумение.

Спасибо за внимание.

© Habrahabr.ru