Анализируй это или статистика авторов и комментаторов Хабра

4a4a65ee2b2413f7cfd612fe17e40b43

Рабочая гипотеза для проверки:
На хабре обитает или, скорее, работает, группа граждан,
— НЕ пишущих статьи или написавших 1 (одну) проходную статью «как я побывал в обществе чистых тарелок», и
— При этом так же НЕ активно пишущих комментарии
— Но при этом появляясь почти исключительно с идейно верным речекряком — санкции только на пользу, 1с сейчас быстро заменим SAP, (sed –i «nebula|настоящий русский продукт») — и этот продукт вторичный однозначно будет иметь успех на западном рынке.
— Отдельно надо выделить группу комментаторов, которым нравится советский учебник истории, и не нравится Мозохин (Олег Борисович), Мухин (Михаил Юрьевич) и Вознесенский (Николай Алексеевич). Я все понимаю, читать про неунывающего и мужественного Сталина и изобретательного и находчивого Кагановича намного интересней, чем дневники Малышева и Бирюкова.

Количественная оценка.
Возьмем последние 20 постов, набравших больше +100, и с примерно 100 и больее комментариями
При этом: выбрать без регистрации фильтр — нельзя, за что такое угнетение.
При этом: фильтра «наиболее обсуждаемое» — нельзя, только ручной отбор.
Статистика отбора:

Проведем простой анализ. Необходимо
1. Собрать всех комментаторов из комментариев.
2. Выбрать из них — уникальных.
3. Провести анализ комментаторов, в разрезе юзер \ публикации \ комментарии \ Зарегистрирован \ приглашен — и эта разница будет особо интересна.
В том числе можно будет посчитать разницу между «приглашен» и числом комментариев, и заодно — год регистрации. Какие цифры это даст, и попитонить на досуге.
Пожалуй, попитонить — единственная полезная задача в списке.

Конечно, после сбора статистики надо проводить анализ текста комментариев. Можно вручную, вне контекста просмотреть комментарии, можно попробовать потренировать нейросетку, но это ничуть не менее долго, и все равно нужен массив образцов. Это время, и, самое главное — нужно как-то из контекста оценивать — стоит ли тег сарказм, s/, закрыт ли он после сарказма, и что внутри остальных комментариев. Может, автор комментария обычный гречневый (ранее: глубинарий), или поридж (ранее: МД). Или у автора в силу каких-то причин присутствуют необратимые изменения МНУ, отчего он и строчит на хабр нетленки про всеобщую теорию всего — такого тоже полно. На этой неделе уже появилс пост не просто про Эйнштейн-неправ, но и про ходящую по краю «влияния Ориона на чакры» как-бы-почти-медицину.
Но — к делу.

За время с момента сбора статистики что-то пошло не так у следующих учетных записей:
https://habr.com/ru/users/AtmosferaVA/ — слив кармы в RO. Много минусов у пары комментариев.
https://habr.com/ru/users/shasoftX/ — слив кармы в RO.Много минусов у пары комментариев.
https://habr.com/ru/users/ItsNickname/ — карма 0, но RO. Бан то есть.
https://habr.com/ru/users/Polarisru/ — RO, но нет минусованных комментариев, удалены ?
https://habr.com/ru/users/SerJook/ — RO, но нет минусованных комментариев, удалены ?
https://habr.com/ru/users/VasiliyMakogon/ — RO, токсик конечно, в оставшихся комментариях типа такого резал правду иногда как есть. За что бан — не понятно.

К математике: (месяц считался как разница в днях между 21.02.2024 и регистраций /30 плюс 1, то есть 1.1 месяца шло за 2) :
Среднее число постов в месяц — 0.21
Среднее число комментариев в месяц — 7.87
Среднеквадратичное отклонение для постов — 3.02
Среднеквадратичное отклонение для комментариев — 20.74
Это означает, что кто-то пишет ОЧЕНЬ много постов — и это копирайтеры, пишушие про все подряд, плюс новости.

Возьмем только тех, кто пишет больше 1 поста в два дня или 15 постов в 30 дней. Ничего удивительного в списке —
https://habr.com/ru/users/marks/ — 7399 статей
https://habr.com/ru/users/ancotir/ — 2510 статей
https://habr.com/ru/users/daniilshat/ — 2305 статей (и новостей)
https://habr.com/ru/users/denis-19/ — 8228 статей (и новостей)
Кстати, больше 10 статей в месяц даже у меня, ну я и спамер.

Что, если больше 5 статей в месяц? Добавится
https://habr.com/ru/users/Bright_Translate/ — 400 статей, переводы,   Блог компании RUVDS
https://habr.com/ru/users/DrArgentum/ —  25 статей с 18 ноября 2023 — Блог компании Timeweb Cloud
https://habr.com/ru/users/Grigory_Otrepyev/ — это я.

Что, если больше 3? Добавится
https://habr.com/ru/users/habr_career/ — понятно
https://habr.com/ru/users/BabayMazay/ — Блог компании RUVDS.com
https://habr.com/ru/users/DRoman0v/ — Блог компании Selectel

Да вы издеваетесь, одни корпоративные блоги. Что насчет >2?
https://habr.com/ru/users/MaFrance351/ —  47 статей. Блог компании Timeweb Cloud

Что насчет > 1???
https://habr.com/ru/users/jasiejames/ — Блог компании FirstVDS
https://habr.com/ru/users/rukhi7/ — о, первый не корпоративный блог. 27 статей с 10 октября 2022. Что-то про С#.
https://habr.com/ru/users/tormozedison/ — 113 статей с 2015 года, но последняя статья 11 июня 2019. 5 лет не пишет, и все равно в топе по производительности.
https://habr.com/ru/users/CyberexTech/ — Блог компании Timeweb Cloud
https://habr.com/ru/users/MaksimEng/ — 9 статей с 2 августа 2023
https://habr.com/ru/users/N-Cube/ — Блог компании AdminVPS, не пишет с июля 2023. Компания AdminVPS временно не ведёт блог на Хабре
https://habr.com/ru/users/OldFashionedEngineer/ — Блог компании Timeweb Cloud
https://habr.com/ru/users/Suvitruf/ — 205 статей, не корпоративный блог — честные новости геймдева.
https://habr.com/ru/users/Tzimie/ — 90 статей, не корпоративный блог, пишет интересно про SQL и всякую космогонию.

Тем не менее, получается что всех, у кого больше 1 (одной) статьи в месяц — можно и нужно убирать из статически значимой выборки. Это всего 20 (двадцать) участников. Останется 1576, и распределение станет следующим:
Среднее число статей в месяц 0.03
Среднее число комментариев в месяц 7.44
Среднеквадратичное отклонение для статей 0.099
Среднеквадратичное отклонение для комментариев 18.79

От так вот. Средний участник дискуссий пишет 0.03 статьи в месяц.

Что с комментариями? Как-то не великоват ли разброс? Хотя я и сам флудер — был номер один, пока не слили карму, стал номер 2.  

Оказывается, всего 12 (двенадцать) человек из оставшейся выборки (1576 УЗ) оставляет больше 75 комментариев в месяц.
Уберем и их из статистики. Получим распределение: (округление round (x,4))
Среднее число статей в месяц 0.0306
Среднее число комментариев в месяц 6.307
Среднеквадратичное отклонение для статей 0.0979
Среднеквадратичное отклонение для комментариев 11.0683

Хорошо как упало отклонение с 18.79, а ведь убрал всего 32 человек из статистики, из 1596. 2% справа, получается.

Может, оценить молчунов с менее чем 0.1 комментария в месяц? Сколько таких? Таких в оставшейся выборке выше — 136 человек, 8.7%  

Встречается  удивительное:
https://habr.com/ru/users/fion/ — регистрация 6 ноября 2012, 1 (один) комментарий от 14.02.2024
https://habr.com/ru/users/g992/ — регистрация 7 мая 2019, 2 (два) комментария — 02.02 и 11.02.2024
https://habr.com/ru/users/nsinitsyn/ — регистрация 2 марта 2013, 1 (один) комментарий от 30.01.2024

Таких учетных записей, на самом деле, больше — судя по соотношению даты регистрации к первому комментарию или первой статье, многих заморозили в 2012–2016 и разморозили в конце декабря 2022.
Пока писал статью, разморозился еще один комментатор:
@viruslab — Зарегистрирован 15 октября 2011, 1 (один) комментарий 21.02.2024.
Или где-то баг обработки даты регистрации.

Сколько же молчунов с менее чем 0.2 комментариев в месяц, из, напоминаю, активных комментаторов последних 20 горячих постов? Их 221 из 1564, 14%.

Посмотрим на правила: https://habr.com/ru/docs/help/karma/
Голосовать за карму в плюс можно с рейтингом 2 и более. Из молчунов таковых 41 учетная запись.

Рассмотрим подробнее, например
https://habr.com/ru/users/Lodinn/ — 19 комментариев, регистрация 5 декабря 2012, первый комментарий 15.01.2024.
Смотреть по остальным таким учетным записям дату первого комментария уже лень. Случайная проверка дает разброс из серии «писал раз в год для корпоративного блога» и «пишет что-то раз в год», дальше автоматизировать расчет стало сложнее, потому что надо жать кнопочки Next в статистике, значит подтягивать selenium, что-то нажимать. Избыточно.

Ради чего все это писалось и считалось.
Во-первых, мне было интересно посмотреть, что в статистике. И немного попитонить в свободное время, не все же в алгоритмах сидеть. Хотя, алгоритмы полезные, даже что-то применилось.
Оказалось, что статистику можно было тащить из og: description и не огорчаться при виде русской К в учете комментариев и статей.
Во-вторых, у меня было несколько гипотез, в том числе:
Существует статистически значимая группа учетных записей, комментирующих что-то или раз в год, или зарегистрировавшаяся давно, но начавшая комментировать недавно.
Проверка: подтверждено, 248 комментаторов из 1564 пишут менее 0.25 комментариев в месяц. 15.85% . Выборочные примеры разморозки — выше.
Существует масса «только комментаторов».
Проверка: подтверждено. Только у 554 участников последней выборки (из 1564) было больше 0 (ноля) статей. У 1011, соответственно, статей нет.
Существует статистически значимая группа учетных записей, комментирующих что-то раз в год, но способная качать карму.
Сколько учетных записей имеют хотя бы 1 статьи и рейтинг 4+, чтобы можно было играть в кармослив ? 465 учетных записей.
При этом 316 участников выборки имели 0 (ноль) статей и карму > 1, то есть могли качать карму в положительную сторону.
Например, 0 постов, карма >1 и менее 0.25 комментариев в месяц из данной выборки у 29 учетных записей. Если поднять порог до 0.3 комментариев в месяц, то таких учетных записей будет 38.

Как-то так. Похоже, что корпоративные блоггеры, и не только, с увлечением играют в кармослив, в том числе и за неверие в остеопатию.

Прошлые статьи из цикла:
1. Скучные цифры статистики и невнятная попытка их показать
2. MHGA или как вообще подбирается новостная сводка?  
3. MHGA — что же могло пойти не так и куда бежать

Послесловие. Я вообще хотел и написал статью про оземпик, как продолжение этой, но, внезапно, статья про оземпик и статистика по нему набирают минусы, а остеопатия — плюсы. ШТОШ.

© Habrahabr.ru