Анализ статей Хабрахабр

image-loader.svg

Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

image-loader.svg

1 132354
2 47260
3 38671
5 25265
4 23349
NaN 54

Статей, в которых 5 хабов, стало больше, чем статей, в которых 4 хаба.

Самые большие хабы по количеству статей:

Чулан 29217.0
Программирование 14972.0
Информационная безопасность 14417.0
Разработка веб-сайтов 13796.0
IT-компании 11741.0
Научно-популярное 10972.0
JavaScript 7864.0
Гаджеты 7334.0
Системное администрирование 5706.0
Компьютерное железо 5685.0
Я пиарюсь 5637.0
Разработка игр 5465.0
Разработка мобильных приложений 5318.0
DIY или Сделай сам 5295.0
Open source 5223.0
Разработка под Android 5150.0
IT-инфраструктура 5076.0
Законодательство в IT 5073.0
Карьера в IT-индустрии 5015.0
Python 4885.0

В хабе «программирование» стало больше статей, чем в хабе Разработка веб-сайтов.

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Чулан 29125
IT-компании 5652
Я пиарюсь 5573 Информационная безопасность 4244
Разработка веб-сайтов 2753
Настройка Linux 2117
DIY или Сделай сам 1821
Разработка под Android 1820
Социальные сети и сообщества 1790 Компьютерное железо 1780
Гаджеты 1657
Habr 1647 Законодательство в IT 1521 Программирование 1131
PHP 1064
Java 1048
Разработка игр 1006
Научно-популярное 984
Управление проектами 981
JavaScript 979

Здесь все осталось примерно также.

Количество статей в зависимости от времени

Количество постов за месяц:

image-loader.svg

За год:

image-loader.svg

К 2018 количество статей уменьшилось, но затем снова возросло.

В хабе «Математика» за месяц:

image-loader.svg

В хабе «Математика» за год:

image-loader.svg

За исключением 2016 года количество статей росло.

Хаб «Космонавтика» за месяц и за год:

image-loader.svgimage-loader.svg

К 2021 году количество статей достигло уровня 2015 года.

Хаб «Хабрахабр» превратился в хаб «Habr»:

image-loader.svgimage-loader.svg

В 2019 году количество статей немного возросло, но по-прежнему уменьшается.

Облака ключевых слов и отдельных хабов

Здесь ничего не изменилось. Текст выглядит по-другому, так как использовала wordcloud python.

Хаб «Математика»:

image-loader.svg

Хаб «Программирование»:

image-loader.svg

Хаб «Java»:

image-loader.svg

Хаб «Open source»:

image-loader.svg

Хаб «Машинное обучение»:

image-loader.svg

Частота встречаемости слов

Здесь не хватило ресурсов для подсчета всех словосочетаний. Можно увидеть как появляются новые термины на примере слова «ковид». В 2013 году термин есть потому, что автор дополнил статью в 2020 году.

image-loader.svg

Средний и суммарный рейтинг по годам и месяцам

Средний рейтинг по годам:

image-loader.svg

Суммарный рейтинг по годам:

image-loader.svg

Средний рейтинг по месяцам:

image-loader.svg

Суммарный рейтинг по месяцам:

image-loader.svg

Посты с максимальным количеством

Комментариев: Судьба предателя, угнавшего новейший МиГ-25 в Японию

Рейтингом: Делаем приватный монитор из старого LCD монитора

Количеством плюсов: Делаем приватный монитор из старого LCD монитора

Количеством минусов: Первый пост

Добавлением в закладки: 300 потрясающих бесплатных сервисов

© Habrahabr.ru