Анализ статей Хабрахабр и Geektimes

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github.
Анализ хабов
Распределение количества хабов, в которых размещена статья:

Самые большие хабы по количеству статей:

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Граф связей не делала, т.к. не собирала список хабов отдельно.
Количество статей в зависимости от времени
В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.
Количество постов за месяц:

За год:

В хабе «Математика»:


Хаб «Космонавтика»:


Хаб «Хабрахабр»:


Количество изображений (видео), используемых в постах в зависимости от времени








И в отдельных хабах:






Облака ключевых слов и отдельных хабов
Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4, Pi/4}) рисовала все по-умолчанию:


Хаб «Математика»:

Хаб «Программирование»:

Хаб «Java»:

Хаб «Open source»:

Хаб «Машинное обучение»:

Сайты, на которые ссылаются в статьях

Убираем Хабрахабр как источник ссылок:

В хабе «Математика» (без Хабрахабра как источника ссылок):

Хаб «Разработка под iOS»:

Хаб ».NET»:

Коды, которые приводят в статьях
Без SomeCode (если не указан язык программирования):

В хабе «Алгоритмы»:

В хабе «Программирование»:

В хабе «Настройка Linux»:

В хабе «Машинное обучение»:

Частота встречаемости слов






В хабе «Разработка под iOS»

В хабе «Разработка под Android»:

Частота употребления названий операционных систем в хабе «Open source»:

И на Хабрахабре/Geektimes:

Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений




Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.
Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}
Вероятность, того, что пост наберет определенный рейтинг:

Вероятность, того, что пост наберет определенное число просмотров:

Зависимость рейтинга и числа просмотров поста от времени публикации
















Зависимость рейтинга поста от его объема




Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.
Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:

Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:

Посты с максимальным количеством
Изображений: «Обзор почтовых клиентов под Android, или как я почтовик выбирал»
Комментариев: «Как раздавать инвайты на Google+»
Рейтингом: «Делаем приватный монитор из старого LCD монитора»
Количеством тегов: «Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году»
Просмотрами: «Взломать Wi-Fi за… 3 секунды»
Количеством видео: «DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС»
Количеством ссылок: «Лженаука и аферисты. Фальшивые научные журналы»
Текста: «Создаем клон Flappy Bird — Zombie Bird»
