Анализ статей Хабрахабр и Geektimes

b52da53597c1466da00afeab9d751c05.png

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github.

Результаты обработки данных

Анализ хабов


Распределение количества хабов, в которых размещена статья:

8e6675aa035a40c98a1e9effec9253fd.png

Самые большие хабы по количеству статей:

dbbc4c9a61a84390950b0c883463e4eb.png

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

4127b08ef51f4e32860f20aef4ec27ab.png

Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени


В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:

23d4faac96a941af8016114c90f75a6e.png

За год:

a2d5fad3f81a4aa0a6553984f7080a96.png

В хабе «Математика»:

f89711946d474ce7b1e4c22af9ef0811.png

3b5a61264a584fda914b25edceaba61f.png

Хаб «Космонавтика»:

170afbbe50b04a6293ca87537becb29a.png
44c4a3d9643b4c8ab7d749ff250cff79.png

Хаб «Хабрахабр»:

128d359adc004fee9bf721f0ed1d874f.png
8c1fc7ddde854bc491f1e1cec40ddbf1.png

Количество изображений (видео), используемых в постах в зависимости от времени


903ebba7125d43ba879d86a23b13bcc6.png
3e2bf98d6c4242df99791a24c287a3c3.png
137f0d72b3164c7d93ce63dbeefb8ebf.png
8a1e61596e4c410aad9b2ffb59fa357f.png
c2f320d1fafc4360b481ae7778074cfa.png
8927bfc3391249638fade48ddf13708b.png
8fae4f6179ce4b20812321e5205ffb24.png
2cdbd8b69fc84fc59e05eb7f993e5154.png

И в отдельных хабах:

b2c953c8a6b74acdb02d9a9cbe996e06.png
68c9f2623904465b94f6bd5626ab439f.png
f8c7c3fb60104bf8996100490d80263d.png
5a913816d4644e1e83301309747a2687.png
af3f3218378743aba08c69afcb197e75.png
cccb8ee0a3ac43749758e3b212e60e0a.png

Облака ключевых слов и отдельных хабов


Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4, Pi/4}) рисовала все по-умолчанию:

74efb642832a40f8b2b79a541899de67.png
8e753833a04544dc9a6400367da70a51.png

Хаб «Математика»:

037b7ee1b9cf4772989cd7063b9b4feb.png

Хаб «Программирование»:

963dbee0d6f74afcba43b0d095c27f24.png

Хаб «Java»:

b498da810a4d4754b7b752111e7b7eb5.png

Хаб «Open source»:

caf90e83ad3645d3ace85773b55d35bb.png

Хаб «Машинное обучение»:

822079438a2e40c08a45ddef69f2b3b2.png

Сайты, на которые ссылаются в статьях


53c7ab67a6d44afea8d9a19f2e47fbb1.png

Убираем Хабрахабр как источник ссылок:

2b0e6704f1a242b3a5dfd25a52cb0144.png

В хабе «Математика» (без Хабрахабра как источника ссылок):

d037617f24a84fe9ab5f0cf506150740.png

Хаб «Разработка под iOS»:

a20212fa1499460f9c39198c07825c21.png

Хаб ».NET»:

a1061115386c45a7a6fd01cb5c8144eb.png

Коды, которые приводят в статьях


Без SomeCode (если не указан язык программирования):

62822f2b7df84a4cb1d4e42884b80e79.png

В хабе «Алгоритмы»:

aeb3efd20d8f4c2bb582bb1c1972320a.png

В хабе «Программирование»:

d52208a7657d46e0a5605ce55b0851fa.png

В хабе «Настройка Linux»:

4e201dbcb9a94693917b9502523470f0.png

В хабе «Машинное обучение»:

2966b9536d1d4423852456af1cebf2d2.png

Частота встречаемости слов


ea1e0efa675d45baa190947e60e81e08.png
63772f24540c4e9c8467c4c06e7b20b7.png
1e33dfe209fd45c0b593c1652d4fd8b9.png
4c7ddbb7c764473b916f281a928b8c6c.png
1d988cae7950445d93b1fe5f9b1334ad.png
6468e74a97ff4703a212211ede932ab4.png

В хабе «Разработка под iOS»

8bece1209f784efdbec387ce97af5e23.png

В хабе «Разработка под Android»:

9f40e337d395449ca9bcf4dc40a671c1.png

Частота употребления названий операционных систем в хабе «Open source»:

206ce1b82cb84831812e883f98d39308.png

И на Хабрахабре/Geektimes:

b2e4dc45f4c3499da90eed5c2f1d9078.png

Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений

47f6cc7ec383402fb2f5439fa4362aab.pngc722df685e4f4d009145a529b3f519f3.png
ecdbadd0672c4bce8f5722cbe36c041a.png9a819f6574744c7fa09a2130764df395.png

Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}

Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:

b5683c175fab439aa231fc714bffcadb.png

Вероятность, того, что пост наберет определенное число просмотров:

2d3a470f98da4b8aae958ffd9fa83b15.png

Зависимость рейтинга и числа просмотров поста от времени публикации


8db1fefbb22a4da3a89155dec49f45db.png

b51d806d76d44cb4a73f08aee5383f52.png

41f7d96922be4ec68293b9a2ae22482c.png

5f30e5b2e48044a4beeb4c561f6ae305.png

b544b2b3f0a648f49ae5b18791ed240d.png

d5237a67a0954f929d3262c843ebb6a7.png

1900c64d81c44b7a84dacc4ae3c0ec79.png

b3a7c6e9c00f4a6d82256bf335811988.png

a87a8b06a8dd4c67a5a0cc744af7886e.png

97ec000be4de4264a26ff685d0f6b3a5.png

471b537d3e554d56901de51453b773f7.png

636f258e161245048fe7ace4db376862.png

aea97d4bcece452c8b549888454787b7.png

63cf957c0d3c4537b852b94914dd1720.png

76f79576886340d0949cb1306aace669.png

96187c971a934c49b3894de07c3db722.png

Зависимость рейтинга поста от его объема


3d4e42e1789447bbb81c9bb2fb0577c2.png718c32a8c08e4d6397e602f6375a20b6.png
f51f5575fed64c44baafb2506ee60b37.pngb85695aa526d4016ba2a70eef32f7efd.png

Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:

be1ecb5d3e5b4ddea4ff8dd427539944.png

Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:

4de0a771eba94e6caf6ec575131fc9b3.png

Посты с максимальным количеством


Изображений: «Обзор почтовых клиентов под Android, или как я почтовик выбирал»
Комментариев: «Как раздавать инвайты на Google+»
Рейтингом: «Делаем приватный монитор из старого LCD монитора»
Количеством тегов: «Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году»
Просмотрами: «Взломать Wi-Fi за… 3 секунды»
Количеством видео: «DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС»
Количеством ссылок: «Лженаука и аферисты. Фальшивые научные журналы»
Текста: «Создаем клон Flappy Bird — Zombie Bird»

Комментарии (0)

© Habrahabr.ru