Паблик «Щастьематринства» и его небольшое статистическое исследование

Введение (январь 2018)


Иногда люди берутся за дела с которыми сами справиться не могут. И я не исключение.

Есть такая интересная группа ВК — #щастьематеринства (https://vk.com/zaiki_luzhaiki). Она представляет из себя один из самых феерических источников грубого реализма. Если вы хотите разочароваться в семье, детях, мужьях и всем чем угодно, вам туда. Экзистенциальный кризис вам обеспечен (хотя бы фактом того, что там пишут по 15 постов в день и это настоящие люди). И, конечно, этим паблик и во многом привлекателен.

В какой-то момент у меня и жены, которая работает перинатальным психологом, возник интерес в исследовании того, что в этом паблике происходит. Например, наложить банальные статистические методы на содержание паблика, а вдруг чего интересного там есть. Особенно хотелось сделать какой-нибудь громкий вывод. Дескать паблик помогает людям… Или паблик рождает в людях ненависть… Или еще что-то такое выразительное.

upc7gt0syvqpyllm68oolh-90hs.png


В итоге количество всего исследованного разрасталось.
Количество промежуточных выводов росло.
Количество графиков, таблиц росло.
А количество понимания, как это оценивать не прибавлялось.

Промежуточные выводы уносили фантазию к сложным мало на чем основанным построениям, но по-большому счету, вывод напрашивался один. Очень интересно и захватывающе, но достаточно статично. Бесконечный цикл повторяющихся один в один проблем, которые всегда единообразно оцениваются участниками процесса. Какая-то бесконечная сансара в которой ничего не меняется толком. Волнами приходит движуха и волнами уходит, не оставляя следов.

Оставалось все-таки подвести итог и написать по этому вопросу что-то красивое. И на этом все умерло. На пол года. Эта задача оказалась неподъемной. Не смог я, не смогли другие люди.

Но что-то сделано и надо это показать. Поэтому смотрите. Оно не прям объективно-объективное и непредвзятое. Многие вещи, которые есть в этом паблике, вызывают у меня отторжение и это чувствуется. Но вы всегда можете смотреть только на графики и таблицы, а выводы делать сами.

Кратко, что есть в тексте:

  • Общие тенденции
  • Нарушения правила нейтралитета со стороны администрации и участников
  • Популярные слова, пары слов, и всякие сочетания
  • Использование мемов и мата
  • Концепция идеального поста в паблике

(В тексте есть некоторое количество нехороших слов, но чисто из научных соображений, во время исследования частотности использования оных)

Введение (август 2017)


Группа #щастьематеринства (https://vk.com/zaiki_luzhaiki) крайне интересный феномен эпохи соцсетей. Огромная частота постов. В среднем 13–17 постов в день. При этом никакой рекламы и всяких отвлекающих от сути перепостов. Только аутентичный контент. В основе концепции группы анонимные публикации с запрещенными комментариями. Авторы постов — мамочки, утомленные различными обстоятельствами материнства. В целом в группе достаточно разумные правила для такого сообщества и его контента.

При всем этом достаточно сильно идеологизированная администрация позволяет себе комментировать или встраивать в посты ссылки на свою программную литературу вроде книг — «Мужчины, которые ненавидят женщин, и женщины, которые их любят» и записи личного блога главного создателя группы. Ну и сами мамочки периодически пытаются вести переписку, вставляя ссылки на предыдущие посты в свои собственные. Администрация, некоторое время с этим боролась, вставляя после таких постов подписи в духе «От администрации — вы понимаете, что это на свой страх и риск, ответить вам может кто угодно. Будьте бдительны.» Потом бросила. В общем, процесс происходил достаточно активный.

Ещё интереснее было бы проследить за реакциями мужей на это. Но отдельной группы реакции на это сообщество нет, поэтому статистики нет. Хотя ходят слухи, что у мужей бомбит нехило. Особенно от нежных названий их в группе «нитакой» и «мой мудчина». Однако это все не проверяется, к сожалению.

Некоторые из таких процессов как: вмешательства администрации, использование характерных слов, общение мамочек, динамика негатива и т.д. я тут постараюсь достаточно поверхностно рассмотреть с точки зрения всяких цифр и простых математических моделей.

Не могу сказать, что везде получилось что-то избыточно необычное и захватывающее, но определенные моменты крайне выразительны.

Посты собирались от создания сообщества до 25 августа 2017 года.

Количество слов в посте


Хотелось проверить, а вдруг надоело писать за все это время? Вдруг все стали более лаконичными и унылыми. Но нет. Ничего не меняется.

nb3rffskbcn7mi65z2fbxbsmufk.png

Примерно одинаковое среднее количество слов всегда. Хотя, если закрыть глаза на выбросы в середине, можно нетвердо предположить, что люди становятся немного многословнее. Чуть-чуть. Видимо начитанность этой же группой дает матерям возможность использовать дополнительные речевые обороты в описании своего несчастья.

Количество постов в месяц


Тут наш вопрос такой. Какая активность была в группе все это время? Может постов стало больше? Или меньше? Или вообще как? Сделали самое простое. Посчитали количество постов в месяц за все время существования группы (красным тренд, полученный с помощью аппроксимации полиномом 6 порядка (не спрашивайте почему 6-го)):

mmbv175w-4c5ycd9p6nmrtlv168.png

Если, смотря на картинку, мы предположим, что в июне и июле 2016 был достаточно необычный спад активности, то вырисовывается вполне очевидная сезонность потока постов недовольных мамочек.

Наиболее активны в выражении недовольства мамочки летом. Наименее активны зимой.
Возможных объяснений может быть много. Например:

  1. Зимой все равно особо ничего интересного не поделаешь, а летом кажется, что вся жизнь проходит мимо, пока ты сидишь с ребенком.
  2. Зимой и так плохо, поэтому нет выразительных причин рационализировать это через проблемы материнства
  3. Зимой мамочки ??? меньше рожают???, а достаточно большой поток недовольства связан с родами и тем, что после них. Вот тут про частоту рожания по месяцам


Выбирайте объяснение, которое вам нравится….

Количество лайков в месяц


Смотреть само по себе среднее количество лайков в месяц достаточно бессмысленно, потому что количество людей в группе постоянно росло, понятно, что и с лайками что-то такое же должно происходить. Но посмотрим.

9v2tobl5t_kuh68ylbe7dz1hf84.png

Не имея возможности влезть своими гадкими ручонками в официальную статистику группы, можно предположить, что примерно таким образом менялось количество пользователей в группе. И количество лайков, в целом, просто зависит от количества пользователей в группе. Но я попробую использовать более хитрый показатель.

Я считаю, что «количество постов за месяц» Ni это неплохой показатель активности. Теперь если мы разделим среднее количество лайков Li на Ni, мы получим некоторый хитрый показатель типа- «какую часть от среднего числа лайков породил один пост в этом месяце ». Т.е. как бы некоторую оценку «порождающей способности» постов производить лайки.

nvfhptbttjtyvugrsymuxa5iklw.png

И тут появляется интересная вещь. Мы видим сезонность обратную сезонности постов. Очевидно, потому, что у нас это количество постов в знаменателе. О чем это нам говорит? Это говорит или о том, что мамочки может быть и не пишут зимой свои посты, но читают чужие и лайкают их не менее активно, чем летом. Или о том, что мамочки тут вообще ни при чем, и лайкают по большинству люди, которые в группу не пишут. И это мне кажется наиболее реалистичным объяснением.

Количество постов в месяц как показатель активности для лайков не работает. И это достаточно интересный вывод для такой группы. Хайп создается не теми людьми, которые создают контент группы.

Активность по дням недели


Мы достаточно резонно предположили, что количество лайков неплохой показатель количества людей в группе. И, глядя на график лайков, можно предположить, что в первой половине 2017 года происходит некоторая стабилизация количества пользователей. Поэтому активность по дням недели считалась в эту первую половину 2017 года, как в стабильный период группы. 0 это понедельник. 6 это воскресенье.

wvkhxm1kh3_yb9jinknxgjfn5sy.png

Комментарии практически излишни, хотя можно предположить, что в воскресенье админы забивают выкладывать и выкладывают большую часть в понедельник.

Одно из альтернативных объяснений гласит, что самый пиздец наступает в выходные, когда все сидят дома и муж требует, ребенок требует и света белого не видно. Одновременно при муже, естественно, такого рода посты писать не будут. Поэтому как только утром один уходит на работу, а другой в садик/школу мамочки садятся писать сочинение в паблик — «как я провела выходные.»

Вмешательство администрации


Грязными ручонками, конечно, сразу интересно искать, кто где поднасрал, нарушил правила (потому что может) или еще какую гадость сделал. И главным действующим лицом тут, конечно, является администрация, которая лезет со своими оценками и советами как-жить-правильно, при этом не давая другим делать тоже самое.

Администраторы достаточно любезно выделяли свои высказывания в постах записями «от адм:» или «от Демаковой:» и т.д. Но не все из них были «неадекватными». Некоторые были просто информационными, вроде того, что было приведено во введении, дескать, нельзя, не пишите, будьте осторожны…

Таким образом, я отфильтровал информационные послания и оставил только наглые (в силу невозможности дискуссии) советы как жить несчастным автор_кам. И получил такой интересный график:

phiqvhefwlyvkurj163qcfrp7ly.png

Сразу как бы видно, кто хотел поиграть в бога, но ему это быстро поднадоело. За полгода пыл общительности немного угас. Правда последние месяцы они демонстрируют некоторую активизацию. Видно летнее увеличение активности захватывает и их тоже.

Общение мам в обход правил


Мамы не меньше чем администраторы жаждут что-нибудь нарушить и написать что-нибудь лишнее в обход правил. Для этого они опять-таки любезно вставляют в начале поста ссылку на тот пост, которому отвечают. Тем проще мне все это пересчитать… Правда?

mhgpkdzhoxj2iec3-vjzta3b2ik.png

Интерес к общению пробуждается и генерируется приходом новых пользователей. Когда новые пользователи не приходят, видимо одинаково отвечать на очень схожие жалобы становится просто неинтересно. Таким образом наиболее стабильный по составу группы период характеризуется достаточно резким уменьшением количества фидбека.

Правда есть еще один вариант. Админы более жестко стирают ответы теперь.

Частотность слов


Большое мучение — пытаться изобразить динамику популярности (частотности) слов в постах, Поэтому я тут оставлю только 2017 год, хотя есть определенные изменения приоритетов с 2015 года. Естественно все слова представлены своими «корнями», чтобы объединить в одно разные формы одного слова: «ребенок», «ребенка», «ребенку», …

Стоит оговориться, что ребенок это не просто слово ребенок. Это еще слова типа дети, сын, дочь и т.д. «Муж» это еще «нитакой», «благоверный» и т.д… «Время» включает в себя «год», «день», «час», «неделя» и т.д. Если их не объединять, эти формы слов с одним содержанием заполоняют всю таблицу популярных слов.

Наверху самые популярные слова, вниз их популярность уменьшается.

(2017, 1)
(2017, 2)
(2017, 3)
(2017, 4)
(2017, 5)
(2017, 6)
(2017, 7)
(2017, 8)
ребенок
ребенок
ребенок
ребенок
ребенок
ребенок
ребенок
ребенок
время
время
время
время
время
время
время
время
муж
муж
муж
муж
муж
муж
муж
муж
мам
прост
прост
прост
прост
мам
мам
прост
прост
дом
мам
мам
дом
прост
прост
мам
мог
мам
хоч
дом
мам
одн
хоч
род
дом
одн
одн
мог
одн
мог
дом
дом
хоч
мог
ден
ден
работ
дом
одн
одн
ден
работ
дом
одн
хоч
хоч
жизн
ден
говор
говор
работ
работ
говор
говор
работ
жизн

Интересно отметить, но на начальных стадиях группы «муж» не имел такой значимости, как с 2016 года и мог не попадать в первую тройку. Видимо общий несколько мизандрический дискурс сформированный создателями, прибавил значимости мужчин, как причин неприятностей материнства (трудно представить же, что за последние 2 года мужья действительно стали сильно хуже).

В целом, главные проблемные темы матерей достаточно очевидны. Отсутствие времени, возможностей, помощи со стороны мужа, нереализованные желания, проблемы с работой, с домом и кто чего кому сказал.

Частотность тэгов


Одним из важных показателей содержания группы являются использованные хештеги. Они показывают какие темы форсятся в текущий период. Напротив хештега указывается, сколько раз он упоминался. Хештеги, которые были использованы менее 5 раз не показываются.

(2017, 4)
(2017, 5)
(2017, 6)
(2017, 7)
(2017, 8)
щастьематеринства — 52.00
щастьематеринства — 54.00
щастьематеринства — 78.00
щастьематеринства — 81.00
щастьематеринства — 60.00
счастьематеринства — 7.00
щастьяматеринства — 7.00
щастьебытьженой — 11.00
родыомолаживают — 31.00
родыомолаживают — 58.00
щастьяматеринства — 5.00
щастье — 7.00
щастье — 6.00
щастьяматеринства — 9.00
нитакой — 6.00
щастьебытьженой — 7.00
щастьебытьдочерью — 5.00

В принципе, до лета 2017 года хештеги массово не использовались, кроме хештега названия группы в различных формах. Летом 17 года вот стала популярна тема «омолаживания родами». Хештег «нитакой» не прижился.

TF-IDF


В наиболее частых словах обычно нет никакой специфики тематики. В принципе, понятно, что раз группа про материнство, то тут про мам, мужей, детей и всякие такие вещи. Но было бы интересно узнать, а что специфически волновало людей в разные периоды существования группы. Для этого используется вот этот самый критерий сортировки TF-IDF. В данном случае разновидность для 6 месячных периодов (окон) для расчета IFD.

Я не буду объяснять, что это такое, но это типа самое главное, что волнует людей помимо генеральной линии всего паблика в этот период. Слова, которые очень часто именно в этот месяц и их практически нет в предыдущих 6 месяцах.

(2017, 1)
(2017, 2)
(2017, 3)
(2017, 4)
(2017, 5)
(2017, 6)
(2017, 7)
(2017, 8)
рождеств
глобальн
март
выбешива
нитак
хаос
родыомолажива
родыомолажива
мертв
самоедств
позалипа
укат
засел
задуш
омоложен
курен
товар
старин
сдам
поваля
болт
медикамент
пидор
чесслов
зависа
молчат
поваля
новопасс
привезл
сарказм
огон
эпиз
взвыл
закида
запихнут
торопл
бактер
умет
тридца
сколиоз
круш
проживан
дипломат
хотяб
назовеш
ввяза
грохнут
исчад
выпива
фантик
закипел
выходк
комфорт
упас
потерпл
удаленк
плоск
родительск
женствен
настанет
влезт
хозяюшк
застирыва
густ
дежур
настро
хуйн
уничтож
пятилетн
госпитализирова
пульс
гипергидроз
бибик
интимн
отпрашива
вотпрямщас
уйдут
толчок
приполза
пекл

При этом надо отметить, что омолаживающие роды имеют крайне высокий показатель TF-IFD по сравнению с другими словами на первых местах ~40. Примерно в 10 раз больше, чем среднее значение первого места ~(3–4). Сравнимого значения достигло только слово «флешмоб» весной 2016 го вместе с некоторыми другими словами:

  • флешмоб 17.95
  • гендерн 16.32
  • желт 10.88
  • бежев 9.30
  • мимокрокодил 8.8


Боюсь даже представить, что это было.

Биграммы


Популярные пары слов, которые встречаются чаще всего.

(2017, 4)
(2017, 5)
(2017, 6)
(2017, 7)
(2017, 8)
чувствую себя
каждый день
каждый день
каждый день
после родов
каждый день
меня просто
целый день
после родов
каждый день
меня есть
после рождения
даже если
чувствую себя
весь день
целый день
меня есть
чувствую себя
надо было
чувствую себя
чувство вины
чувствую себя
надо было
весь день
после рождения
меня просто
может быть
моей жизни
меня есть
надо было
после родов
надо было
после рождения
после рождения
слава богу
можно было
весь день
целыми днями
последнее время
сразу после
даже если
момент, когда
того, чтобы
больше всего
можно было
весь день
после того,
всего этого
целый день
через месяц

Чувствуется, что некоторая рутина происходящего и чувство упущенных возможностей явно не радует. Впрочем это вывод банальный, как и то, что сразу после родов вечно какой-то треш происходит.

Чисто из спортивного интереса следует отметить, что частые биграммы очень связаны с мотивом настолько же частой темы времени в текстах. Гораздо меньше существует устойчивых пар про роды и еще меньше про мужей.

Дополненные биграммы


Сами по себе биграммы недостаточно раскрывают эмоциональность или контекст. Для этого мы попытались для каждой биграммы найти слова, которые попадаются наиболее близко к наиболее популярным биграммам (плюс 5 слов).

Биграмма
Слова, которые появляются рядом с биграммами часто
чувствую себя
[(матер, 10), (женщин, 7), (муж, 6), (мог, 6), (ужасн, 6)]
каждый день
[(одн, 21), (ребенк, 17), (дела, 14), (муж, 14), (кажд, 11)]
целый день
[(муж, 8), (игра, 6), (ребенк, 6), (мно, 5), (хоч, 5)]
меня просто
[(сил, 10), (мог, 4), (реб, 3), (любл, 3), (дума, 3)]
после родов
[(перв, 14), (год, 14), (беремен, 13), (месяц, 11), (сраз, 10)]
надо было
[(дума, 7), (дет, 5), (дела, 5), (говор, 5), (мат, 5)]
весь день
[(дом, 10), (муж, 10), (уста, 8), (ноч, 8), (ребенк, 8)]
после рождения
[(ребенк, 28), (сын, 11), (месяц, 10), (реб, 9), (нка, 9)]
даже если
[(игра, 6), (буд, 5), (муж, 5), (вечер, 4), (ребенк, 4)]
меня есть
[(очен, 6), (мог, 6), (сын, 6), (муж, 5), (одн, 5)]

Число слева от словоформ во втором столбце показывает, сколько раз в 2017 году это слово находилось на расстоянии менее 4 слов от биграммы в первом столбце.
Как это можно интерпретировать?

Например так, что наиболее частая проблема в том, что «каждый день» мама «одна». Что можно видеть из второй строки. А после «первых» родов что-то происходит «сразу.»

Однако смущает обилие «самых частых слов», которые свойственны любому тексту в этом паблике. Чтобы несколько исправить это, мы отфильтруем из поиска близких слов самые популярные. Таким образом мы сможем посмотреть какие слова специфичны именно для этих биграмм, а не для паблика.

Биграмма
Слова, которые появляются рядом с биграммами часто
чувствую себя
[(матер, 10), (женщин, 7), (ужасн, 6), (счастлив, 6), (последн, 6)]
каждый день
[(кажд, 11), (прост, 11), (чита, 10), (уста, 9), (ненавиж, 9)]
целый день
[(игра, 6), (мно, 5), (мультик, 5), (сход, 4), (рук, 4)]
меня просто
[(сил, 10), (любл, 3), (дума, 3), (убива, 3), (зна, 3)]
после родов
[(перв, 14), (беремен, 13), (сраз, 10), (волос, 9), (стал, 9)]
надо было
[(дума, 7), (говор, 5), (мат, 5), (прост, 4), (сосед, 4)]
весь день
[(уста, 8), (утр, 7), (ход, 7), (спал, 5), (орет, 5)]
после рождения
[(нка, 9), (младш, 9), (сраз, 5), (прост, 4), (нача, 4)]
даже если
[(игра, 6), (буд, 5), (вечер, 4), (равн, 4), (спит, 4)]
меня есть
[(сем, 4), (прост, 4), (знаком, 3), (подруг, 3), (чувств, 3)]

Триграммы


Наиболее частые тройки.

(2017 4)
(2017 5)
(2017 6)
(2017 7)
(2017 8)
чувство вины перед
через пару дней
вместо того чтобы
люблю своего сына
сразу после родов
достаточно сильной чтобы
вместо того чтобы
тоже мать виновата
вместо того чтобы
после первых родов
быть достаточно сильной
каждый раз когда
после рождения ребенка
каждый раз когда
самая большая ошибка
нужно быть достаточно
день после родов
только тогда когда
после вторых родов
могу себе позволить
мама мама мама
возня. возня. возня.
больше всего меня

Для августа было характерно, как мы можем видеть, писать посты про роды, но в принципе, за весь период с середины 2015 года основными темами триграмм были:

  • Выражение любви к ребенку, типа «люблю своего сына», «люблю своих детей», …
  • Выражение чувства вины — «чувствую себя виноватой», «чувство вины перед», …
  • Выражение чувства, что каждый раз, когда мама что-то…


Авторка и нитакой патриархальный мимокрокодил


Определенный интерес представляет использование некоторых специфических слов, характерных для группы и ее дискурса.

Фем-дискурс оказал на группу достаточно сильное влияние, в силу идеологизированности администрации. Поэтому интересна динамика проявления фем новояза в постах. Наиболее употребимым является искусственный феминитив «авторка» по отношению к пишущим мамам.

abv_33wmmnhj20oe9jieottqexe.png

Интересно то, что это слово переживало некоторый спад в использовании в начале 2017. Возможно это связано как раз с тем, что в эти моменты администрация не особо вмешивалась в жизнь группы. Именно она чаще всего употребляет это слово в своих комментариях.

Слово «патриархальность» не столь часто употребимо, но есть.

mnn62hqndadeqpcf5hpv5qyld5q.png

В общем, все нам намекает на то, что пик интереса к этой идеологии приходился на середину 2016 и тот самый «флешмоб», который в это время часто упоминается.

Но есть и другие характерные слова, взятые из разных контекстов. Например, слово — «мимокрокодил». Для тех кто не понял, это слово обозначает, например, комментатора, который влез в паблик со своим очень важным и полезным мнением. И в целом того, кто шел мимо и что-то сказал, а лучше бы шел мимо.

_yhlohaoovjv34coey0szgmrzyk.png

Начало и пик использования этого слова совпадает с пиком комментирования постов мамочек в группе. Слово явно возникло из неудовлетворенности результатами этого комментирования. В дальнейшем ответов на посты стало меньше и слово перестало так активно использоваться.

Ну и наконец обозначение мужа как «нитакого».

s74mmxjrc5bhog1071ius3o0ydu.png

Самый прекрасный график. Он показывает как мем приживается в группе, его использование становится повсеместным и количество упоминания нитаких начинает экспоненциально расти.
В целом, стоит отметить, что фемслова используются гораздо реже и хуже приживаются, чем специфические для тематики группы выражения.

Динамика негатива в группе


Возникает вопрос. А как группа влияет на авторов этой группы? Насколько они меняются? Может эта группа порождает в пишущих злобу и нетерпимость, которая растет с количеством постов? Или наоборот, осознание того, что у многих сходные проблемы успокаивает?

Мы решили это проверить так. Собрали список из «плохих» слов. Мы составили два списка. Я приведу тут укороченный второй:

обосра, бля, хер, пидор, хуй, охерительн, нихер, наебен, пизд, чобл, дерьм, затраха, еба, нахуй, хуе, нахр, fuck, заеб, мля, уеб, ебу, пздц

Далее мы смотрели, как по месяцам меняется среднее количество этих нехороших слов за пост.

lkaegetsy4ugshuvobe5blgk4d0.png

В целом видно, что количество поливалова со временем неуверенно падает. Возможно в этом прослеживается позиция администрации. Но может быть и нет, потому что хуесосить мужей, детей и родственников, администрация не против. Может просто это все делает нас немного добрее. Или просто всем надоело.

А как читатели оценивают это все? Сделает ли мат пост более привлекательным? Мы выбрали последние 6 месяцев (02.2017–08.2017) как наиболее стабильный промежуток в истории. Для него мы подсчитали среднее количество лайков, в зависимости от количества нехороших слов в посте.

7tuk8ubujtjao_f36johict50uk.png

В среднем корреляция не слишком убедительна с учетом разброса оценок. Поэтому, можно смело считать, что если ругаться как сапожник, больше лайков не вряд ли получишь.

Самые «отлайканные» слова


Остается вопрос. А какие слова приводят к тому, что пост оценивают положительно? Вроде мы показали, что всякая ругань не очень помогает. Тогда эксперимент надо провести так.

Мы смотрели посты за последние 6 месяцев. Для каждого из возможных слов, находящихся с этих постах, запоминали, сколько лайков получил этот пост. Проходили по всем постам. Для каждого из слов набиралась некоторая выборка лайков. У этой выборки считалось среднее, если выборка получилась достаточно большая.

Таким образом выделялись слова, которые присутствовали ТОЛЬКО в постах, которые обычно набирали количество лайков сильно больше среднего:

идите, выписки, рожать, мужчина, говорит, должны, мужик, годы, ребенку, готовить, детства, нахуй, новые, нашу, деньги, твоей

Разброс «количества лайков» за эти слова от 370 до 440, при общем среднем 290.

Наименее удачные слова


Если можно проверить самые удачные слова, также можно проверить слова, которые «гарантировали» отсутствие лайков и среднее количество лайков «за слово» было сильно меньше среднего.

температура, страшно, срываюсь, истерика, пережить, отказывается, кашель, истерики, лицом

Разброс лайков «за такие слова» составляет 214 до 230, при общем среднем 290.

Слова приводящие к наименьшему стандартному отклонению в оценках


Но кроме непосредственно слов с лучшими и худшими оценками можно еще найти такие слова, для которых оценки за посты с этими словами всегда были сильно похожи. Такие слова, которые как бы «гарантировали», что оценка поста людьми не будет сильно меняться. Слова наиболее сильно влияющие на оценку, не важно какую. Негативную или позитивную.

ней, бывают, орущего, дикий, грудь, только, мало, внезапно, один, нее, маму, вместе, хотела

Стандартное отклонение для этих слов варьируется от 73 до 88, при среднем 190.

Концепция идеального поста


Осталось придумать, какой сюжет может вызвать наибольший и наименьший резонанс. С идеально недооцененным постом все достаточно просто. Его сюжет прослеживается из набора «недооцененных» слов достаточно четко.

Мой заболел. Температура 39.8, кашель. Отказывается есть, закатывает истерики, кидается вещами и страшно злит. Я срываюсь и у меня тоже истерика. Все время хожу по дому с недовольным лицом. Как все это пережить?

Естественно, такой пост, который будет супернедооцененным и содержит в себе все «плохие» слова, можно снабдить большим количеством подробностей и сделать более похожим на реальность, но мое дело просто передать сценарий, который не вызывает у окружающих сострадания.

И интересным аспектом этого сценария является то, что он недооценен вследствие того, что нет образа врага. Ребенок заболел и истерит. Мама тоже не выдерживает. Это все логично и понятно, хоть и неприятно. Нет того, кого бы тут можно было закидать какашками. В общем… Нечего жалеть, нечему сочувствовать.

С набором хороших слов все несколько сложнее. Идеальной картины не вырисовывается, кроме того, что там должен быть муж, роды, выписка, деньги и годы… желательно потерянные. Но можно попробовать.

Сразу после выписки, в тот же день, мужчина говорит, что он нихуя делать не будет. Нашу квартиру убирать, рожать и готовить должны женщины. При этом, как деньги зарабатывать, так он тоже нифига не при делах. Мужик, нечего сказать. На этого урода я потратила годы своей жизни и должна столько же отдать его ребенку? Суки нитакие, — «идите вы все нахуй

Явно выраженный антагонист в виде мужа вполне может гарантировать вам довольно много лайков. При этом очевидно, что в роли антагониста может выступать практически любой. Например, врач в роддоме или бабушки с дедушками.

Обобщение/Заключение


Огромное количество всяких произведенных разрозненных измерений не дает (по крайней мере мне) написать красивое, сочное заключение с глобальным выводом о жизни.

Поэтому немного неуверенных микровыводов списком:

  • В среднем в каждом посте примерно 100 слов и это ни от чего не зависит и не меняется. Но это не обязательно
  • Зимой мамы менее активно пишут о проблемах
  • Пик количества постов по понедельникам
  • Лайкают всегда примерно одинаково и количество лайков зависит, в основном, от размера группы
  • Админы вначале сильно вмешивались, потом им надоело. Но они все равно не правы
  • Культура «комментария к посту в другом посте» радостно родилась и умерла за эти два года
  • Последние месяцы форсится мем — «родыомолаживают». Весьма успешно
  • Группа формирует свой новояз, которым пользуется. (мимокрокодил, нитакой, мудчина,…)
  • Мат в группе уже не так популярен, как раньше, но есть вероятность, что если хорошо проматериться, вас оценят. Но это не обязательно
  • Если вы хотите лайков, пишите, что кто-то очень плохой и вас обижает. Если все плохо, но никто в этом не виноват, шиш вам, а не лайки


Вот, собственно и все… Есть в этом всем некоторые методологические недоработки. Нет адекватного сравнения, например, специфического словаря паблика с внешним (или базовым) словарем. Некоторые чуть более глубокие и веселые вопросы, связанные с использованием нейросетей и генерацией постов тоже мимо. Опять-таки, никаких примеров кода. Но это бы все еще больше раздуло, а посчитать слова на питоне и воспользоваться nltk скорее всего все смогут и сами (более того, я не лучшая ролевая модель питониста, чтобы хвастаться кодом).

Если у вас появились собственные инсайты и интересные идеи из всего этого, я всегда готов послушать.

© Habrahabr.ru