Чисто научный подход: чего хотят женщины и о чем говорят мужчины

Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова — это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом «разложила по графичкам». Цель была — сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу. 

Код парсинга и ноутбук анализа доступны на GitHub

43f34266f9ab964eb9048c9c040ad1dc.png

Почему спарсилось так мало женщин?

Вот это вопрос, ответ на который знает только Вселенная. Сначала у меня был датасет из 80К анкет женщин, и аж 180К анкет мужчин. Пришлось дозапускать парсер с условием отбора «женских» анкет, чтобы получить хотя бы 140К женщин.  Соответственно, «мужские» данные сократила также до ~140К. 

К слову, парсила я около 3 недель — процесс оказался небыстрым. Я использовала простой get-запрос из библиотеки requests в Python, а потом вытаскивала нужные мне характеристики с помощью BeautifulSoup и регулярных выражений, а именно:  

К полученным данным добавила дополнительные поля:

Также я упростила (сгруппировала) разнообразие целей пользователей на 6 групп: флирт, отношения, семья, друзья, неуверенные (те, кто перечисляют очень много целей, от пяти) и те, кто не указали цель.

И еще спарсила текст в графе «О себе». Вы относитесь к тем людям, которых раздражает, если пользователи не пишут на сайтах знакомств ничего в этой графе? Я — да. Если вы в моей лодке, то, к сожалению, нам придется раздражаться в 92% случаев — ведь я получила именно такой процент анкет, где в этой графе было так же пусто, как в космосе. Что же хотят эти люди? О чем мечтают? Об этом поговорим еще немного позже. 

Также очень неохотно люди писали о своих жилищных условиях (всего 20%), своем весе (всего 23%), наличии табачной зависимости (25%) и детей (26%) и почему-то — об уровне образования (тоже 26%). 

Демографическая сводка не хуже, чем у Росстата

Да, совсем не стесняюсь так говорить. Потому что у меня было так много данных, что можно было бы даже не применять статистические тесты на проверку «правдивости» сравнений и закономерностей, которые я получала (пишу «закономерностей» в кавычках, потому что в статистике в этом контексте говорят слово «значимость» — но, на мой вкус, лучше смысл феномена отражает слово «правдивость»). Тесты я, конечно, делала: хи-квадрат, t-test, смотрела коэффициенты асимметрии и всякое такое. Но в моем случае уже действовал закон больших чисел: когда данных много, среднее их значение приближается к математически ожидаемому. Короче говоря, чем больше данных, тем более правдивые выводы можно на них делать.

А еще я выбросила из основного анализа данные людей, старше 45 и младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны), потому что их было подавляюще мало, но они образовывали «хвосты» или выбросы в данных. И после этого почти всегда данные были распределены почти нормально, еще один плюс «за» то, чтобы ограничиваться мерами центральной тенденции, т.е. простыми средними или наиболее частыми значениями. Поэтому для числовых значений я так и сделала, и смотрите, какие портреты мужчин и женщин, пользователей сайта mamba.ru, я получила:  

  • Средний возраст пользователя — 31.

  • Средний вес — 70.

  • Рост — 172 (кстати, любители высоких, максимально обозначенный рост в анкете был 220 см: так что ищите, и вы обязательно найдете своего великана).

  • Средний возраст ожидаемого партнера — 27. 

Посмотрела, чтобы удостовериться, есть ли корреляция в возрастах между теми, кто ищет, и теми, кого ищут. Закономерно, корреляция практически прямая: более старшие ищут более старших.

f5c798ab6a5b708fb084c9de1eb6fd3a.png

А что у нас по детям? У кого сколько? Тут, на мой вкус, получилась ну прям мега-логичная демографическая сводка: мужчины чуть ли не в 4 раза больше женщин живут порознь со своими детьми, а женщины чуть ли не в 8 раз больше, чем мужчины, живут со своими детьми. Ведь дети обычно остаются с мамой. И, в среднем, о детях вообще начинают писать люди от 35 лет, что закономерно тоже. Однако мужчины больше хотят детей, чем женщины. Может быть, потому что у среднестатистической женщины на сайте знакомств вероятность УЖЕ иметь детей выше? Вопрос на подумать на досуге. 

fca856426589370f4bc4c523e8ea7680.png

И наконец, просто оставлю списком самые частые города, в которых живут люди из моей выборки, где цифры — это количество людей в этих городах. 

c1e7a0735c9634d71645d0b86069d8a2.png

Зачем идут на сайт знакомств?

Просто оставлю тут график. По оси Y выбрала процент в качестве меры, но данные проверены на статистический тест хи-квадрат. Т.е. вы можете быть почти уверены, что этот график — отображение всех людей, кто был, есть или будет в ближайшем будущем на mamba.ru.

c1024d44b21cdbd184418449876a86ca.png

Как видно, мужчинам явно больше хочется флирта (casual), а у женщины заметно больше, чем мужчины, хотят лишь дружить (friendly), и едва-едва их больше в группе «семейных» (family-person). В основном, распределение по целям у мужчин и женщин более-менее одинаковое, разве что женщины в большей степени не знают, чего хотят (unknown). 

А теперь давайте посмотрим, может, женщины и мужчины отличаются по целям на сайте знакомств в зависимости от возраста? В графике ниже представлены уже не процентные значения, а именно количественные. По оси Y у каждого график — своя шкала — это количество людей. По оси Х — возраст. 

cc30fe00db68e80d63c9f6ffe11b5d89.jpg

Распишу, по сути, каждый из мини-графичков. 

Средние возраста по целям:

  • флиртовать, встречаться: м 31, ж 29

  • быть в отношениях: м 31, ж 32

  • дружить: м, ж ~ 30

  • хочу все подряд (неуверенные): м 32, ж 31

  • не указали цель: м 31, ж 30

  • семья: м, ж ~ 34,5

Очевидный вывод — средний возраст в группах по разным целям колеблется от 29 до 32 с маленькими различиями. Самый большой разрыв между возрастами потенциальных партнеров в 2 года в цели флирт: мужчины хотят в 31, а женщины — в 29. В целом, в около 30 все хотят «гулять» и люди ищут партнера (романтического, сексуального, дружеского), к семье приходят к 35, но мало кто сидит на сайте с целью создания семьи (всего ~0,9%).

Подводя первую жирненькую черту, просто отмечу, что мне показалось вполне логичным, что возраст «семейный» наступает позже, чем возраст «гуляющий». Не знаю, насколько логично, что женщины младше мужчин в группе тех, кто ищет флирта, но старше в той, где люди ищут серьезных отношений. Получается, женщины созревают для отношений попозже? А вот в группе тех, кто хочет подружить, мужчины и женщины ищут сверстников, что и вполне объяснимо: все же дружить приятней с самым близким тебе поколением. 

Также посчитала, какие слова пишут в целях люди из группы «неуверенные». И они хотят, похоже, повстречаться, подружить, пообщаться, наверное, можно было бы занести их в группу дружелюбных.

3aaa68a7f6337bb47a4a8771b29dea64.png

А есть ли разница по целям между теми, кто пишет о себе (заполняют ту самую графу), и теми, кто не пишет? В графике верхний столбец (над чертой) — это мужчины. Красные — это люди с описанием. Синие — без. Ось Y — это количество. Ну с обозначениями оси Х вы уже знакомы.  

b5f65f9b813dac9a97df0f7296eb08c2.png

Интересно, или даже закономерно, что люди, которые неуверенные, пишут и более пространственные описания. Наверное, поясняют, что хотят. Ну и более дружелюбные тоже пишут много, вероятно, чтобы пояснить, что они только дружить хотят. И интересно, что люди в поисках отношений (relationships) заполняют секцию «о себе» 50 на 50.

Неактивные просто оставляют четыре?  

Я заметила, что очень много людей на mamba.ru выбирают возможный диапазон возраста для потенциального партнера, равный четырем: это целых 64.2%. Я предположила, что 4 — это стандартный для приложения диапазон лет возраста партнера и, возможно, люди которые выбирают стандартный диапазон, меньше заинтересованы в использовании сайта, т.е. они могут быть менее активными.

Поэтому возник вопрос: отличаются ли группы тех, у кого диапазон возраста партнера 4 (ДА4) и все остальные (НЕ4)? По базовым статистикам (возраст, рост, вес) разницы почти не оказалось. Разве что люди из группы НЕ4, похоже, в целом менее придирчивы к возрасту партнера — половина из них рассмотрит партнера в 11-летнем диапазоне возраста. Т.е. таким людям подойдут партнеры, например, и 27, и 32, и 38 лет. 

Мне это показалось странным на фоне того, что группа тех, у кого больший диапазон возраста партнера, в целом, менее возрастная. Почему странным? Да потому, что, когда тебе 21, человек 30-ти лет кажется совсем другим. А когда тебе 35, то что-то общее есть и с 30-летним, и с 40-летним. Поэтому было бы логичнее, если бы больший диапазон возраста был у более «старших». В общем, еще один вопрос «на подумать», глядя на график внизу. 

43199c091304c7e8fa0d21fa6633a443.png

Кстати, еще кое-что в подтверждение моей гипотезы, что те, кто выбирают 4 в качестве диапазона лет для возраста партнера — менее активны, это то, что у них просто гигантская доля людей, чью цели на сайте неизвестны. Возможно, это просто люди, которые вообще на сайте «проездом». А вот те, кто указывают другой, более разнообразный диапазон возраста партнера, указывают и более разнообразные цели от сайта. 

acdd8c9bfcc0223768f33bfa008f12cf.png

Женщинам — путешествия, мужчинам — работа

О чем пишут женщины

А теперь о тех «котиках», которые меня не раздражают — о тех самых 8%, которые заполняют графу «о себе». Они меня не раздражают еще и потому, что предоставляют возможность провести какой-никакой семантический анализ. Хотя бы на уровне подсчета слов. А еще посмотрела, как себя описывают пользователи. 

Так вот. На уровне подсчета слов женщины, в среднем, пишут на два-три слова больше о описании в анкете. Первая трогательная заметка — женщины часто пишут о счастье: хотят сделать кого-то счастливым или самой быть счастливой. Или же ищут уже счастливого человека. В целом, пишут о том, кого хотят и зачем, а также о своих интересах.

Кого хотят: в партнере ценят юмор, активность, доброту, часто ищут «хорошего», а ближе к середине в списке характеристик будущего избранника начинают появляться слова: «щедрый», «заботливый», «сильный», «порядочный», «самодостаточный».

Какие интересы: путешествовать, гулять, готовить, природу, читать, танцевать и петь. 

О себе женщины пишут, в порядке убывания популярности: «добрая», «красивая», «общительная», «веселая», «хорошая», «милая», «позитивная», «умная», «адекватная», «активная», «творческая», «заботливая», «верная», «искренняя». 

Ради шутки, у меня промелькнула мысль: почему это «верная» и «искренняя» находятся на последних местах? А «умная» — в середине списка? То есть мы в себе ценим лишь доброту да красоту? Женщины, давайте взращивать в себе благородство и ум!  

О чем пишут мужчины

Забавно, что у мужчин в топ-50 самых встречаемых слов встречаются разные формы слова «работать» или «работа», а у женщин — нет. Также у мужчин часто встречается слово «женат», а вот у девушек «замужем» — нет. Часто пишут слова «общение», «отношения». 

Опять-таки, в порядке шутки, возник вопрос: что это значит, господа? Ищем на сайте любовниц, с которыми будем отдыхать после работы?   

Также интересно, что мужчины не употребляют особо глаголов, связанных с хобби. В основном, это глаголы действия: «поговорить», «смотреть», «узнать», «сходить», «пообщаться», «создать» (вероятно, в контексте «создать семью»), «поддержать», «сказать». Из глаголов-хобби встретились лишь: готовить, путешествовать, гулять, играть, читать.

О себе мужчины пишут, в порядке убывания популярности: «добрый», «хороший», «общительный», «адекватный», «активный», «спокойный», «весёлый», «позитивный», «высокий»,   «честный», «заботливый» , «красивый», «верный», «спортивный», «порядочный», «умный», «работящий».

Хм… Странно, что «работящий» — лишь в конце списка, когда мужчины так много пишут о работе в секции «о себе».

В партнере мужчины очень ценят… А не очень понятно, что! Потому что в описаниях будто два варианта: либо прямое «я хочу только секс без обязательств», либо какая-то философская фраза, либо «если вы за феррари — мимо, я ищу любимую». Поэтому встречаем эпитеты: «единственная», «любимая», «милая», «адекватная», «умная» и только ближе к концу — «симпатичная», «сексуальная», «верная», и в самом конце — «веселая», «общительная», «творческая». И знаете, то, что мужчины ищут единственную — это второе трогательное открытие!  

И мужчины, и женщины пишут…

…о сексе, детях (вероятно, в контексте есть или нет детей), душе (вероятно, в контексте «родственной души»), семье, музыке, спорте, юморе (очевидно, все ищут партнера с чувством юмора).

Складывается впечатление, что женщины более точны в своих описаниях — и себя, и партнера, а мужчины, наверное, больше пишут про свои цели (секс, романтика, жена) или же философствуют. Те, кто пишет характеристики желаемого партнера, определенно хотят «доброго», «хорошего», «с чувством юмора», и мужчины, и женщины. 

И наконец… о самом трогательном

Кроме того, что женщины хотят сделать кого-то счастливым, а мужчины — найти единственную, меня поразило, что эти 8% людей, которые оставили о себе какие-то описания, чаще всего писали словосочетание «серьезные отношения» (или похожее на него). Всего порядка 900 анкет, и порядка 1300 описаний, где есть слово «отношения»

Поэтому, ребята, найти любовь можно и онлайн. И даже нужно. Просто помните, что нет «хороших» и «плохих». Есть просто те, кто вам подходит, и те, кто вам не подходит. Люди на сайтах знакомств будут самые разнообразные, но ведь кто ищет — тот всегда найдет. 

© Habrahabr.ru