Чисто научный подход: чего хотят женщины и о чем говорят мужчины
Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова — это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом «разложила по графичкам». Цель была — сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу.
Код парсинга и ноутбук анализа доступны на GitHub
Почему спарсилось так мало женщин?
Вот это вопрос, ответ на который знает только Вселенная. Сначала у меня был датасет из 80К анкет женщин, и аж 180К анкет мужчин. Пришлось дозапускать парсер с условием отбора «женских» анкет, чтобы получить хотя бы 140К женщин. Соответственно, «мужские» данные сократила также до ~140К.
К слову, парсила я около 3 недель — процесс оказался небыстрым. Я использовала простой get-запрос из библиотеки requests в Python, а потом вытаскивала нужные мне характеристики с помощью BeautifulSoup и регулярных выражений, а именно:
К полученным данным добавила дополнительные поля:
Также я упростила (сгруппировала) разнообразие целей пользователей на 6 групп: флирт, отношения, семья, друзья, неуверенные (те, кто перечисляют очень много целей, от пяти) и те, кто не указали цель.
И еще спарсила текст в графе «О себе». Вы относитесь к тем людям, которых раздражает, если пользователи не пишут на сайтах знакомств ничего в этой графе? Я — да. Если вы в моей лодке, то, к сожалению, нам придется раздражаться в 92% случаев — ведь я получила именно такой процент анкет, где в этой графе было так же пусто, как в космосе. Что же хотят эти люди? О чем мечтают? Об этом поговорим еще немного позже.
Также очень неохотно люди писали о своих жилищных условиях (всего 20%), своем весе (всего 23%), наличии табачной зависимости (25%) и детей (26%) и почему-то — об уровне образования (тоже 26%).
Демографическая сводка не хуже, чем у Росстата
Да, совсем не стесняюсь так говорить. Потому что у меня было так много данных, что можно было бы даже не применять статистические тесты на проверку «правдивости» сравнений и закономерностей, которые я получала (пишу «закономерностей» в кавычках, потому что в статистике в этом контексте говорят слово «значимость» — но, на мой вкус, лучше смысл феномена отражает слово «правдивость»). Тесты я, конечно, делала: хи-квадрат, t-test, смотрела коэффициенты асимметрии и всякое такое. Но в моем случае уже действовал закон больших чисел: когда данных много, среднее их значение приближается к математически ожидаемому. Короче говоря, чем больше данных, тем более правдивые выводы можно на них делать.
А еще я выбросила из основного анализа данные людей, старше 45 и младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны), потому что их было подавляюще мало, но они образовывали «хвосты» или выбросы в данных. И после этого почти всегда данные были распределены почти нормально, еще один плюс «за» то, чтобы ограничиваться мерами центральной тенденции, т.е. простыми средними или наиболее частыми значениями. Поэтому для числовых значений я так и сделала, и смотрите, какие портреты мужчин и женщин, пользователей сайта mamba.ru, я получила:
Средний возраст пользователя — 31.
Средний вес — 70.
Рост — 172 (кстати, любители высоких, максимально обозначенный рост в анкете был 220 см: так что ищите, и вы обязательно найдете своего великана).
Средний возраст ожидаемого партнера — 27.
Посмотрела, чтобы удостовериться, есть ли корреляция в возрастах между теми, кто ищет, и теми, кого ищут. Закономерно, корреляция практически прямая: более старшие ищут более старших.
А что у нас по детям? У кого сколько? Тут, на мой вкус, получилась ну прям мега-логичная демографическая сводка: мужчины чуть ли не в 4 раза больше женщин живут порознь со своими детьми, а женщины чуть ли не в 8 раз больше, чем мужчины, живут со своими детьми. Ведь дети обычно остаются с мамой. И, в среднем, о детях вообще начинают писать люди от 35 лет, что закономерно тоже. Однако мужчины больше хотят детей, чем женщины. Может быть, потому что у среднестатистической женщины на сайте знакомств вероятность УЖЕ иметь детей выше? Вопрос на подумать на досуге.
И наконец, просто оставлю списком самые частые города, в которых живут люди из моей выборки, где цифры — это количество людей в этих городах.
Зачем идут на сайт знакомств?
Просто оставлю тут график. По оси Y выбрала процент в качестве меры, но данные проверены на статистический тест хи-квадрат. Т.е. вы можете быть почти уверены, что этот график — отображение всех людей, кто был, есть или будет в ближайшем будущем на mamba.ru.
Как видно, мужчинам явно больше хочется флирта (casual), а у женщины заметно больше, чем мужчины, хотят лишь дружить (friendly), и едва-едва их больше в группе «семейных» (family-person). В основном, распределение по целям у мужчин и женщин более-менее одинаковое, разве что женщины в большей степени не знают, чего хотят (unknown).
А теперь давайте посмотрим, может, женщины и мужчины отличаются по целям на сайте знакомств в зависимости от возраста? В графике ниже представлены уже не процентные значения, а именно количественные. По оси Y у каждого график — своя шкала — это количество людей. По оси Х — возраст.
Распишу, по сути, каждый из мини-графичков.
Средние возраста по целям:
флиртовать, встречаться: м 31, ж 29
быть в отношениях: м 31, ж 32
дружить: м, ж ~ 30
хочу все подряд (неуверенные): м 32, ж 31
не указали цель: м 31, ж 30
семья: м, ж ~ 34,5
Очевидный вывод — средний возраст в группах по разным целям колеблется от 29 до 32 с маленькими различиями. Самый большой разрыв между возрастами потенциальных партнеров в 2 года в цели флирт: мужчины хотят в 31, а женщины — в 29. В целом, в около 30 все хотят «гулять» и люди ищут партнера (романтического, сексуального, дружеского), к семье приходят к 35, но мало кто сидит на сайте с целью создания семьи (всего ~0,9%).
Подводя первую жирненькую черту, просто отмечу, что мне показалось вполне логичным, что возраст «семейный» наступает позже, чем возраст «гуляющий». Не знаю, насколько логично, что женщины младше мужчин в группе тех, кто ищет флирта, но старше в той, где люди ищут серьезных отношений. Получается, женщины созревают для отношений попозже? А вот в группе тех, кто хочет подружить, мужчины и женщины ищут сверстников, что и вполне объяснимо: все же дружить приятней с самым близким тебе поколением.
Также посчитала, какие слова пишут в целях люди из группы «неуверенные». И они хотят, похоже, повстречаться, подружить, пообщаться, наверное, можно было бы занести их в группу дружелюбных.
А есть ли разница по целям между теми, кто пишет о себе (заполняют ту самую графу), и теми, кто не пишет? В графике верхний столбец (над чертой) — это мужчины. Красные — это люди с описанием. Синие — без. Ось Y — это количество. Ну с обозначениями оси Х вы уже знакомы.
Интересно, или даже закономерно, что люди, которые неуверенные, пишут и более пространственные описания. Наверное, поясняют, что хотят. Ну и более дружелюбные тоже пишут много, вероятно, чтобы пояснить, что они только дружить хотят. И интересно, что люди в поисках отношений (relationships) заполняют секцию «о себе» 50 на 50.
Неактивные просто оставляют четыре?
Я заметила, что очень много людей на mamba.ru выбирают возможный диапазон возраста для потенциального партнера, равный четырем: это целых 64.2%. Я предположила, что 4 — это стандартный для приложения диапазон лет возраста партнера и, возможно, люди которые выбирают стандартный диапазон, меньше заинтересованы в использовании сайта, т.е. они могут быть менее активными.
Поэтому возник вопрос: отличаются ли группы тех, у кого диапазон возраста партнера 4 (ДА4) и все остальные (НЕ4)? По базовым статистикам (возраст, рост, вес) разницы почти не оказалось. Разве что люди из группы НЕ4, похоже, в целом менее придирчивы к возрасту партнера — половина из них рассмотрит партнера в 11-летнем диапазоне возраста. Т.е. таким людям подойдут партнеры, например, и 27, и 32, и 38 лет.
Мне это показалось странным на фоне того, что группа тех, у кого больший диапазон возраста партнера, в целом, менее возрастная. Почему странным? Да потому, что, когда тебе 21, человек 30-ти лет кажется совсем другим. А когда тебе 35, то что-то общее есть и с 30-летним, и с 40-летним. Поэтому было бы логичнее, если бы больший диапазон возраста был у более «старших». В общем, еще один вопрос «на подумать», глядя на график внизу.
Кстати, еще кое-что в подтверждение моей гипотезы, что те, кто выбирают 4 в качестве диапазона лет для возраста партнера — менее активны, это то, что у них просто гигантская доля людей, чью цели на сайте неизвестны. Возможно, это просто люди, которые вообще на сайте «проездом». А вот те, кто указывают другой, более разнообразный диапазон возраста партнера, указывают и более разнообразные цели от сайта.
Женщинам — путешествия, мужчинам — работа
О чем пишут женщины
А теперь о тех «котиках», которые меня не раздражают — о тех самых 8%, которые заполняют графу «о себе». Они меня не раздражают еще и потому, что предоставляют возможность провести какой-никакой семантический анализ. Хотя бы на уровне подсчета слов. А еще посмотрела, как себя описывают пользователи.
Так вот. На уровне подсчета слов женщины, в среднем, пишут на два-три слова больше о описании в анкете. Первая трогательная заметка — женщины часто пишут о счастье: хотят сделать кого-то счастливым или самой быть счастливой. Или же ищут уже счастливого человека. В целом, пишут о том, кого хотят и зачем, а также о своих интересах.
Кого хотят: в партнере ценят юмор, активность, доброту, часто ищут «хорошего», а ближе к середине в списке характеристик будущего избранника начинают появляться слова: «щедрый», «заботливый», «сильный», «порядочный», «самодостаточный».
Какие интересы: путешествовать, гулять, готовить, природу, читать, танцевать и петь.
О себе женщины пишут, в порядке убывания популярности: «добрая», «красивая», «общительная», «веселая», «хорошая», «милая», «позитивная», «умная», «адекватная», «активная», «творческая», «заботливая», «верная», «искренняя».
Ради шутки, у меня промелькнула мысль: почему это «верная» и «искренняя» находятся на последних местах? А «умная» — в середине списка? То есть мы в себе ценим лишь доброту да красоту? Женщины, давайте взращивать в себе благородство и ум!
О чем пишут мужчины
Забавно, что у мужчин в топ-50 самых встречаемых слов встречаются разные формы слова «работать» или «работа», а у женщин — нет. Также у мужчин часто встречается слово «женат», а вот у девушек «замужем» — нет. Часто пишут слова «общение», «отношения».
Опять-таки, в порядке шутки, возник вопрос: что это значит, господа? Ищем на сайте любовниц, с которыми будем отдыхать после работы?
Также интересно, что мужчины не употребляют особо глаголов, связанных с хобби. В основном, это глаголы действия: «поговорить», «смотреть», «узнать», «сходить», «пообщаться», «создать» (вероятно, в контексте «создать семью»), «поддержать», «сказать». Из глаголов-хобби встретились лишь: готовить, путешествовать, гулять, играть, читать.
О себе мужчины пишут, в порядке убывания популярности: «добрый», «хороший», «общительный», «адекватный», «активный», «спокойный», «весёлый», «позитивный», «высокий», «честный», «заботливый» , «красивый», «верный», «спортивный», «порядочный», «умный», «работящий».
Хм… Странно, что «работящий» — лишь в конце списка, когда мужчины так много пишут о работе в секции «о себе».
В партнере мужчины очень ценят… А не очень понятно, что! Потому что в описаниях будто два варианта: либо прямое «я хочу только секс без обязательств», либо какая-то философская фраза, либо «если вы за феррари — мимо, я ищу любимую». Поэтому встречаем эпитеты: «единственная», «любимая», «милая», «адекватная», «умная» и только ближе к концу — «симпатичная», «сексуальная», «верная», и в самом конце — «веселая», «общительная», «творческая». И знаете, то, что мужчины ищут единственную — это второе трогательное открытие!
И мужчины, и женщины пишут…
…о сексе, детях (вероятно, в контексте есть или нет детей), душе (вероятно, в контексте «родственной души»), семье, музыке, спорте, юморе (очевидно, все ищут партнера с чувством юмора).
Складывается впечатление, что женщины более точны в своих описаниях — и себя, и партнера, а мужчины, наверное, больше пишут про свои цели (секс, романтика, жена) или же философствуют. Те, кто пишет характеристики желаемого партнера, определенно хотят «доброго», «хорошего», «с чувством юмора», и мужчины, и женщины.
И наконец… о самом трогательном
Кроме того, что женщины хотят сделать кого-то счастливым, а мужчины — найти единственную, меня поразило, что эти 8% людей, которые оставили о себе какие-то описания, чаще всего писали словосочетание «серьезные отношения» (или похожее на него). Всего порядка 900 анкет, и порядка 1300 описаний, где есть слово «отношения»
Поэтому, ребята, найти любовь можно и онлайн. И даже нужно. Просто помните, что нет «хороших» и «плохих». Есть просто те, кто вам подходит, и те, кто вам не подходит. Люди на сайтах знакомств будут самые разнообразные, но ведь кто ищет — тот всегда найдет.