[Из песочницы] Data Science: Про любовь, имена и не только
Комментарии 4
-
0
Я правильно понимаю, у вас не учитываются «возможные дубликаты»? Ну, то есть, люди, которые пролюбили один или несколько своих аккаунтов. Не учитываются боты и прочие непотребства?
Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.-
0
Да, интересный вопрос.
-
-
0
Это прекрасно! Поздравляю с первой публикацией на хабре:)
-
0
«Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией.» © экономико-математический словарь
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.