[Из песочницы] Data Science: Про любовь, имена и не только25.08.2017 15:48

Комментарии 4

iCpu
25.08.17 в 15:26

0

Я правильно понимаю, у вас не учитываются «возможные дубликаты»? Ну, то есть, люди, которые пролюбили один или несколько своих аккаунтов. Не учитываются боты и прочие непотребства?
Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.
- marsermd
  25.08.17 в 15:32
  
  0
  
  Да, интересный вопрос.
marsermd
25.08.17 в 15:30

0

Это прекрасно! Поздравляю с первой публикацией на хабре:)
ildarz
25.08.17 в 15:36

0

«Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией.» © экономико-математический словарь

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.