[Из песочницы] Data Science: Про любовь, имена и не только

Комментарии 4

  • 25.08.17 в 15:26

    0

    Я правильно понимаю, у вас не учитываются «возможные дубликаты»? Ну, то есть, люди, которые пролюбили один или несколько своих аккаунтов. Не учитываются боты и прочие непотребства?
    Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.
    • 279fd44f1aab1c22791c701977182439_small.p

      25.08.17 в 15:32

      0

      Да, интересный вопрос.

  • 279fd44f1aab1c22791c701977182439_small.p

    25.08.17 в 15:30

    0

    Это прекрасно! Поздравляю с первой публикацией на хабре:)

  • 25.08.17 в 15:36

    0

    «Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией.» © экономико-математический словарь

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

© Habrahabr.ru