[Из песочницы] Как понять, что ваша предсказательная модель бесполезна

Комментарии 3

  • 12.09.17 в 14:36

    0

    Мне повезло, что за три года до моего прихода коллеги ввели простое, хотя и страшноватое правило: примерно 1% случайно отобранных заявок на кредитки одобрять в обход почти всех политик. Этот 1% приносил банку убытки, но позволял получать репрезентативные данные, на которых можно обучать и тестировать любые модели.

    Я не занимаюсь ML, поэтому, возможно, вопрос глупый.
    Имеет ли смысл брать этот 1% не путём случайной выборки, а оценивать, насколько заявка похожа на типичные, и выбирать самые нетипичные? Или это даст какое-то смещение результатов?

    • 12.09.17 в 15:00

      0

      Вопрос на самом деле очень хороший :)
      Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
      Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.
  • 4c29b5006d2e810bef42ada9c594af7a_small.j

    12.09.17 в 14:55

    0

    Бывает весело, когда заказчику охота «крутую нейронную сеть» для специфичной задачи, но убедить его потратиться на сбор данных можно, только предоставив работающий прототип (создание которого невозможно без сбора данных (сбор которых невозможен без работающего прототипа (…))).

    image

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

© Habrahabr.ru