[recovery mode] Crowd разработка скоринговой системы для IEM системы27.01.2017 15:48

Привет, Хабр.

У нас есть огромный опыт в разработке систем для автоматизации предприятий, но к сожалению, я почти ничего не помню из математической статистики. Вообще у меня была кафедра дискретной математики. Но есть идея сделать проект, который в кулуарах носит название Железный Феликс.

Известно, что в любой компании сотрудники пытаются извлечь больше выгоды чем, скажем так, положено. И мы бы хотели реализовать поиск такой нестандартной деятельности. Задача усложняется тем, что мы не знаем, какая деятельность вредная. Но знаем, что у большинства пользователей она нормальная.

И сейчас мы хотим найти соответствующего специалиста для открытого проекта по решению такой задачи. Все этапы и результаты мы хотим публиковать здесь на хабре. Участие в проекте поощряется материально. Собственно, первый этап — сформулировать задачу сколько-нибудь корректно и структурировано. Если вы чувствуете в себе силы и интерес к такой деятельности то пишите в каментах или в форму обратной связи на сайте, я свяжусь напрямую.

Комментарии (5)

Iora

27 января 2017 в 13:13

0

↑

↓

Задача усложняется тем, что мы не знаем, какая деятельность вредная. Но знаем, что у большинства пользователей она нормальная.
На первый взгляд нужно выделить паттерны поведения среднестатистического пользователя. Так как у большинства деятельность «доверенная», то получится усредненная модель хорошего поведения, а возможные выбросы (то есть явные отклонения от нормы) могут указывать на вредную деятельность. Тут, правда, возможна ситуация, что это ошибается модель, и человек ничего «не-того» не делает. В этом случае можно использовать специально обученного человека на полставки, который будет убеждаться, что подозреваемый действительно творит не то. После этого система дообучается на этом вердикте, и в следующий раз лучше реагирует на такое поведение, которое вызвало реакцию системы. Эдакое мягкое обучение с учителем.
- Rupper
  
  27 января 2017 в 13:15
  
  0
  
  ↑
  
  ↓
  
  Да, примерно так это мы себе и представляем. Но тут вопрос в деталях — какие параметры надо учитывать для определения поведения? Как их найти? Поможет ли нам тут факторный анализ и как его применить? Как считать отклонения, в каком пространстве и по какой метрике? Эти и другие вопросы и надо разобрать.
  Но логику Вы поняли правильно.
  - Iora
    
    27 января 2017 в 13:26
    
    0
    
    ↑
    
    ↓
    
    Предложу другой вариант: можно анализировать логи, то есть действия пользователя в системе. Выделять действия, которые недобросовестные пользователи совершают чаще других (или которые совершают только они). Например: «нетипично, что человек задерживается на рабочем месте на 20 минут». В целом, таким путем можно много любопытного выяснить о коллективе.
    какие параметры надо учитывать для определения поведения? Как их найти?
    
    А какие действия указывают на недобросовестность человека? Если они известны, то отсюда стоит начать. Если неизвестны, то анализировать все метрики и характеристики, которые можно получить и искать тех, кто отличается от основной массы.
    - Rupper
      
      27 января 2017 в 14:16
      
      0
      
      ↑
      
      ↓
      
      Я же сказал — неизвестно, какие действия недобросовестные.
      Есть миллион всяких параметров. Надо каким-то образом определить значимые.
yusman

27 января 2017 в 15:45

0

↑

↓

Похоже вы путаете «статистику» и «расследование фактов».
Идентификация базируется уже на каких то исследованных фактах, например, вы уже нашли мошенников и зафиксировали их. И далее:
1. скормили машине,
2. обучили ее,
3. она нашла кореляции фактов мошенничества с какими то другими показателями.
4. Применяете полученную модель для дальнейших поисков мошенничества.
Можно попробовать провести классификацию по общим признакам, но все равно, нужно расследовать, копать ручками по локоть.
Боюсь, что ваша задача не решается через чистый ML в текущей ее постановке.