Обнаружение инсайдерской торговли: Алгоритмы выявления и паттерны незаконных сделок

e64df75bc04247f59aadf21993fb82ff.png

Как конкретно ведут себя инсайдеры на бирже? Зависят ли их сделки от занимаемой должности в компании (генеральный или финансовый директор), меняется ли поведение инсайдеров с течением времени (повлиял ли на него, к примеру, кризис 2008 года)?

Группа исследователей из технологического института Джорджии провели исследование на основе данных о 12 млн транзакций, совершенных 370 тысячами инсайдеров в период с 1986 по 2012 год. Целью этой работы было выявление паттернов поведения игроков на фондовом рынке, с помощью которых регулирующие органы могли бы обнаруживать и пресекать незаконную инсайдерскую торговлю. Мы представляем вашему вниманию основные моменты этого документа.

Что такое инсайдерская торговля


Согласно общепринятому определению, инсайдерской торговлей считается совершение операций с финансовыми инструментами и извлечение прибыли на основе информации, полученной внутри компании благодаря должности или роли в ней злоумышленника. Считается, что инсайдерская торговля вредит финансовым рынкам, поскольку она снижает ликвидность и подрывает общее доверие участников экономической деятельности друг к другу. Власти различных стран активно борются с инсайдерской торговлей.

Однако большая часть сделок, совершаемая на бирже инсайдерами, вовсе не является незаконной. В число «инсайдеров» попадают директоры, менеджеры и владельцы акций компании. Эти люди в принципе имеют право торговать на бирже, незаконной инсайдерская торговля становится только в случае использованися важной непубличной информации в качестве основы для принятия решения о совершении той или иной транзакции.

В различных странах существуют всевозможные правила, которые предписывают инсайдерам отчитываться о совершенных ими сделках. И в случае значтельного количества совершенных операций, выявить среди них те, что подпадают под описание незаконной торговли, отнюдь не так легко.

Data Mining спешит на помощь


Исследователи решили применить для решения проблемы техники Data Mining. Как уже было сказано выше, в набор данных вошла информация о более чем 12 млн сделок на американских биржах, которые были совершены более чем 370 тысячами инсайдеров с 1986 по 2012 год. База хранилась в SQLite, общий объём данных составил 5,61 гигабайт.

Инсайдеры 370 627
Компании 15 598
Транзакции 12 360 325
Продажа 3 206 175
Покупка 1 206 038


Каждая запись в наборе данных состоит из полей имени и компании инсайдера, цены сделки, роли человека в компании, а также информация о ней (включая сектор экономики и адрес). Существует большое количество определений и кодов, которыми обозначаются различные должности, при этом нет какой-то четкой иерархии. Поэтому инсайдеры могут случайно или намеренно указывать в документах неверное описание своей должности, что затрудняет дальнейший анализ их сделок.

Исследователи решили эту проблему с помощью ввода четырех обозначений, каждое из которых объединяет близкие друг к другу коды занимаемых должностей:

  • CEO — генеральный директор;
  • CFO — финансовый директор;
  • D — директор;
  • ОО — другой руководитель.


На рисунках 1 и 2 показано кумулятивное распределение для числа компаний, к которым принадлежат инсайдеры и числа транзакций ими совершенных. Как правило, инсайдер имеет отношение к небольшому количеству компаний и совершает не особенно крупные сделки, но есть и небольшое количество людей, которые связаны с множеством организаций и совершают объёмные сделки.

5ffec71b584940b2a363261f1ff69303.png

Рис. 1: Функция эмпирического кумулятивного распределения числа компаний, к которым имеет отношение инсайдер

1e9dde84cec547ed900a26e67e442092.png

Рис. 2: Функция эмпирического кумулятивного распределения числа совершенных инсайдерами транзакций (ось X имеет логарифмический масштаб)

Для чего нужен подобный анализ


Анализ сделок инсайдеров может быть полезен с различных точек зрения, например:

  • Понимание рисков — несколько различных исследований доказали, что те руководители, которые занимаются покупкой и продажей на бирже акций своей компании, в конечном итоге начинают принимать такие решения по своей основной работе, которые диктуются их покупками или продажами на фондовом рынке. К примеру, такой генеральный директор, собравшись купить акции, может способствовать выпуску пресс-релиза, в котором рассказывается о тех или иных проблемах компании — это сбивает цену ее акций и помогает ему сэкономить. А если он хочет продать акции, то новостной поток компании наоборот может стать излишне позитивным.
  • Обнаружение мошенничества и незаконных сделок — применение техник дата майнинга позволяет определят возможные инсайдерские сделки, целью которых является обман инвесторов компании.


Паттерны поведения инсайдеров на фондовом рынке


Исследователи выдвинули две гипотезы о важны факторах, оказывающих влияние на законность или незаконность действий инсайдеров на фондовом рынке. Первый из них — фактор времени. Если инсайдер совершает сделки в период, находящийся перед или после важных корпоративных новостей, то с большой долей вероятности, решение о совершении операции продиктовано знанием какой-то информации, которая недоступна другим участникам рынка. Если же сделки совершаются всегда в одном и том же месяце несколько лет подряд, то скорее всего здесь речь идет о простой диверсификации портфеля финансовых инструментов. Второй важный фактор — взаимосвязь между трейдерами. Если сеть инсайдеров торгует одинаково, то высока вероятность того, что они делятся информацией друг с другом.

На основе этих предположений и строится предложенный алгоритм анализа. Прежде всего изучаются тренды во временных рядах транзакций. На время совершения транзакции влияет множество факторов, поэтому информация о них разбивается на тип сделки, код роли инсайдера в компании и сектор экономики компании.

Анализ типов транзакций позволяет выявить некоторые интересные паттерны. Например, инсайдеры чаще продают акции, а не покупают — это связано с тем, что многие руководители получают акции за свою работу посредством, к примеру, опционов в компании. Поэтому инсайдеры чаще продают акции, чтобы сбалансировать свое портфолио ценных бумаг (рис. 4).

d8c3d83d4a5344829bea996397aa8635.png

Рис. 4: График распределения транзакций разного типа (Sell — продажа, Purchase — покупка, Grant — получение акций инсайдеров с помощью реализаци, к примеру, опциона)

Кроме того, инсайдеры, занимающие разные позиции в компании, торгуют на бирже также по-разному (рис. 5). Поведение генеральных директоров (CEO) более волатильно — к примеру, в имеющемся наборе данных сделки говорят о том, что после 2003 года американские CEO агрессивно продавали акции, а затем после 2008 года прекратили это делать. И напротив, активность в продажах со стороны акционеров компании стала нарастать только накануне финансового кризиса 2008 года.

aa6060bfdbbb44b999afa9a5041b37cf.png

Рис. 5: Разбивка транзакций по ролям инсайдеров в компании

Влияет на активность торговли и сфера экономики, которую представляет конкретная компании. К примеру, акции технологических компаний покупают и продают чаще. Интересный момент — тренд активности транзакций акций этого типа совпадает с графиком продаж с рисунка 4 (коэффицент кросс-корелляции p < 0.1) — это объясняется тем, что такие компании (среди них много стартапов) включают в компенсацию сотрудников собственные акции.

ec8660fab492400f90d72ab79a575259.png

Рис. 6: Разбивка транзакций по секторам экономики

Далее изучались паттерны внутри определенных последовательностей транзакций. Какая часть инсайдеров продает акции после их покупки, а кто продолжает докупать или продавать дальше? Чтобы ответить на эти вопросы необходимо проанализировать интервалы транзакций между последовательными сделками.

Если инсайдер продал акции после их покупки, то такая комбинация называется sale-then-purchase и обозначается как S→P. Следующие три типа описываются как purchase-then-sale (покупка и продажа, P→S), sale-then-sale (продажа и продажа, S→S), и purchase-then-purchase (покупка и покупка, P→P). Графики визуализации позволяют понять, что паттерны S→P и P→S встречаются реже, чем пары P→P и S→S. Это может объясняться тем, что многие инсайдеры — это работники, которым акции дают за их работу, а значит они могут время от времени продавать их (отсюда и продажа за продажей).

6cc9ac91c2e74a55b2cf6125e01c979c.png

Рис. 7: Время между последовательными тразакциями одного и того же типа: P→P и S→S

Иногда инсайдеры могут хотеть аккумулировать в своих руках большее количество акций, что вынуждает их покупать их несколько раз подряд.

817a9380b2c44ab6870fdb456bf1445b.png

Наивысший интервал между сделками P→S и S→P составляет примерно 180 дней. При этом, те сделки пар S→P и P→S, что оказыаются внутри этого интервала прибыльны в 45% случаев, а те, что лежат вне его — в 70%.

Анализ корреляций транзакций и цен акций


Возможно ли обоснованно предположить, что определенный набор инсайдеров осуществляет сделки с использованием недоступной другим участникам торгов информации? Чтобы это сделать, нужно изучить все совершенные инсайдером сделки с акциями определенной компании C и сравнить их с ценами акции этой компании на момент закрытия торгов в день сделки.

Если инсайдер совершил сделку по цене TP, а цена закрытия CP была явно больше, или если инсайдер продал акции по цене TP, а цена закрытия CP оказалась строго меньше, то такие сделки могут быть «информированными» — трейдер покупает, когда цена низкая, и продает, когда высокая.

Отдельный вопрос заключается в том, как определить уровень информированности конкретного человека. То есть, как убедиться в том, что положительный результат сделки — это не просто удача. Сделать это можно с помощью алгоритма 1.

Алгоритм 1
Сначала создается пустой набор T, в который позднее вставятся отдельные наборы, состоящие из значений транзакций инсайдеров (строка 1). Затем процедура начинает изучать каждую сделку одну за одной (строки 2–19). Также сначала создается набор si для каждого инсайдера I (строка 3) и для каждой компании, акциями которой он торговал (строки 4–18). Набор транзакций называется «разбитым» (split) в том случае, если они произошли в один день, были одного типа (продажа или покупка) и по одной цене. Если набор транзакций был признан разбитым, то все операции суммируются и рассматриваются в качестве одной транзакции (строка 5).

Затем определяется цена закрытия и долларовый объём (объём торгов умноженный на цену закрытия) — строки 6–7. Поскольку важно найти «сигналы», которые побудили инсайдера совершить сделку. Чтобы это сделать, необходимо нормализовать каждую транзакцию. Для этого нужно нормализованное значение — число купленных или проданных акций умножается на цену и делится на долларовый объём. Обычно это соотношение больше 0 и меньше 1. После его вычисления, цена транзакции сравнивается с ценой закрытия. Если инсайдер покупает или продает, когда цена мала или велика по сравнению с ценой закрытия, то величина соотношения добавляется в набор si (строки 9–18) — это значение будет называться «сигнальным». Когда в наборе данных много сигнальных транзакций, то это подозрительно. Далее для коррекции числа ошибочных сигнальных результатов используется коррекция Бонферрони.

53cb287877d243c7aa5f22e843f3a3ce.png

После запуска алгоритма для имеющегося у исследователей наборов данных, он вернул 29 инсайдеров, для которых удалось добиться статистически значимых результатов.

Построение сети инсайдеров


Можно предположить, что инсайдеры из различных компаний могут формировать сети с другими людьми, имеющими доступ к важной корпоративной информации, с тем, чтобы делиться такими данными для совершения операций на бирже. Чтобы определить, кто входит в такие сети, нужно построить граф, в котором инсайдеры будут узлами — ребрами соединяются те из них, кто следует похожим паттернам в торговле. Таким образом можно сделать обоснованные предположения о том, что они обмениваются информацией.

Для того, чтобы понять, насколько похожим является поведение инсайдеров, необходимо создать функцию сходства, на вход которой подается информация о времени транзакций двух сравниваемых трейдеров, являющихся инсайдерами для одной и той же компании, и которая дает на выходе некое значение, обозначающее уровень сходства тайминга этих операций.

Транзакции трейдера T, который является инсайдером в компании C, представлены набором Tc = {t1,…, tm}, где tj — дата транзакции. Этот трейдер может быть инсайдером в более чем одной компании, но в Tc содержатся данные о транзакциях, относящихся к акциями именно этой организации. Процедура построения сети инсайдеров описана в алгоритме 2.

Алгоритм 2
Все начинается с формирования пустой сети G. Затем для акций каждой компании осуществляется сравнение всех дат транзакций со всеми возможными парами инсайдеров. То есть для каждой компании C, сравнивается набор транзакций с дата xc и yc для каждой возможной пары трейдеров X и Y, которые являются инсайдерами этой компании C. Чтобы исключить из анализа инсайдеров с малым количеством сделок, рассматриваются только инсайдеры с совершенным количеством транзакций не меньше hz. Тогда функция сходства будет выглядеть следующим образом:

d71679b7e1174ffa9ecd65fe47a8e264.png

где I (x, y) — это функция, возвращающая 1 в случае, если x = y и 0 в противном случае. S (xc, yc) равняется 1, если инсайдеры X и Y всегда торгуют в ту же дату и 0, если у них нет общих дат сделок. Если сходство между xc и yc больше, чем порог hm, мы включает узел для каждого из инсайдеров X и Y в сеть G (если они еще там не представлены) и создаем между ними ребро.

d71679b7e1174ffa9ecd65fe47a8e264.png

Ниже в таблице представлены параметры для простых сетей продажи (Sale) и покупки (Purchase). Обе сети имеют одинаковое количество узлов (инсайдеров), но в сети Purchase больше ребер — у большего числа трейдеров обнаружены сходства в торговле. При этом в сети Sale больше связанных компонентов, чем в сети Purchase.

64b202619dcc417bad3b4c14f9504dda.png

Рис. 9: Примеры соединенных компонентов из сети Sale, инсайдеры формируют кластеры различных форм

Далее изучаются размеры соединенных компонентов, то есть число инсайдеров в них. На рисунке ниже представлено распределение соединенных компонентов определенного размера. Видно, что большая их часть имеют размер 2, что указывает на то, что большинство трейдеров в сети обычно не совершают операции в одни и те же даты. Однако все же есть и крупные связанные компоненты в сети Purchase:

25ffa4b57a434a3fabf1938adaaa60b1.png

Крупнейший обнаруженный исследователями компонент связанных трейдеров — они торговали акциями электрокомпании

Инсайдер может быть таковым для нескольких компаний и иметь какие-то сходные черты в действиях на бирже с инсайдерами каждой из этих компаний. В таком случае несколько компаний рассматриваются, в качестве объединенного компонента — как в треугольнике на рисунке 9.

Также важно понять, объединены ли внутри такого компонента инсайдеры, занимающие одинаковые должности. На рисунке 10 ниже представлены все компбинации ролевых пар (например, ребра между генеральным и финансовым директором, CEO-CFO). К примеру, в обеих сетях, наблюдаем, что в том случае, если инсайдер является CEO, то выше вероятность, что он соединен с другим OO в другой компании. Это интересный момент — CEO является вершиной корпоративной иерархии, но получается, что такие топ-менеджеры склонны взаимодействовать с не столь высокопоставленными инсайдерами. В то же время инсайдеры среднего уровня чаще связаны с людьми аналогичной позиции. Все это указывает на существование как вертикального, так и горизонтального потока обмена инсайдерской информацией.

0ec182ce24c640d39c94de83f43cd118.png

Также анализируется постоянность похожего поведения в торговле инсайдеров — вычисляется разница в днях между последней и первой похожей транзакцией. Ранее hz был установлен на уровне 5, так что у инсайдеров должно быть минимум пять похожих транзакций. Результат такого анализа представлен ниже:

f3e8985d56f44233a9391bfff372ae8c.png

Наконец, изучается коллективное поведение инсайдеров и их соседей по сети. Помимо информации о том, что инсайдеры и их соседи по сети совершали одинаковые операции в конкретные дни, анализируются данные о том, в какое время этих дней проходили транзакции.

Выявление аномалий на основе сетевой информации


Для дальнейшего анализа сетей Sale и Purchase кажется логичным оценить то, как каждый из их узлов связан с другими етями. Однако, поскольку в каждой из сетей более 1000 узлов, провести такой анализ затруднительно. Логичнее отметить какое-то количество потенциально «интересных» узлов на основе неких критериев, которые выделяют их из всех остальных элементов.

Анализ проводится на уровне эгосетей (egonets), где ego — конкретный узел сети, а его соответствующая эгосеть является подграфом, выделенным из эго и его прямых соседей. Этот подход позволяет находить аномалии в обычных взвешенных графах и получать легко интерпретируемые результаты. Для этого для каждой эгосети выделяется две метрики: число соседей (степень) эго V и число ребер в эгосети Eu, где u — это эго.

Для многих реальных сетей должна существовать степенная зависимость между Vu и Eu. В сетях Sale и Purchase есть степенная зависимость для отношений между Vu и Eu. На рисунке ниже красная линия степенной зависимости — это высленные по методу наименьших квадратов медианные значения каждого набора данных.

acbeb0b5b3a04742b87dc392e5922dc8.png

Эта красная линия является нормой с которой и будут сравниваться узлы для выявления аномалий. Если yu — это число ребер в эгосети u и f (Xu) — это ожидаемое число таких ребер согласно степенной связи, то если в эгосети u есть xu узлов, то расстояние узла u от нормы вычисляется так:

7c9c7bf2a78f4bbcabb04f2ac02db1d8.png

Важные замечания


Такой сетевой анализ действий инсайдеров позволяет выявить неочевидные интересные факты, которые сложно обнаружить каким-то другим способом. К примеру, если взглянуть на длинную цепочку инсайдеров из сети Sale, то на первый взгляд кажется, что это инсайдеры из никак не связанных друг с другом компаний. Однако, если взглянуть поближе, выясняется, что все они работают в одной инвестиционной компании, которая может действовать в интересах уже тех фирм, с которыми первоначально кажется, что связаны инсайдеры. Таким образом можно находить скрытые связи.

f01f3212f87b4e0fac9980583f854d9c.png

Также исследование показало, что инсайдеры, принадлежащие к одной семье, чаще торгуют похожим образом. Около 7% соединенных напрямую инсайдеров в сетях обладают одинаковыми фамилиями. Ручная валидация подмножества этих инсайдеров позволяет утверждать, что они и впрямь являются родственниками.

Также исследователям удалось обнаружить интересную аномальную структуру. Описанные метод отмечает узлы (или эго), чьи соседи или эгосети отличаются от общих паттернов для всех узлов. На рисунке ниже представлен один такой узел из сети Purchase и его соседи. Красное эго в середине соединено со всеми другими узлами. Толщина ребер пропорционально величине функции сходства. То есть, чем толще линия, тем более похоже поведение на бирже для двух соответствующих инсайдеров.

e64df75bc04247f59aadf21993fb82ff.png

В этом конкретном случае инсайдер, отмеченный красным, соединен сразу с тремя группами — можно предположить, что этот человек в реальности выполняет какие-то посреднические функции для осуществления инсайдерских сделок групп людей из определенной компании.

© Habrahabr.ru