От зеленой до красной: как CatBoost помогает распознавать AML риски

a3dc82c1e20489fe0a919277faa3e5d8.jpeg

Введение

Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.

И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.

Немного о KYC и AML

KYC (Know Your Customer) / ЗСК (Знай своего клиента) — это свод правил и практик, которые помогают банкам и другим организациям удостоверяться в том, кто их клиент, чем он занимается и не нарушает ли законы. Формально эти правила закреплены в разных нормативно-правовых актах, но если говорить кратко — это про сбор корректной информации о клиентах: документов, реквизитов, истории деятельности. Задача: не пропустить мошенников и не нарушить законодательство.

AML (Anti Money Laundering) — это комплекс мер, которые позволяют предотвратить использование финансовых инструментов в преступных целях, например отмывание доходов, финансирование нежелательной деятельности и другие «радости» криминального мира. Под эту историю попадают сбор и анализ данных по транзакциям, историям платежей, расследования сомнительных операций, блокировки аккаунтов и так далее.

Когда мы говорим о внедрении AML, неизбежно встает вопрос: как понять, кто из клиентов и контрагентов может быть «засвечен» в сомнительной деятельности в будущем, даже если сейчас с ним все хорошо? Вот тут и помогают модели скоринга, которые оценивают риски.

Платформа ЗСК от ЦБ

В России, в контексте 115-ФЗ, у банков есть прямая обязанность не только знать своего клиента, но и проверять его на возможные нарушения и риски. Чтобы помочь организациям, ЦБ РФ разработал и запустил платформу ЗСК: на ней в реальном времени происходит обмен информацией между банками, госструктурами и ЦБ по вопросам подозрительных операций.

Главная «фишка» платформы — это единая среда, в которой банки могут увидеть и понять, какому уровню риска условно принадлежит их клиент: «зеленая зона» (все в порядке), «желтая зона» (повышенный контроль) или «красная зона» (серьезные риски: возможны блокировки, запросы на пояснения и т.д.). Если вас поместили в «желтую» или «красную» зону, значит, банки заметили подозрительную активность, транзакции и тд.

Наша задача

Мы совместно с банком-партнером решили научиться предсказывать, попадет ли организация в «желтую» или «красную» зоны. Задача сугубо прикладная: если мы сможем заранее «увидеть» потенциально высокорисковых клиентов, то снизим репутационные и финансовые потери, а также выполним требования регулирующих органов.

Источник данных: партнер предоставил выборку по юридическим лицам и ИП со статусами на определенную дату: кто оказался в «желтой» зоне, а кто — в «красной». Помимо этого, в выборку включили «чистые» организации (со статусом «зеленая зона»).

Мы сосредоточились на типичных телеком-признаках, поскольку у T2 Fintech есть доступ к уникальным обезличенным данным оператора связи:
1. «Возраст» SIM-карты, сколько времени компания-пользователь находится у нас на обслуживании.
2. Географический регион, где зарегистрирована SIM-карта.
4. Возраст устройства, с которого в основном выходит в сеть абонент/организация.
5. Максимальная сумма на балансе за выбранный период.

Эти признаки универсальны тем, что мы можем анализировать и B2B, и B2C сегментах, опираясь на данные оператора.

Модель и принцип работы

Чтобы предсказывать три зоны (зеленая, желтая, красная), мы пошли по пути каскада из двух бинарных моделей:
1. Первая модель: отделяем организации на «Есть риск» vs «Нет риска». То есть пытаемся понять, необходимо ли к клиенту присмотреться повнимательнее. Если модель решила, что риска нет, отправляем такого клиента в «зеленую» зону.
2. Вторая модель: берем только тех, у кого «Есть риск» по первой модели, и решаем, в «желтую» или «красную» зону его определить.

Таким образом, из двух решений получается окончательная классификация.

Для первой модели мы тренировали CatBoost — алгоритм, хорошо себя показывающий, когда в данных есть категории (geo_region — яркий пример). На практике мы занялись подбором гиперпараметров, чтобы повысить точность и устойчивость модели. По итогу выбрали следующие:

{ 'model__learning_rate': 0.02, 'model__l2_leaf_reg': 5, 'model__iterations': 500, 'model__depth': 5 }

Результат первой модели (при проверке на тесте) — ROC-AUC = 0.74. Для скоринга рисковых организаций это вполне неплохой показатель.

Как мы выбирали признаки

Отдельная часть работы — качественный анализ. В «сыром» виде у нас было множество разных признаков, часть из них оказалась нерелевантна. Например, при первых экспериментах мы учитывали суммарное количество SMS, но для B2B-сегмента это оказалось слабо информативным: некоторые организации банально не пользуются SMS в рабочих целях. Зато возраст SIM-карты и сумма на балансе хорошо «отсекают» тех, кто подозрительно переключается между операторами или совершает резкие скачки транзакций.

Зачем все это нужно бизнесу?

Для банков и других финучреждений важно минимизировать операционные и репутационные риски. Если контрагент попадет в «красную» зону, то банки обязаны совершить ряд «неприятных» для клиента действий: запросить дополнительные документы, информацию о бенефициарах, заморозить часть операций — все это время и нервы.

Для компаний, которые взаимодействуют с B2B-сегментом, важно контролировать своих партнеров. Изменение статуса с «желтого» на «красный» может сильно усложнить совместные проекты. Также существует понятие «должной осмотрительности» по Налоговому кодексу РФ: если налоговая решит, что компания вела дела с недобросовестным контрагентом, то могут последовать претензии.

Таким образом, знать, как «выглядит» ваш партнер с точки зрения AML/ЗСК, — это не просто про соблюдение 115-ФЗ, а про «спасение» собственного бизнеса от блокировок, штрафов и проблем с налоговыми органами.

Дальнейшее развитие

• Улучшение метрик: 0.74 — неплохо, но всегда хочется большего. Мы планируем искать новые фичи, лучше использовать временные ряды, добавлять новые технологии.
• Новые источники данных: помимо операторских, есть смысл смотреть в сторону госреестров, проверять аффилированность лиц.
• Автоматизация: интеграция модели в процесс скоринга организаций, чтобы автоматически выставлять предупреждения при резких отклонениях.

Заключение

Мы живем в эпоху повышенного внимания к прозрачности бизнеса. Регуляторы, в частности ЦБ, настаивают на скрупулезном анализе клиентов и контрагентов. Наша модель скоринга для KYC/AML — это не только про соблюдение законодательства, но и про удобство и спокойствие для самого бизнеса.

Компании, которые научились грамотно оценивать риски, выигрывают в долгую: они избегают штрафов, успевают вовремя сменить контрагента или запросить у него дополнительные гарантии и документы. А сочетание уникальных телеком-признаков и сильных алгоритмов машинного обучения делает такую модель более чуткой к «аномалиям» в поведении организаций.

Мы же в команде T2 Fintech продолжаем совершенствовать подходы и технологии, чтобы будущее KYC/AML было не только про формальные галочки и «проверки ради проверок», а про надежный инструмент управления рисками, помогающий бизнесу развиваться без лишних преград и сомнительных связей.

© Habrahabr.ru