Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk
Рассмотрим, как работают алгоритмы в банковском скоринге, какие метрики используются и какие параметры заемщика влияют на то, выдадут кредит или нет. В статье описывается прошедший конкурс с kaggle по предсказанию вероятности дефолта и приводятся влияющие на риск дефолта параметры.
Ошибка первого и второго рода
Цель банка — заработать деньги. Первый риск, с которым сталкивается кредитная организация — дать кредит заемщику, который допустит дефолт. Дефолт может иметь разным причины, от финансовых трудностей заемщика, и заканчивая фродом.
Для банка это — ошибка первого рода.
Но если банк будет вести жесткую политику, и никому не выдает кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах. Отказ в кредите ответственному заемщику — ошибка второго рода.
Для оценки качества принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как
GINI = 2 ROC AUC — 1
Для оценки банковского скоринга используется стандартная ROC AUC кривая!
Рис. 1 ROC AUC кривая. Площадь под кривой показывает качество работы алгоритма. Если площадь равна 0.5, то это случайный прогноз (для бинарного классификатора), 1 — идеальный прогноз.
Алгоритмы для скоринга
Особенностью алгоритмов для скоринга, является требование к интерпретируемости. В связи с этим, часто используются линейные модели.
Для максимизации качества имеет смысл использовать композиции деревьев, такие как случайный лес, и XGboost. Для кейсов с большим количеством транзакционных данных, подойдут и DNN архитектуры, но нейросети целесообразно применять только самым крупным кредитным учреждениям.
Применение алгоритмов в кредитных учреждениях чаще обусловлено не максимизацией качества, а требованиями к процессу принятия решения, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выпускать решение в бой!
Параметры, влияющие на риск дефолта
Разберем влияющие параметры на примере решений с соревнования на Kaggle — Home Credit Default Risk, прошедшим год назад.
В наборе 220 параметров.
Рис. 2 Распределение дефолтных и возвращенных кредитов.
Классы несбалансированы, дефолтов меньше чем возвращенных кредитов.
Визуализируем распределения параметров, чтобы определить, имеют ли дефолтные займы отличающееся распределение.
Рис. 3 Пример распределения дефолтных и возвращенных кредитов по возрасту.
Из изображения 3 следует, что молодые заемщики имеют больший риск дефолта.
Помимо описанных характеристик заемщика, имеются еще такие параметры как EXT_SOURCE 1,2,3. В этом наборе данных, это параметры полученные от бюро кредитных историй и поставщиков внешних данных. Компания DATA4, в которой я работаю, примером подобного поставщика, но рассматриваемом наборе наших данных нет. Активными игроками на рынке торговли данными являются сотовые операторы и БКИ.
Построим корреляционную матрицу, чтобы посмотреть, с какими параметрами коррелируют прогнозы внешних поставщиков данных, и как они влияют на качество алгоритма.
Построим распределения по данным внешних поставщиков, и увидим, что они имеют отличия для дефолтных кредитов.
Для большего количества признаков получим следующую картину, которую достаточно сложно интерпретировать, но которая дает целостное представление.
Найдем влияющие на дефолт факторы по feature_importances
Построим диаграмму важности признаков для алгоритма RF.
Что влияет:
1) Скоринг от бюро кредитных историй и внешних поставщиков данных, таких как наша компания
2) Возраст и гендер
3) Время, которое прожил заемщик по месту последней регистрации
4) Срок кредита
5) Тип запрашиваемого кредита
6) Процент, который кредит составит от денежного потока и зарплаты клиента
7) Времени использования заемщиком последнего телефонного номера
8) Времени на последнем месте работы, и доля от общего стажа
9) Кредитный денежный поток
10) Сумма кредита
В статье были рассмотрены принципы работы кредитного скоринга, и показаны параметры, которые вносят наибольший вклад в решение о выдачи кредита. Результаты выглядят правдоподобно, чем лучше кредитная история заемщика, чем дольше заемщик работает на одной работе, реже меняете номер телефона и место жительства, и чем меньше доля кредита от располагаемых доходов, тем меньше риск дефолта. Но следует помнить, что результаты построены на данных конкретного кредитного учреждения, и могут не подходить для другого кейса.