Collection. Темная сторона Data Science

Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!

0c4f88784cbbde34af8110d0e0c8b1fb.jpg

Мы

Мы с нашей it-командой работаем в интересах Collection. Наш бизнес и заказчик — блок розничного взыскания. Все, что связано с долгами, должниками, просрочками, колл-центром — это наша вотчина для аналитики и прогнозирования.

Финтех-табу

Помимо общеизвестных табуированных тем в нашей стране есть и другие топики, о которых никто не любит говорить. Банки, например, любят рассказывать, как они выдают кредиты, но не любят освещать, как они возвращают эти кредиты, особенно если клиенты не платят. 

Вообще финтех — достаточно замкнутая область, где очень много чувствительных данных, поэтому сложно что-то обсуждать в деталях. Все, что я дальше расскажу (наши модели, фичи, которые входят в эти модели), является собственностью блока розничного взыскания, поэтому признаки я приведу выборочно, а их описание перефразирую. 

Мы, но не только

Розничное взыскание в Газпромбанке — это самостоятельный контур, автоматизированная система независимого принятия решений. Даже если прилетят инопланетяне и украдут всех моделистов, Collection все равно продолжит функционировать, пусть и не с такими высокими метриками. Поэтому процессы, которые находятся внутри блока взыскания, останутся вне повестки, это бизнес-история. Поговорим про общее устройство процесса моделирования.

Мы и взыскание

0576c66d67b4f237c09c432ed5bfb6c1.png

Что первое приходит на ум, когда вы слышите слово «взыскание»? Наверняка самые распространенные клише: разрывающийся от звонков и СМС телефон, тревожный стук в дверь. 

Может быть когда-то так и было, но сейчас у нас совсем другие приоритеты, и мы стараемся повернуть этот вектор. 

Во-первых, хочется быть ненавязчивыми. Наверняка каждому хоть раз звонили из банка. И даже если вам хотят предложить что-то полезное, ненужная коммуникация раздражает. Поэтому мы стараемся напоминать о платеже только с целью сохранить хорошую кредитную историю клиента.

Ещё мы прогнозируем финансовые затруднения клиента на этапе, когда он еще и сам не знает, что станет должником. Так мы можем вовремя предложить посильную помощь, например, кредитные каникулы или рассрочку.

Ну и, конечно, все представляют, как тяжела работа в колл-центре. Нам, как банку, необходимо заботиться не только о профите для бизнеса и интересах клиентов, но и о собственных сотрудниках. Очень важно вести комфортный диалог, даже если приходится говорить о долгах. И в этом помогает машинное обучение. 

В 2020 году была такая картина:

  • один очень хороший, но все-таки единственный дата-саентист, один дата-инженер, два автоматизатора и тестировщик

  • витрина — всего 114 признаков

  • 4 модели LogReg на SAS 

  • на разработку каждой модели уходило до 3х месяцев.

Сейчас нас уже 10 человек, мы вырастили витрину до 1000 признаков,  у нас почти 20 моделей, 60% из которых — это бустинги на Python. Разработка сократилась до двух месяцев для новых решений и одного месяца для пересмотра существующих или разработки в рамках сжатых проектных сроков.

Предварительный Collection

8fcdd09de4be1618c0ae216cf1b3e4df.jpg

Первая модель, которая встречает вас в Collection, это PRE-collection (предварительный скоринг). 

Минутка банковской терминологии. Когда мы говорим «просроченная задолженность» — это не про деньги. Мы имеем в виду то количество дней, которое клиент не вносит свой платеж, когда уже должен был внести. Например, срок просроченной задолженности »7+» означает, что он не платит неделю или более.

PRE-collection, предварительный скоринг — самая ранняя и нагруженная модель Collection. На нее поступает весь непросроченный банковский портфель. Именно она, предсказывая выход в 7+ за неделю до плановой даты платежа, помогает нам оставаться ненавязчивыми.

Так мы сразу отсекаем высокодоверенный сегмент клиентов. Тех, кто не выходил в просрочку по данному договору в течение 3 месяцев и по всем договорам — в течение полугода. Таких клиентов взыскание не потревожит.

Остальные договоры (порядка 60 тысяч за один запуск) поступают на модельный скоринг. 

Для клиентов с достаточным остатком на счетах, которые редко входят в просрочку и долго в ней не задерживаются, — коммуникация ограничится ненавязчивым пушем в приложении. Например о том, что пора пополнить кредитную карту. 

В арсенале Collection много инструментов коммуникации: пуши, СМС, e-mail, звонки робота и оператора, и, конечно, выездное взыскание.

Ранний Collection

e13ac5b04f4cde7e8313e70e4cbe7e97.jpg

После PRE-Collection у нас стоит ранний Collection — с 3 по 6 день просрочки.  Здесь у хорошего клиента минимальная длительность просрочек. Он вносит платежи, даже если они недостаточны, а сумма оставшегося долга относительно небольшая. Особенность данной модели — скоринг на так называемых «сырых» точках. Это тоже банковская терминология. Точки — это договоры, которые вышли в определенную просроченную задолженность. 

Мы берем со схемы stage точки, рассчитываем для них агрегаты и сразу направляем на инференс. Так мы не дожидаемся расчета чистовых витрин и ловим самую первую просрочку, чтобы успеть прокоммуницировать на максимально раннем этапе.

Мягкий Collection

64ac9b7b31c3fecd200e405a114edc26.jpg

Мягкая модель средней просрочки. Здесь задержка платежа 1–2 недели, и мы предсказываем, что человек не заплатит в течение 30 дней.

Самый распространенный подход к оптимизации Collection — решение задачи бинарной классификации. В течение жизни клиента в банке накапливается история о нем. И на момент, когда он становится должником, мы уже знаем, как он реагирует. У нас бинарный таргет, целевое событие либо 0, либо 1: заплатил или не заплатил, открыл дверь или нет, откликнулся на коммуникацию или не взял трубку. 

Банку важно знать, какая доля портфеля находится под максимальным риском. Поэтому после того как проскорили договоры, мы строим матрицу Balance-at-Risk. Это цветная таблица, в одном углу которой находятся низкорисковые договоры с малым балансом (мы называем их low или light, кому как больше нравится), середина — это medium. Самые тяжелые по балансам договоры под большими рисками относятся к hard (или high, как приятнее звучит). Это называется сегментами, и именно такие сегменты отправляются бизнесу для проведения дальнейших взаимодействий.

Все было бы скучно и неинтересно, если бы не одно большое «НО» — эти данные мы получаем на выходах сервиса Персональный Ассистент.

Персональный ассистент

72113d7878dcf1bacb34487893ff9424.jpg

Персональный ассистент — внешняя технология, разработанная специально для блока Collection Газпромбанка. Это интонационная модель на данных записей диалогов клиентов и операторов колл-центра.

Персональный ассистент, как мы говорим «на бою» (в реалтайм), собирает диалоги, преобразует их в эмоциональные компоненты, а затем генерирует оператору подсказки. Это синергия живого и неживого. Искусственный интеллект пытается привести диалог к максимально успешному исходу, параллельно фиксируя факт этой самой успешности. 

Если вы не работали в колл-центре, я покажу вам мир глазами оператора нашего колл-центра. Интерфейс Персонального Ассистента выглядит примерно так:

ecea7f8e23715cc5a5c0c1e5e4a25ec9.jpg

На экране отображается таймлайн звонка и визуализация эмоциональных компонент. Работник видит как себя, так и того, с кем он находится на линии, а персональный ассистент генерирует релевантные подсказки. Подсказки могут быть достаточно стандартными из серии «Просрочка 20+, напомни, что это договор и что надо платить». И более специфическими: «Используй голос. Клиент должен чувствовать, что разговаривает с профессионалом».

Изначально, когда технология только вводилась, подсказки создавались экспертно. Мы собирали результаты звонков, смотрели, какие паттерны взыскания в колл-центре лучше работают. Обкатывали их на других клиентах,  заносили в базу данных, и затем все это попадало в руки самых первых операторов-тестировщиков технологии. Сейчас персональный ассистент находится на постоянной поддержке. С каждым новым релизом эта база обновляется, расширяется и становится интереснее.

Эмоциональный спектр

5ebaa5d7066788262d7c04fb1a6d7eb7.jpg

Персональный ассистент фиксирует спектр основных эмоциональных проявлений человека. Это эмоциональная радуга из 7 основных чувств: страх, отвращение, удивление, радость, безразличие, грусть и злость. Мы на своей стороне взвешиваем эмоции по вероятности, по длительности, делаем срезы. Можем взять последний диалог или посчитать статистики за месяц, за три, за неделю. 

Например, берем июнь и все диалоги оператора и клиента за этот период. В результате получаем сущность, которую называем эмоциональным профилем. 

Эмоциональный профиль

6e4774ab31963d24e96f7b3f661228f3.jpg

Мы собираем такие профили для всех операторов и всех клиентов и направляем на модель Soft в качестве дополнительных признаков.

Персональный ассистент — довольно молодая технология. Она работает в банке менее двух лет. Раскатывалась она постепенно, шаг за шагом охватывая все новых и новых операторов колл-центра. Но у нас уже есть несколько модельных инсайтов, которыми мы готовы поделиться:

  • Оператору не стоит проявлять раздражение, злость и другие отрицательные эмоции. Звучит очевидно, но все же, стоит воздержаться от криков, сарказма и нецензурной брани.

  • Агрессивные клиенты реже платят, что тоже вполне коррелирует с жизнью.

  • Неплательщики способны сильно удивлять операторов. Здесь причинно-следственную связь каждый может придумать самостоятельно, но, исходя из опыта, истории, почему люди не платят по своим счетам, бывают просто невообразимые.

  • Порой неплательщики сами удивляются звонку. «Ребята, почему вы мне вообще звоните? Ну, не плачу и не плачу». 

  • Большое количество подсказок ухудшает коммуникацию. Если оператор получает слишком много подсказок, он может начать звучать менее натурально и сбиваться.

    Совместимые люди

    Моделирование на эмоциях — сложная область, но мы видим ее перспективы. Сейчас у нас в разработке совместимость оператора и клиента, основанная на их эмоциональных профилях. 

    На картинке гипотетический оператор, гипотетический клиент и эмоциональные профили в разрезе месяца, недели и последнего звонка.

b9002a6a0d96c8521553f3c5269bd3c5.jpg

Согласно своему эмоциональному профилю, оператор может относиться, например, к типу «доброжелательный», а клиент к типу «обеспокоенный», и между ними будет случаться мэтч, то есть максимально эффективная коммуникация. 

Обещала рассказать, что такое результативный звонок. В нашей трактовке это синергия двух компонент:

  1. как протекал сам диалог: например, клиент кричал и бросил трубку или же наоборот был вежлив и терпелив

  2. непосредственный результат.

Идеальный результат — это урегулирование задолженности, то есть клиент заплатил в полной мере. Результат, близкий к идеальному, — это уменьшение задолженности, то есть хотя бы что-то заплатил, тогда оператор молодец, есть эффект. 

Конечно, мэтч основывается не только на данных эмоциональных профилей, но и на внутренней истории. Сейчас мы еще копим статистику, но совсем скоро, как говорится, stay tuned, мы расскажем, какие именно социально-демографические показатели на стороне оператора (стаж, возраст, пол, наличие детей или собственных кредитных обязательств) и как влияют на коммуникацию и совместимость.

То же самое касается клиентов. Есть определенные паттерны, по которым клиенты определенных эмоциональных типов более подвержены влиянию розничного взыскания через звонок. 

Конечно, у нас есть челленджи в разрабатываемой технологии:

  • Как распределить нагрузку на операторов? Это классическая задача нагрузки на колл-центр: как распределить звонки на операторов, если совместимые группы разновеликие 

  • Что делать, если клиент не подходит никому?

Второй челлендж интереснее: что делать с самыми сложными клиентами и кому их направлять. Если кто-то работал в колл-центре, он поймет, о чем я говорю. 

Расскажу секрет. Пусть мы и дата саентисты, но единственное, что мы пока придумали, это финансовую надбавку за терпение. 

Правдивые обещания

Помимо того, что звонок эффективен, также бывает, что клиент дает обещание об оплате долга. Факт дачи таких обещаний фиксируется на стороне оператора.

Если должник говорит, что он заплатит через 3 дня, теоретически ему могут дать трехдневную отсрочку. Но люди так устроены, что те, кто привыкли жить в долгах, для кого не платить — это образ жизни, очень быстро понимают, как устроена система, и начинают использовать эти знания против банка.

Соответственно, поведенческая история в банке плюс знание о том, что это ложное обещание, поможет нам выдавать эти 3 дня тем, кто действительно говорит правду. 

Выездной Collection

50218c798a304e12f652dbc0878ded7b.jpg

И вот мы уже на глубине 90 дней просроченной задолженности. Здесь нас встречает модель оптимизации выездного взыскания.

Это те самые люди, которые в теории могут приехать и постучать в дверь. Выездное взыскание — самый дорогостоящий ресурс для Collection. Понятно, что снарядить машину и отправить людей стоит денег. Плюс ко всему выезд — это максимальный стресс для должника. Поэтому мы модельно выделяем сегмент клиентов, которые закроет свой долг самостоятельно и не направляем к ним розничное взыскание.

Также по модели мы отсекаем тех, с кем такая коммуникация бесполезна. Бесполезным клиентом для модели Hard (модели оптимизации выездов) будет тот, у кого, например, нет активных телефонов, у кого высокий уровень утилизации лимита по кредиткам, кто давно не вносил платежи, у кого нарастает доля невыплаченного долга, и, конечно же, те, кто не идут на контакт или контакт с кем неуспешен.

В дальнейшем мы хотим перенести эту технологию на колл-центр. Пусть звонки не такие дорогостоящие как выезд, но нам нравится оптимизировать все, что можно оптимизировать (все, что нельзя, тоже нравится). К счастью, бизнес позволяет нам экспериментировать. 

Реструктуризация

0fdad77de4af63b682067d937cc42fe9.jpg

Наша третья цель — предвосхитить финансовые затруднения клиента и как-то помочь. Это большой блок моделей Collection — реструктуризация. Она делится на два типа в зависимости от того, кто инициирует запрос:

  • входящая (клиент сам пришел)

  • предодобренная (когда банк заранее оценил клиента и предлагает помощь).

Реструктуризация возможна когда клиент уже находится в просрочке, так и без нее. Для тех, у кого просроченная задолженность еще не возникла, доступны два самых приоритетных предложения:

  • пролонгация, то есть больше срок, но меньше, комфортнее платеж

  • отсрочка — возможность уйти на каникулы, какое-то время вообще не платить.

Если клиент уже в просрочке, первые два варианта также доступны с ограничениями и плюс предложение по пролонгации с гарантийным платежом.

Чтобы рассчитывать на лучшие предложения, нужно иметь стабильную работу и стаж, не обладать большим количеством разнородных кредитных обязательств и, конечно, предоставлять в банк достоверную информацию о себе. 

Ещё один шаг развития реструктуризации — «рестра в один шаг» — добавление этапа автоматического подтверждения дохода, чтобы клиенту не требовалось дополнительно подвозить документы в офис.

Каменный молоток и автоматизация

68d5c931e820991b26f9dff67bd15efb.jpg

Многим до сих пор кажется, что процесс взыскания — это примитивный инструмент, этакий каменный молоток: увидели должника, сразу поехали, если надо принять решение, засели за бумаги.  Но процессы более сложные, автоматизированные и оптимизированные. Кредит не сразу попадает на Collection. Договор рождается в виде заявки и проходит много проверок: минимальные требования на валидность, запросы в бюро кредитный историй, заявочные скоринговые модели, атифрод, андерайтинг и другие. И только потом, если все хорошо (или в нашем случае плохо), путь кредита завершается в Collection.

Когда это происходит, запускается большой алгоритм сбора данных. Мы храним свои данные в корпоративном хранилище и в Единой витрине. 

Корпоративное хранилище данных:

  • Договоры

  • Цепочки

  • Балансы

  • События

  • Просрочки

  • Платежи

  • Контакты

  • Графики

  • Филиалы

  • Продукты

  • Курсы валют

  • Адреса

В единой витрине данных уже есть сущности поинтереснее:

После того как данные собраны, они агрегируются. 

Расчет агрегаторов:

  • Готовность источников

  • Загрузка просрочек 

  • Стратегии точек 

  • Идентификаторы

  • Контактные данные

  • Предагрегация:

  • На клиента

  • Плановых платежей

  • Просрочек

  • Фактических платежей

  • Статей учета договоров

После окончания предагрегации по всем пунктам происходит формирование итоговой витрины.

И, конечно же, нам надо хранить ретро — некоторые модели для обучения нуждаются в данных на несколько лет назад. Формируется историческая витрина, и только после этого данные становятся топливом для моделей Collection. 

Инструменты

Инструментарный стек довольно классический:

Наша Big Data хранится в Hadoop под управлением Impala. Мы, как дата-саентисты, любим делать запросы либо из веб-интерфейса HUE, либо из своего Jupyter ноутбука.

Разработчики фичей хранят в Docker скрипты этих фичей. Мы, как DS, храним модельные артефакты, скрипты и прочее. 

  • Разработка & внедрение: SAS,  Python, Kubernetes, Airflow+dbt (расписание)

  • Расписание & мониторинг: Grafana, Airflow, Kibana, ЕССМ

Нагрузку на контейнеры, логи, красивые дашборды можно посмотреть через Grafana, Kibana или нашу внутреннюю систему сквозного мониторинга.

Процессы

Возвращаясь к каменному молотку. Для тех, кто никогда не видел, выглядят пересекающиеся треки автоматизации и моделирования выглядят страшно:  

b437d38f36f06b3fe02bbba7307d9d7c.jpg

Мы прекрасно понимаем, что без сбора данных, без аналитики над этими данными, без моделирования и без автоматизации здоровый ML-продукт не получится. Поэтому мы выбираем нашу цель, декомпозируем ее на задачи, и в тесном командном взаимодействии проходим по схеме, отдавая бизнесу готовое ML-решение.

Если погружаться чуть-чуть глубже, стоит упомянуть, что у нас батч-решения, то есть мы скорим договоры большими порциями. Скоринг запускается параллельно для всех моделей в заданный ночной интервал, а утром бизнес забирает результат.

Итоги

Наша команда сильно расширилась за последнее время. Мы достигли прироста взыскания на малой и средней просрочке более чем на 5%, а сборы на глубокой просрочке вырастили в два раза.

Нам очень сильно повезло: наш бизнес позволяет довольно глубоко погружаться в его процессы, это — синергия бизнес-идей и ML-подходов к их реализации. У нас бэклог, полный амбициозных задач (лет пять еще скучать не придется), и мы этому очень рады. 

И самое важное, Collection в Газпромбанке — это работа в векторе заботы о людях. А DS-команда Collection — это евангелисты, которые не только увеличивают сборы задолженностей, но и наращивают лояльность клиентов, успевая заботиться о сотрудниках колл-центров и выездного взыскания. 

© Habrahabr.ru