Platforma и HFLabs выпустили решение для матчинга

Разработчик решений для бизнеса на основе big data компания Platforma и HFLabs, создатель программных продуктов, дающих бизнесу точную информацию о своих клиентах, протестировали технологию безопасного матчинга данных двух разных игроков рынка. IT- компании разработали алгоритм преобразования и совмещения баз данных, учитывающий требования существующего законодательства и позволяющий выявлять общих клиентов и предлагать им совместные программы лояльности, новые продукты и сервисы. Кроме того, он может улучшать коммуникацию с пользователями, увеличивать конверсию и прочие подобные вещи.

b1b733d73bb8595c0c8260a776c38a28.png

3c87e10b7db3132f49dcddd543134c1c.pngАлексей Каштанов

Генеральный директор Platforma 

«Специализированное решение, доработанное партнером под нашу задачу, доказало свою работоспособность и эффективность. Оно применимо для работы с базами как физических лиц, так и юридических. Мы намерены масштабировать это решение и оформить в полноценный продукт для бизнеса. Выявление общих клиентов позволит различным компаниям разрабатывать новые совместные программы лояльности или специальные предложения для пользователей, углубить своё знание и понимание клиентов. Вместе с этим потребители быстрее получат доступ к новым услугам: например, банк охотнее выдаст кредит, зная, что клиент исправно оплачивает сотовую связь у провайдера».

Первыми участниками пилотного проекта стали ВТБ и Ростелеком. С помощью представленного алгоритма объединили клиентские базы, содержащие вместе около 250 млн записей. Решение Platforma и HFLabs позволило найти группы клиентов, пользующихся услугами обоих участников пилота, без использования и передачи их персональных данных. Чтобы достичь такого результата, работу вели с синтетическими идентификаторами UUID, не являющимся персональными данными и состоящих из случайного набора букв и цифр фиксированной длины. Кроме того, была использована двухэтапная схема распределенного преобразования данных с использованием защищённого ключа-«секрета». При подготовке к работе данные хэшируются в два этапа с применением сессионного секрета, доступного только владельцам данных, а затем передаются в федеративный хаб, так называемое «сердце» IT-архитектуры. Хаб сравнивает хэши и находит пересечения в клиентских базах. Модель обмена поддерживает несколько способов хэширования данных, методы по ГОСТу. 

Разный формат клиентских данных представлял одну из сложностей проекта. Даже внутри одного бизнеса нередко существуют различные IT-системы (CRM, биллинговые, кредитные портфели и многое другое), где информация хранится в разном формате с разным набором полей, характеристик. К примеру, в одной системе имя было записано как «Наталья», а в другой — как «Наталия». Решение для матчинга учитывает эту особенность и сначала ищет схожие данные с помощью механизмов дедупликации и алгоритмов, учитывающих синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов. 

Другой важный критерий при матчинге — это скорость. Первый этап хэширования может занять до двух дней. На втором этапе хэширования может потребоваться до нескольких часов.

d8b1f73e241f26798e4188759c045e92.pngКонстантин Степанов 

Исполнительный директор IT-компании HFLabs 

«Наше решение обеспечивает безопасную, быструю и точную идентификацию клиентов в базах разных организаций. Это важный шаг к созданию федеративных экосистем, объединяющих разные компании с равными правами. Бизнес сможет не только найти общих клиентов, но и понять, какие товары и услуги они покупают».  

© Habrahabr.ru