Какую выгоду могут принести большие данные: разбираем кейсы
Большие данные и аналитика открывают перед бизнесом принципиально новые возможности. Участники секции «Большие данные и бизнес-аналитика» очередного «CNews FORUM Кейсы: Опыт ИТ-лидеров 2022» обсудили, какие задачи и какими инструментами можно решать. Можно ли довериться моделям машинного обучения? Что делать, если западные решения недоступны?
Новые возможности известных решений
С российского рынка уходят западные игроки, и для отечественных компаний это значит лишь одно — пришло время мигрировать на новые платформы. Путь тернист: компетенций для того, чтобы писать собственные решения, часто не хватает. И даже те компании, которые давно используют отечественные решения, задумываются, соответствуют ли они всем требованиям по гибкости, быстродействию. Как быть в этой ситуации, рассказала в своем выступлении Ирина Черногузова, главный консультант EPM-практики «МКСКом».
«МКСКом» — интегратор с 20 годами проектного опыта на платформе 1C для крупнейших государственных и частных заказчиков. Компания разработала свою low-code-платформу EPM, которая помогает работать с международными стандартами финансовой отчетности, формировать отчетность для органов исполнительной власти, а также заниматься бюджетированием. Платформа EPM предназначена для модернизации финансового и управленческого контуров. Среди ее преимуществ возможность настраивать неограниченное количество аналитик, работать с миллиардами записей в больших таблицах на сотни колонок. Скорость обработки данных может в 100 раз превосходить таковую в унаследованных системах, нуждающихся в замене.
«Универсальность нашего решения обеспечивается несколькими факторами: во-первых, возможностью применения в компаниях любого сегмента — от малых до самых крупных. Во-вторых, продукт может использоваться и самостоятельно, и в виде расширения к решениям семейства 1C. Наконец, платформа позволяет тем компаниям, которые раньше не работали с 1C, зайти на это поле, и тем, кто считает, что »1С: Управление холдингом» — это дорого. Четвертым фактором является модульная архитектура. Она позволяет переходить на продукт плавно и безболезненно, особенно в условиях экономии бюджетов на ИТ», — пояснила Ирина Черногузова.
Чтобы доказать возможность работы своего решения с 1С не только на малых и средних предприятиях (считается, что из-за ограничений в программах на запись, чтение и обработку больших объемов данных крупным компаниям 1С не подойдет, нужно использовать западные решения), Ирина Черногузова рассказала о конкретных кейсах. Например, у одного из заказчиков, федерального органа власти, ежемесячное количество записей в базу данных составляло 700 млн строк, ежемесячный прирост файлов CSV — 5 Тб, входящих аналитик в прежнем решении — 100 штук.
Результаты проекта для федерального органа власти
В новом решении поменяли архитектуру, стали использовать брокер сообщений и колоночное хранилище, применять словари PostgreSQL. Визуализация выполнялась в BI-системе.»1С мы сохранили, но в конце этой «пищевой цепочки». Удалось добиться того, что входящие остатки загрузились за 4 часа против двух месяцев, которые бы потребовались на чистом 1С. В целом, структура стала более современной и высокотехнологичной», — рассказала Ирина Черногузова. Теперь консультанты могут работать с хранилищем данных самостоятельно.
В ходе работы секции состоялся первый публичный анонс сотрудничества между компаниями Arenadata, поставщиком платформы управления большими данными, и ГК Luxms, поставщиком BI и ETL-систем (Luxms BI и Luxms Data Boring). Они объединили усилия для обеспечения эффективного использования данных российскими организациями.
«Сейчас мы видим большой интерес крупных компаний к теме управления данными и каталогам данных. Честно скажу, для меня это приятный сюрприз. Я в этой сфере работаю давно и вижу, как рынок становится более зрелым», — сказал Иван Новоселов, директор проекта «Каталог данных», Arenadata.
Бывает так, что при попытке решить какую-нибудь прикладную задачу, получается, что 80% времени расходуется не на решение как таковое, а на поиск данных: что есть у компании, можно ли это применять на практике и кто за это отвечает. При внедрении инструментов для совместной работы с данными и каталогов соотношение меняется: данные находятся за минуты, и теперь на их анализ, подготовку моделей и выводы тратятся 80% времени, а не 20%, как раньше.
Arenadata и Luxms вместе создают продукт для поддержки процессов Data Governance — Arenadata Catalog. Среди основных принципов развития продукта открытые стандарты и архитектура, автоматизация рутинных задач управления данными, поддержка всего цикла работы с данными и уровней инфраструктуры, фокус на задачах пользователей. Решение базируется на Open Source компонентах, интегрировано с LDAP, управлением ролями и группами, имеет функционал по управлению рабочими процессами (согласование изменений), включает в себя бизнес-глоссарий и поддерживает русский язык. Пока Arenadata Catalog находится в разработке.
Пласт совместный работы большой. Дмитрий Дорофеев, главный конструктор, ГК Luxms рассказал о еще одном продукте — Luxms BI Arenadata Platform Edition — и преимуществах этого интегрированного с платформой данных BI-решения.
Luxms BI представляет собой гибкую систему, позволяющую наращивать функционал. Она дает возможность заказчику создавать и свои микросервисы. Данные здесь хранятся в виде трех слоев: горячего (свежие данные за последний год), теплого (данные за 5 лет) и холодного. По мере устаревания, данные переходят на следующий слой с помощью ETL-инструментов, но при этом вся платформа должна поддерживать такую концепцию. Arenadata Platform позволяет создавать и поддерживать нужную систему хранения.
«Для конечного пользователя по функционалу ничего особо не меняется, будет то же ядро, которое мы развиваем несколько лет. Сейчас же были предприняты интеграционные усилия, чтобы Luxms BI устанавливался и эксплуатировался так же, как все остальные компоненты Arenadata Platform», — пояснил докладчик. Решение поддерживает Arenadata Cluster Manager, что обеспечивает более удобное и быстрое развертывание Luxms BI в кластерной конфигурации. Предусмотрена возможность распределять сервисы Luxms BI по нескольким серверам, что позволяет тонко настраивать производительность системы под задачи заказчика.
Для решения ETL-задач Дмитрий Дорофеев предложил инструмент Luxms Data Boring, который помогает инженерам и аналитикам готовить данные для эффективной скоростной визуализации в Luxms BI, когда витрины DWH неудобны. Он понадобится, если хранилище медленное, пользователей много и для выполнения сложной обработки данных не хватает ресурсов или нет желания нагружать хранилище запросами из BI. «Интерфейс пользователя мы сделали так, чтобы он был понятен даже не самым подготовленным дата-инженерам. Например, наши новые сотрудники — вчерашние студенты без особого опыта — очень быстро осваивают Luxms Data Boring и выполняют сложные задачи. Делают какие-то экзотические штуки, например, стыкуются с каналами в «Телеграм» или вытаскивают котировки акций из html-страниц, то есть используют инструмент нестандартно», — пояснил Дмитрий Дорофеев.
Какая польза от контакт-центра
Если у компании есть свой собственный контакт-центр, это нужно использовать, что и произошло в организации, которую представлял Станислав Ляховецкий, заместитель генерального директора «АктивБизнесКонсалт» (входит в группу «Сбер»). На основе данных из контакт-центра здесь разработали несколько продуктов речевой аналитики, которую не только предлагают заказчикам, но и используют сами. «Мы выводим на рынок только те решения, которые попробовали и обкатали сами. Использование речевой аналитики помогло нам увидеть ту часть айсберга, которая обычно скрыта под водой. С ее помощью нам удалось оптимизировать некоторые бизнес-процессы», — рассказал докладчик.
Как и о чем сотрудники говорят с клиентами? Следуют ли они скриптам и стандартам? Каковы точки роста в диалогах сотрудников с клиентами? Как повысить их эффективность и конверсионность? В звонках скрыты тренды и инсайты, которые можно найти и оценить проблемы бизнеса, предвосхитить ожидания клиентов.
В рамках развития решения по речевой аналитике здесь занимаются диаризацией, то есть разделением входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему, не только стерео, но и монозаписей, которые тяжелее поддаются обработке.
На основе полученных данных компания строит модель выгорания операторов, модель определения эмоций. Действие последней Станислав Ляховецкий продемонстрировал на практике, запустив аудиозапись реального диалога. Оператор видит, какая эмоция преобладает у респондента и получает подсказки по дальнейшему ходу разговора. «Фактически, это персональный ассистент оператора, который поможет ему вести диалог», — добавил докладчик. Сами данные размечаются также с помощью собственного решения — Elementary.
Для HR-отдела компания использует сервис голосового скрининга — он помогает набирать людей на массовые, типовые вакансии. Робот позвонит и проведет небольшой диалог, сможет ответить на простые вопросы, например, в чем заключаются требования к кандидату или какая зарплата предполагается. Наймом дело не ограничивается. Этот же сервис можно использовать для решения самых разных задач, например, для фрод-аналитики по кредитам, для звонков должникам и даже для предсказания жалоб клиентов колл-центра.
Третий продукт, представленный на конференции, помогает защититься от мошенников. Учитывая, что каждый десятый звонок поступает от недобросовестных людей, задача очень актуальная.
Защита от мошенников — новая ESG-повестка
Входящие звонки в реальном времени анализируются искусственным интеллектом, который обучен выявлять мошеннические схемы. Если в разговоре обнаружены признаки мошенничества, то пользователь, подключивший сервис, услышит специальное звуковое сообщение. Голосовой поток при этом не сохраняется, поэтому можно не беспокоиться о приватности. «Я еще ни у кого не видел подобного решения», — говорит Станислав Ляховецкий.
Искусственный интеллект не сдается
Теме искусственного интеллекта (ИИ) решил посвятить свое выступление Сергей Алешкин, глава департамента Data Science СОГАЗ. «В 2020 году объем рынка ИИ в России составлял 291 млн долларов и сейчас, несмотря на все события, он приносит ценность компаниям», — говорит он.
В области страхования 30% компаний применяют ИИ в тех или иных бизнес-процессах (проведение скоринга при предстраховой проверке, аналитическое выявление мошеннических убытков и так далее), при этом 25% клиентов уже готовы полностью перейти на цифровое страхование.
Искусственный интеллект — ключевой элемент цифровой трансформации
Одной из важных задач является прогнозирование ухода клиента и его удержание от такого шага. При применении ИИ в кросс-продажах, 40% клиентов из отобранных машиной были готовы купить продукты добровольного страхования в ближайшее время. Алгоритмы отбрасывали 98% тех, кто оказался не заинтересован в покупке, таким образом снижая трудозатраты сети на кросс-продажи в 30 раз.
Чтобы успешно внедрить ИИ, докладчик предложил придерживаться нескольких принципов. По его мнению, внедрение следует начинать с бизнес-процесса, где он сможет принести максимально быстрый эффект. Реальная бизнес-выгода с понятным сроком окупаемости повышает доверие к ИИ в компании. В начале внедрения лучше использовать легко интерпретируемые модели, к примеру, логистическую регрессию. Это снизит модельный риск, так как позволит на ранней стадии проверить правильность оценки моделью факторов, влияющих на целевой показатель.
Если говорить о моделях, то Сергей Алешкин рекомендует строить быстрые прототипы моделей и не бояться ошибок. В среднем, из 10 подготовленных моделей «взлетает» только одна-две. Кроме того, нужно постоянно отслеживать качественные метрики используемых моделей. Модели ИИ настраиваются на текущие значения параметров, к примеру, на уровень дохода. При существенных изменениях этих условий качество прогноза модели может критично снизиться.
О новой концепции машинного обучения — Reliable ML — предложила поговорить Ирина Голощапова, глава департамента Data Science компании «Лента». Reliable ML помогает сделать так, чтобы результат работы data science и big data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а во-вторых, приносил бы компании финансовую пользу. «Направление возникло потому, что за последний десяток лет, особенно на фоне хайпа, связанного с машинным обучением, многие разрабатываемые модели оказывались неприменимы или приносили не тот эффект, который ожидался. Все ошибки, которые были собраны, породили новую концепцию», — рассказала Ирина Голощапова.
Технологически Reliable ML состоит из 3 крупных блоков: интерпретируемость моделей машинного обучения — логика моделей должна быть понятна конечному пользователю; причинно-следственный анализ ML и дизайн системы машинного обучения в целом.
Цифровые новинки ВТБ: от биометрии для веб-версии до банка в Telegram
ИТ в банкахВ «Ленте» Reliable ML используется для того, чтобы наилучшим образом выбирать геолокации для открываемых магазинов. Прогноз выручки для конкретных локаций — основа бизнес-процесса. Модель должна учитывать ключевые факторы, способные повлиять на финансовую выгоду от открытия магазина в кратком и долгосрочном периодах. Как же ML-модели встроиться в текущую инициативу, чтобы приносить пользу?
Фреймворк Reliable ML — какова цель решения задачи с помощью ML?
«Если в начале любой инициативы, связанной с продвинутой аналитикой, спросить у математиков, дата-сайентистов, каким будет результат их работы, они ответят, что этого никто не знает», — объясняет докладчица. Среди ее рекомендаций — идти от простого к сложному при создании ML System Design, причем усложнение должно быть последовательным, по мере роста коммерческого эффекта. Нужно создать базис и опытным путем найти все блоки в бизнес-процессе, которые могут критически повлиять на дизайн системы машинного обучения, а потом скорректировать бизнес-требования и кристаллизовать метрики качества, с помощью которой будет оцениваться качество работы модели.
4 проблемы ИТ в филиалах и способы их решения
ИнтернетВ «Ленте» начинают с простого аналитического расчета с учетом экспертизы в доменной области, затем переходят к более точной оценке ожидаемой выручки за счет учета большего числа зависимостей и данных. Третий этап — переход от ретроспективной к прогнозной аналитике (как изменится выручка магазина, если изменить определенные параметры геолокации?). Четвертый этап — предписательная аналитика, ответ на тот самый вопрос о наилучшей локации для новой торговой точки. Чаще всего это делается с помощью тепловых карт.
Устройство используемой геомодели
Оценить эффективность полученной модели тоже непросто. Простое сравнение средних не работает. Сложно отличить эффект от случайности, влияния внешних факторов. Непонятно, повторится ли найденный эффект при новом эксперименте. Единая методика оценки эффективности инвестиционных инициатив — ключевой стрим для поддержки цифровой трансформации компаний. Нужно проводить АБ-тестирование. Если оно не работает, то стоит использовать группу методов причинно-следственного анализа — Counterfactual Analysis.
Самообслуживание для бизнес-аналитиков
Сразу два спикера предложили обсудить селф-сервисы в бизнес-аналитике. Именно на такой инструмент, полезный, в первую очередь, бизнес-пользователям, сделали ставку в Объединенной металлургической компании. «Мы хотели сделать так, чтобы не нужно было привлекать ИТ-специалистов. Вместо этого мы собрали заинтересованную команду бизнес-пользователей, провели обучение, сделали много обучающих инструкций и видеороликов, организовали возможность консультаций с поддержкой и закупили лицензии на выбранный софт — это было Tableau», — описывает Павел Ульихин, начальник отдела компетенций BI и RPA Объединенной металлургической компании.
В 2019 г. проект по переходу на BI-самообслуживание был завершен и превзошел все ожидания. Компания была вынуждена закупить дополнительные лицензии, потому что все больше пользователей стремилось работать таким образом. «Все закончилось на мажорной ноте, однако уже через какое-то время мы столкнулись с непредвиденными сложностями», — делится спикер. Пользователи постепенно стали терять интерес к BI-разработке. Новых специалистов приходилось постоянно дообучать. Проектом заинтересовалось руководство, и топ-менеджмент начал присылать запросы на дашборды. У бизнес-пользователей не хватало квалификации и времени, чтобы выполнить разработку на должном уровне. Центра компетенций в компании не существовало, потому что не с поддержкой помогал подрядчик, который внедрил Tableau. Получилось, что ресурс для оперативного решения важных вопросов, не работает.
Компания засомневалась: правильна ли была ее ставка на самообслуживание? Не лучше ли было заняться централизованной разработкой, как это делает большинство компаний? В результате дискуссий решили развивать оба направления.
Итог работы в двух направлениях
Практика использования BI-самообслуживания есть и в компании «Комус». Взглядом на селф-сервис с точки зрения ИТ-специалистов поделился Павел Мартынов, руководитель BI. «Основной нашей работой была разработка по заказам бизнеса. Бизнес приходит и спрашивает: мы поставили восемнадцатую задачу в приоритет, когда вы сделаете? Да никогда! В общем, нормальная айтишная жизнь», — смеется докладчик.
При этом в компании оказались грамотные бизнес-пользователи, которые готовы были заняться всем: загрузкой данных, их нормализацией, выводом, созданием моделей. Таких людей было немного — из 11 тыс человек штата примерно 10–15. Задачей ИТ стало обеспечить таких пользователей платформой, песочницей, где они могли бы делать нужные для себя вещи.
Аналитика в «Комусе» была разделена на 2 больших сегмента: отчетность и продвинутая аналитика. В первом сегменте работают решения, полностью поддерживаемые ИТ-департаментом. Здесь большое количество пользователей. Возможности изменения алгоритмов с их стороны минимальны, хотя они могут менять визуализацию отчетов, но в ограниченном масштабе. Алгоритмы преобразования данных централизованы, созданы специальные регламенты по их изменению.
Что касается второго сегмента, то именно тут и было реализовано самообслуживание — команда ИТ поддерживает только инфраструктуру. Число пользователей ограничено, но зато алгоритмы преобразования данных могут создаваться и изменяться аналитиками бизнес-подразделений. Далее создается процесс передачи аналитических решений на сторону ИТ, после чего продуктивное решение начинает поддерживать уже этот департамент.
В рамках проекта было отсмотрено несколько перспективных решений, проведены пилоты. В итоге были выбраны Knime analytic server — система self-service ETL и визуального анализа данных; Tableau — визуализация данных; Superset — система визуализация данных; Arenadata DB — решение для единого аналитического хранилища; JupyterHUB — система продвинутой аналитики; кластер виртуальных машин с увеличенным количеством ресурсов (5 виртуальных машин с 4 ядрами и 100 Гб ОП, с возможностью одновременного входа пользователей).
В компании также был создан портал продвинутой аналитики на основе решения JupyterHUB. Он дает возможность запускать скрипты на Python на сервере с доступными ресурсами, если надо, то по расписанию. Скрипты можно передавать между аналитиками.
Встраивание частей селф-сервиса в рабочие процессы по обработке данных, которые поддерживает команда ИТ, — это основной путь, который ИТ старается пропагандировать среди бизнес-подразделений. Основную работу по подготовке и хранению данных на себя берет ИТ, тогда как остальные отделы реализуют только часть алгоритмов по обработке данных. Такие алгоритмы ИТ-департамент встраивает в стандартные цепочки обработки данных в хранилище, а на бизнес-сотрудниках остается визуализация.
Не стесняться и подключить к BI-аналитике сразу тысячу пользователей предложил Константин Ракитин-Кейзер, директор по развитию бизнеса Easy Report Sapiens Solutions. Главная проблема внедрения платформ данных заключается в том, что предпринимаются серьезные усилия, делаются колоссальные инвестиции, а в результате выходит, что пользуются данными и отчетами лишь 10% сотрудников компании. Данные должны быть более доступны.
Ответом на эту задачу стал инструмент Easy Report, который дает возможность получать отчетность через любой выбранный мессенджер. Он прост в использовании, позволяет делать запросы на естественном языке, работает с данными любого типа и всегда под рукой — смартфоны сейчас есть практически у всех. Данные выводятся в простом формате и не требуют предварительной подготовки.
«Easy Report очень удобен для топ-менеджмента, торговых представителей и для всех, кто не имеет мощного бекграунда в сфере аналитики, но нуждается в конкретных ответах прямо сейчас. Например, торговый представитель уехал в Тамбовскую область и его спрашивают, какие продукты компании были у вас топ-5 в первом квартале 2021 года. Человек может открыть свой «Телеграм», написать «топ-5» и »2021» и моментально получить ответ», — говорит Константин Ракитин-Кейзер.
Архитектура Easy Report
Развертывание Easy Report занимает всего 4 недели и доступно как внутри контура предприятия, так и в облаке. «Все, что нужно нашему клиенту, чтобы начать получить данные, — это подготовить витрину и поверх нее описать понятийно-семантический слой, в котором термины, используемые в компании, будут привязаны к конкретным элементам данных. Больше не нужно строить множество дашбордов для каждого из пользователей», — говорит Игорь Пантелеев, архитектор и соучредитель компании Sapiens Solutions.
Немного философии
Предложил завершить секцию философской беседой о теории и знании как таковом Юрий Сирота, эксперт в области больших данных и искусственного интеллекта. По его мнению, незнание теории приводит к тому, что каждая задача воспринимается как новая. Но задачи могут быть объединены общей методологией и иметь общие принципы решения. «В условиях агрессивной внешней среды, санкций тяжело работать экстенсивно. Нужно работать интенсивно и выжимать максимум из того, что есть», — говорит Юрий Сирота.
Чтобы не «катать квадратное, носить круглое», можно воспользоваться знаниями, позволяющими превратить информацию в лучшее практическое действие любого масштаба. Decision intelligence предназначена для создания программных систем, которые помогут сделать лучший выбор решения (data science) среди возможных альтернатив, рекомендовать дальнейшие действия и предложить результаты заинтересованным лицам.
В основе Decision intelligence лежат математические методы, разрабатываемые в рамках дисциплин, таких как теории оптимизации, ИИ (data science, статистика, эконометрика), управление данным (data governance), DB и BI. Сначала описание процессов формализуется с помощью формул. Дата-сайнтисты находят закономерности и пытаются выстроить математическую зависимость, из которой будет сформирован набор альтернатив. Решая задачу оптимизации, пользователи будут выбирать альтернативу из этого набора.
Decision intelligence не предназначена для того, чтобы заменить человека. Она оказывает помощь в принятии решения и может повысить его эффективность. Опыт, интуицию и знания человека заменить нельзя, а вот предоставить ему новые возможности для обработки многомерных и больших данных можно. «Когда считается, что все можно оцифровать — это математический экстремизм, фанатизм и невежество. Не все можно оцифровать, не все можно смоделировать и не все следует валить на математика. Эксперту тоже надо принимать решения. Эксперт — это очень важно. Big Data и Data Driven — термины хайпа. Данные сами по себе не имеют ценности, это центр затрат. Ценность данных появляется только тогда, когда мы их проанализировали и применили для изменения бизнес-процессов», — подчеркнул докладчик.
Наталья Николаева
Полный текст статьи читайте на CNews