Что важно учесть при построении BI-платформы: взгляд провайдера инфраструктуры
Маркет
C 2022 г. зарубежные сервисы по организации корпоративной аналитики и BI начали покидать отечественный рынок. И тренд на импортозамещение стал частью повседневной практики для многих российских компаний.
Сегодня сложно прогнозировать развитие BI-направления, но наличие плана Б может снизить риски для организаций. Мы в Selectel следим за тенденциями на рынке и готовы предложить альтернативные платформенные решения для размещения аналитических систем.
В этом тексте расскажем, что важно учитывать компаниям при выборе, обслуживании и развитии BI-платформы. А в конце рассмотрим доступные решения и тренды.
Путь организации BI-платформы
В текущих условиях компаниям пришлось частично или полностью отказаться от лицензированных BI-решений зарубежных вендоров. Каждая организация адаптировалась и перестраивала стек по-своему.
Есть компании, которые отказались от миграции и продолжают использовать западные инструменты, обходя сложности с закупкой или напрямую игнорируя лицензионные соглашения. Это накладывает определенные риски в случае, если вендоры вернутся на российский рынок.
Другие компании мигрировали на российские и китайские решения. И если в России выбор среди вендоров большой, то в Китае ситуация противоположная. Тем не менее китайские поставщики явно готовы выходить на рынок с помощью российских интеграторов.
В третьем сценарии компании мигрируют на Open source решения (например, Superset, Metabase и Redash) или разрабатывают собственные инструменты. Этот путь больше свойственен технологическим компаниям с компетенциями инженеров и организациям, которые используют преднастроенную инфраструктуру вроде виртуальных серверов для аналитики и ML.
И последняя категория компаний — организации, которые перешли на гибридную схему и сочетают элементы каждого из подходов. Они могут использовать, например, Open source инструменты в связке с коробочными решениями для отдельных команд аналитики.
Функциональность BI-платформы
В современном инструменте для BI и аналитики должны быть доступны, как минимум:
- миграция данных и моделей, а также ETL/ELT-процессов из старых в новые системы;
- горизонтальное масштабирование при росте нагрузок;
- гибкая лицензионная политика
- возможность совместной работы.
Чтобы в инструмент можно было подгружать информацию из разных источников, должны быть встроенные коннекторы, базы данных и хранилища для выгруженных данных. Вместе с этим — инструменты для преобразования данных, чтобы их можно было не только забирать из источников, но и агрегировать, фильтровать и использовать для создания моделей.
Приятным дополнением будет, если BI-инструмент поддерживает настройки прав доступа (RBAC), интеграцию в веб-приложения и сайты (embedded analytics), а также возможность организации self-service аналитики.
Модели организации BI-платформы
Рассмотрим модели организации BI-платформы подробнее. Их можно разделить по способу развертывания инфраструктуры.
На базе облачной платформы (по модели SaaS)
Данные и визуализации с дашбордами находятся в облаке поставщика, у клиента нет полного контроля над ними. Например, так работают Power BI, Tableau, Google Data Studio.
На базе «коробочных» или Open source решений
BI-платформа может быть развернута на инфраструктуре поставщика или заказчика.
На базе Open source решений и преднастроенной облачной инфраструктуры
Все данные и сервисы находятся в облаке провайдера, но у клиента есть доступ к вычислительным ресурсам и операционной системе. Он может настроить платформу под себя, но это опционально — все уже готово к использованию.
Яркий пример — DAVM, специально подготовленная виртуальная машина для работы с аналитическими задачами и машинным обучением. Она позволяет:
- разрабатывать ML модели c помощью PyTorch, TensorFlow, Keras, XGBoost и OpenCV;
- строить процессы обработки данных в среде Prefect;
- визуализировать данные с помощью Apache Superset.
Как выбрать модель
Чтобы выбрать модель организации BI-платформы, нужно оценить свои компетенции и определиться с нужной функциональностью.
Определите уровень знаний и навыков в команде
В случае, если человек использует готовую платформу, набор действий для ее запуска сводится к минимуму. Достаточно арендовать платформу на нужный период и нажать кнопку «Поехали». На этом этапе клиент не обязан быть специалистом и разбираться в тонкостях настроек. Максимум, кто может понадобиться, — несколько BI-разработчиков и аналитиков для построения пайплайнов.
С коробочными и Open source решениями ситуация другая. Чтобы установить и настроить, например, ETL/ELT-процессы, правильно организовать утилизацию ресурсов и преднастроить взаимодействие сервисов между собой, понадобятся DevOps- и DataOps-инженеры.
Оцените сложность ваших задач и подберите нужную функциональность
У каждого инструмента свои возможности, но не каждый из них можно модифицировать. Если использовать готовое SaaS-решение, скорее всего, вы получите большой набор функций. Но весомую часть из них не сможете использовать в работе и будете сильно завязаны на сервисах поставщика.
Если вы решили развернуть коробочное решение на собственной инфраструктуре, вероятно, проблемы сохранятся. Платформа может быть проприетарной и несовместимой с продуктами других поставщиков. Кроме того, это закрытый код, который нельзя изменить под себя.
В случае с чистым Open source тоже непросто. Допустим, вы хотите одновременно реализовать BI и работу с моделями машинного обучения на одних и тех же данных и ваш стек — это PostgreSQL, Superset и JupyterLab с TensorFlow. Их нужно не просто установить, но и «подружить» между собой. При этом важно избежать конфликтов версий, настроить контейнеры и рабочее окружение, научиться утилизировать вычислительные мощности. Ограничения по функциональности минимальны: можно реализовать что угодно, но это требует ресурсов.
Выводы
Если у вас нет специалистов с глубокой экспертизой, стоит сделать выбор в пользу вендорских или SaaS-решений. В таком случае вы получите набор готовых функций, которые не нужно самостоятельно дорабатывать. Если такие специалисты есть, можете использовать коробочные или Open source решения. Так вы кастомизируете функциональность и инструменты под собственные нужны.
Компромиссный вариант — облачная инфраструктура с предустановленными и настроенными Open source инструментами. Например, в DAVM клиент получает готовую рабочую среду, которую может использовать без дополнительных настроек. Но если что-то нужно изменить, это всегда можно сделать самостоятельно или с помощью специалистов облачного провайдера.
Тренды развития рынка BI
Как и другие факторы, мировые тренды влияют на организацию BI-платформы. Рассмотрим их основные направления.
Миграция в облако
Облачные технологии позволяют создавать быстро масштабируемые и выгодные с точки зрения операционных затрат платформы. Вместо того чтобы закупать собственные серверы и самостоятельно их обслуживать, можно воспользоваться готовыми решениями провайдера. Например, арендовать облачный сервер и наращивать мощности при необходимости.
Помимо этого, при росте нагрузки такая платформа сможет поддерживать горизонтальное масштабирование BI-системы: можно добавлять несколько параллельно работающих серверов и гибко распределять пользовательскую нагрузку между ними.
Если BI-платформа развернута на базе облачного сервиса, ее легко можно подключить к дополнительным продуктам и услугам, которые упрощают работу с большими данными. Например, к облачным СУБД, объектному хранилищу и другим инструментам.
Внедрение прикладных AI и ML
Компании продолжают внедрять в свои BI-платформы инструменты искусственного интеллекта и машинного обучения (Augmented Business Intelligence, ABI). Среди них можно выделить Power BI, Tableau, Qlik и ThoughtSpot. В таких решениях AI-алгоритмы очищают и структурируют данные, а ML использует их для обучения, выявления закономерностей и принятия решений.
Platform Development
При работе с BI-системами есть две заинтересованные стороны: бизнес и аналитическая команда. Когда объем данных становится слишком большим, у команды не хватает ресурсов удовлетворять все запросы от бизнеса. Для решения этой проблемы существует модель self-service: она упрощает доступ к данным и помогает бизнес-пользователям получать ответы на запросы без участия аналитиков.
Подобный подход предполагает развитие BI-инструмента в качестве единой платформы для работы с несколькими командами. Она способна выдерживать большие нагрузки и обеспечивать прозрачное взаимодействие как с системой, так и между сотрудниками. Для ее поддержания, как правило, выделяется отдельная инфраструктурная команда. Остальные либо отвечают за функциональность системы (хранение, обработку, моделирование данных, обеспечение качества и централизованного хранения метаданных), либо их распределяют по кросс-функциональным направлениям: продажи, маркетинг, продукт и другие.
В результате современные BI-платформы перестают быть инструментом только для создания дашбордов, предлагая пользователям дополнительные возможности. Например, структурирование и хранение данных в единой системе, а также — прогнозирование результатов с помощью машинного обучения.
■ erid:2SDnjdPfGqvРекламодатель: ООО «Селектел»ИНН/ОГРН: 7842393933 / ОГРН 1089847357126Сайт: https://selectel.ru/
Полный текст статьи читайте на CNews