Переходим от BigData к DataLake
Интеграция
Data-driving актуален для всех компаний мира, но он требует инфраструктуры. Располагая данными, к ним нужно иметь доступ — быстрый, простой и, по возможности, обеспечиваемый с минимальными затратами. Специализированные решения для организации данных представлены, для крупных проектов наиболее интересны использующие виртуализацию.
Возможности BigData активно использует даже малый бизнес, но с ростом компаний до среднего размера —, а тем более, до уровня корпораций — нужны качественно иные решения. «Озера данных» (DataLake) по сути представляют собой совокупность множества «БигДат». Актуальность таких наборов данных для современного бизнеса очевидна, но возникает вопрос: где и как их хранить? Согласно неписанному правилу, «BigData начинается от Петабайта», так что можете представить себе объемы хранилищ, нужные для «озер данных»!
Напомним, что с «озерами данных» будут активно работать, как используя хранимую там информацию, так и пополняя их из различных источников. Это означает, что складировать все в одно мега-хранилище — не лучший вариант, нужно создавать и реализовывать структуры данных, соответствующие задачам корпорации, причем на принципах нового уровня. Распределить BigData по разным хранилищам можно, иногда это даже полезно: такой подход позволяет, например, располагать компоненты «озера» поближе к группам аналитиков, которые работают с теми или иными данными, или к местам получения данных.
Но как при этом сохранить единство DataLake? Единство необходимо — иначе слишком много времени будет уходить на поиск нужных данных среди отдельных «озерцов», будет нарушена сама концепция DataLake. «Прежние архитектуры не позволяли предоставить бизнесу все данные, поскольку собрать их в едином репозитории зачастую физически невозможно», — говорит региональный вице-президент Denodo Оливье Тижу. Нужна виртуализация, способная объединить данные компании в единую структуру.
Виртуализация и ее общие особенности
Виртуализация является предоставлением набора вычислительных ресурсов, абстрагированным от их аппаратной реализации. Это универсальное определение, работающее и в нашем случае. По сути, над разрозненными и распределенными хранилищами BigData будет добавлена еще одна структура — специализированный «гипервизор», результатом работы которого будет представление всей структуры данных как единого DataLake. Здесь получаем ряд преимуществ.
В первую очередь, виртуализация — это история про оптимизацию ресурсов. В большинстве случаев оборудование, используемое в традиционной парадигме, работает с загрузкой порядка 30–40%. Это среднее значение, иногда бывает и меньше, чему есть ряд объективных причин: покупают «на вырост», держат резерв под пиковые нагрузки и т. д. Однако с экономической точки зрения это недопустимая расточительность.
Особенно, если речь идет о хранилищах большого объема, причем для размещения «горячих» данных — к которым часто идет обращение при процессах DataMining — или как минимум «теплых»! В результате виртуализации загрузка оборудования существенно возрастет, равно как и эффективность использования вложенных в него средств компании.
Вторая ключевая история, связанная с виртуализацией — повышение гибкости инфраструктуры. Это хорошо заметно на виртуальных ПК, которые можно разворачивать десятками за секунды, а создавать с такой скоростью физическую инфраструктуру по понятным причинам не удастся. Это справедливо и для хранилищ: при виртуализации можно комбинировать физические с «облачными», реляционные базы с нереляционными, а также настраивать репликацию, параметры хранения, защиту и т. д.
Есть и другие истории, связанные с преимуществами виртуализации: повышение надежности, снижение рисков, увеличение эффективности финансовых вложений, доступ к преимуществам перехода из CAPEX в OPEX и т.д.
Виртуализация — данным
«Виртуализация позволяет создать новый логический уровень абстракции, обеспечить подключение ко всем имеющимся источникам данных и предоставить к ним доступ из витрин данных и из других приложений, обеспечивая эффективное управление данными, их маскирование и безопасность», — говорит директор по управлению данными Denodo Алексей Сидоров.
Это существенно упрощает создание «озер данных» и, главное, их использование. В свою очередь результат такого подхода важен для ряда других трендовых направлений: от классической предиктивной аналитики и создания отчетов до разных форм DataMining из BigData, а также для создания AI-инструментов и применения связанных с этим процессом технологий DL/ML.
«Среди компаний небольшого размера можно встретить скептически относящихся к нашим инструментам. Но корпорации обычно сразу понимают преимущества предлагаемой нами архитектуры», — говорит Оливье Тижу. Это вполне логично: где бизнес работает с «обычным» BigData, там ему не нужна структура для «озер данных», но если массивов BigData становится много, то ситуация меняется радикально. Где востребованы DataLake — там решения Denodo актуальны: финансы, страхование, телеком, ритейл, добывающая промышленность (нефть/газ, руда, уголь и пр.), транспорт и т.д. В ряде регионов в этот перечень попадают и госструктуры — например, как рассказал Алексей Сидоров, решение было внедрено в Саудовской Аравии для организации, аналогичной Пенсионному фонду РФ, а также в Голландии, Англии, Эстонии и Италии, для организаций, аналогичных Росстату.
Решение Denodo актуально и для крупных технологических компаний. К примеру, на основе виртуализации от Denodo построила глобальную систему управления данными корпорация Intel. В этом масштабном решении, как отметил директор по продажам Denodo Александр Прохоров, за виртуализацию отвечают несколько серверов Denodo — что соответствует размерам и сложности задачи: для 3 000 различных сервисов данные поступают из 309 источников. Кстати, «король виртуализации» — компания VMware — также является клиентом Denodo. Известно, что переговоры о внедрении решений Denodo идут и с крупнейшими российскими индустриальными структурами (data driving повсюду!), но деталей стороны пока не раскрывают по понятным причинам.
Внедрения реальные и потенциальные
Крупный бизнес в России проявляет активный интерес к решениям Denodo. На российском рынке компания присутствует чуть больше года, но уже ведет несколько крупных внедрений. «Пока проекты не завершены — мы не можем раскрывать ни технические детали, ни клиентов. Но решения очень интересные в техническом плане», — говорит Александр Прохоров.
Разворачивание и внедрение решения происходит достаточно быстро — за пару недель. В стоимость лицензии продуктов Denodo входят две недели «professional service», напоминает Алексей Сидоров, что упрощает работы по внедрению: например, в Intel обучили 800 пользователей за две 4-часовые сессии. Но перед технической реализацией необходимо подписание ряда документов, многие из которых в российских условиях быстро подготовить невозможно. Поэтому подготовительный этап оказывается по времени много больше, чем само внедрение продуктов.
Конечно, Denodo — не единственный вендор, поставляющий решения для управления данными, но фактически единственный, кто практикует для этого виртуализацию. При кажущейся простоте концепта за решением стоит сложная математика и технические инструменты, которые развивали десятилетиями. Во всяком случае пока ни один глобальный вендор не смог предложить рынку решения, сравнимые с реализованными Denodo. Это подтверждают данные «квадранта Gartner», где Denodo в классе Data Integration Tools — единственный лидер, практикующий виртуализацию.
«Глобальные конкуренты у нас, конечно, есть, но они начали значительно позже нас и в линейке своих продуктов рассматривают виртуализацию как один из инструментов управления данными. А потому могут предложить решения, которые мы опережаем на два поколения, — уверен Алексей Сидоров. — Продукт наукоемкий, создать аналоги методом «бутфорса» нельзя, хотя конкуренты пытались». По той же причине у Denodo нет конкурентов в плане импортозамещения. Из интересных внедрений можно назвать реализованные в компаниях T-Mobile, Logitech, ABN AMRO, BNP Paribas, Volkswagen, Walmart, Sanofi, GE Capital, Daimler, AirEuropa, Santander, Inditex, Bayer, Johannesburg Stock Exchange, BHP Billiton и др.
Важно, что концепция виртуализации, практикуемая Denodo, позволяет получать и другие позитивные эффекты. К примеру, при использовании виртуализации для создания «Озер данных» нет проблем при работе с персональными данными. Сервера Denodo, отвечающие за виртуализацию, работают только с метаданными, никаких данных они не хранят, следовательно, не требуют сертифицирования — что существенно упрощает создание инфраструктур в российских условиях.
Александр Маляревский
Полный текст статьи читайте на CNews