Работаем с «новой нефтью»: изучаем разные инструменты для распространенных задач
«Данные — новая нефть» — тезис знакомый, но не теряющий актуальность. Для эффективной работы с данными — как и с нефтью! — бывают нужны разные инструменты, о некоторых из которых мы сейчас и поговорим.
Особенностью текущего момента является активное импортозамещение, значительная часть привычных инструментов для работы с данными оказываются недоступны или могут оказаться под санкциями. Многим российским компаниям нужны санкционно-устойчивые инструменты, за которыми обращаются к российским разработчикам. Тут корпоративных заказчиков — как бизнесы, так и госструктуры — зачастую ожидают приятные сюрпризы: инструменты, поставляемые российскими разработчиками, оказываются развитыми и функционально полными, а также иногда предоставляющими возможности, отсутствовавшие у ранее привычных аналогов от глобальных вендоров.
Как это выглядит? Рассмотрим это на примере четырех продуктов, ориентированных на работу с данными. Первые два созданы для работы с базами данных, два других — с обработкой информации «на лету».
Инструменты для БД
Базы данных — инструмент классический, а поэтому привычный как для архитекторов данных, так и для аналитиков. Однако, как показывает практика, бизнес-значимые данные приходится размещать в разных базах. Они требуют развития, каждая развивается несколько по-своему и в результате единая система хранения постепенно теряет стройность, работать с ней становится все сложнее.
Ситуация знакомая, как и методы ее решения. Однако, работа с базами вручную — процесс достаточно долгий, а поэтому занимающий рабочее время специалистов и дорогостоящий. Кроме того, если ситуация с структурами баз дошла до уровня, когда их содержимое проблематично использовать для аналитики и для других форм BI — вполне возможны значительные финансовые потери от промедления в управленческих решениях, увеличения «time to market» и т.д.
«Приобретение инструмента, способного ускорить процессы работы с базами данных, следует рассматривать как инвестиции в повышение эффективности деятельности всей корпоративной инфраструктуры», — подчеркивает Евгений Чугунов, генеральный директор Crosstech Solutions Group. Пример такого инструмента — DataGrain Analyzer, который позволяет проводить анализ логического содержимого БД и таблиц различных СУБД, выявлять коллизии и несоответствия в данных, названиях и типах полей, в структуре хранения данных и т.д.
Разработчики реализовали в Analyzer целый ряд функций, адаптированных для быстрого применения аналитиками БД. Например, есть статистический анализ по содержимому таблиц (подсчет количества полей, их названий и типа, в каждом из полей — количества строк, уникальных строк и т.д.), доступен смысловой и контекстный анализ содержимого каждого из полей, выявление смыслового домена для каждого и т.д. Конечно же, Analyzer поставляют с коннекторами, обеспечивающими взаимодействие с СУБД разного формата, с базой регулярных выражений и справочников, отвечающий за смысловой анализ, и с прочими полезными элементами.
Специализированные инструменты способны значительно снизить трудозатраты аналитиков баз данных на ручную обработку! Результат — качество и репрезентативность данных будет повышена, что положительно отразится на всех бизнес-процессах, использующих эту «дату», в том числе, на составлении оперативной отчетности. Эти данные становятся лучше и для data scientist’ов, и для использования их в математических моделях для обучения, и в задачах монетизации данных.
Существуют инструменты для специализированных задач. Пример — решение для оптимизации работы с данными о входящих событиях ИБ. Задача только на первый взгляд кажется простой, на самом деле приходится преодолевать сложности настройки параметров фильтрации для входящих данных, оценивать эффективность использования правил корреляции и решать другие задачи, для которых хорошо бы располагать специализированным инструментом.
Российское решение DataGrain ESO создано для сбора, фильтрации и профилирования входящих событий ИБ. Инструмент также обеспечивает централизованное хранение данных в сжатом формате и передачу необходимых сторонним решениям. «ИБ в современных условиях следует трактовать максимально широко», — напоминает Евгений Чугунов. Обеспечение «инфобеза» требует противостояния как внешним угрозам (например, вирусам, кибератакам и т.д.), так и внутренним (например, корпоративному мошенничеству и другим видам нелегитимной активности). Как видно, события ИБ могут быть очень разнообразными, для их обработки и последующего хранения, использования пригодится специализированный инструмент.
Обрабатываем потоки
Значительная часть данных требует обработки «на лету» — это нужно для принятия оперативных управленческих решений. Рассмотрим пару примеров, связанных с информационной безопасностью. «Важно понимать, что и деньги, выделенные на инструменты — инвестиции в стабильную работу и финансовое благополучие компании», — говорит генеральный директор Crosstech Solutions Group.
Для предотвращения корпоративного мошенничества нужен широкопрофильный инструмент для разнопланового мониторинга активностей сотрудников. Действующий изнутри корпоративного заказчика промышленный шпион или мошенник может нанести огромные убытки, причем потери тут могут быть как финансового плана, так и репутационного. Какие именно параметры нужно отслеживать для задач конкретного бизнеса, определяет заказчик. Доступны инструменты для мониторинга активности как внутри ИТ-инфраструктуры, так и в физическом мире — не все работники для своих служебных обязанностей пользуют ПК.
Разумеется, инструменты для мониторинга и выявления подозрительных активностей лучше использовать локального производства — кроме санкционной устойчивости они хороши соответствием требованиям национальных регуляторов и, что важно, проверенной совместимостью с ключевыми российскими программным продуктами. Такие решения на рынке есть. Например, подозрительную — а, тем более вредоносную — активность пользователей может на раннем этапе выделить DataGrain RUMA.
Как положено решениям такого класса, DataGrain RUMA способен выявить признаки потенциально опасных действий и привлечь к ним внимание специалистов по ИБ, для проведения уже ими детального расследования. Может продукт помочь и в расследовании, предоставляя детализацию активности и автоматически отмечая потенциально опасные действия. В данном случае важно, что DataGrain RUMA поддерживает интеграцию с HR-системами, обогащая данные, полученные в ходе мониторинга, информацией о кадровой принадлежности.
Разумеется, поведенческий анализ в современных условиях должен использовать алгоритмы Machine Learning, для создания AI, чтобы или напрямую «видеть» подозрительные активности, или выявлять их в ходе статистического анализа. Заметим, что есть решения, которые видят в прямом смысле — используя для мониторинга видеопотоки, а для распознавания — методы компьютерного зрения.
Александр Маляревский
Полный текст статьи читайте на CNews