Что подразумевают под Data Governance?
Благо, мы живем в «Век Данных», и вопросов, что такое «Data Governance» не возникает. Даже на хабре есть множество статей с кратким описанием, которое переходит… в описание продуктов!
Но если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом — технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. Но, к сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».
Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality — управление качеством данных, и Data Linage — «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.
Я бы начинал от малого к большему: от формирования Отдела По Управлению Данными, причем начинать можно с небольшой команды. Для тех, кто понимает важность работы с данными, можно начинать хоть с нескольких специалистов, и формирования Центра Компетенции по данным, который действует по всей организации, помогая сотрудникам отделов и подразделений правильно работать с данными, понимать где находятся «сертифицированные» чистые данные и их описание, как правильно работать с данными.
Итогом проектов по Data Governance и Data Quality является формирование «Каталога Данных» — списка «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных — Datamart для построения отчетности или дашбордов.
Каталогизация данных, в свою очередь предполагает наличие продукта для хранения списка каталогизированных данных и их описания (метаданных) —«Каталога Данных».
Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель. Про Бизнес-Глоссарий и Каталог Данных я рассказываю в продолжении.