Управление публичными данными: получение и использование

Неоднократное использование данных из одного источника даже при незначительных изменениях их содержания, структуры и формата обуславливает необходимость решения различных инструментарных, информационных, инжиниринговых, управленческих и правовых задач.

Одинарное применение набора данных может реализовываться в «ручном» режиме. Но уже повторное и последующие обновления данных на основе тех же актуализированных наборов вынуждает рассматривать проблему автоматизации хотя бы частично. Ещё более высокий уровень задач решается в рамках системы, которая задействует множество публичных наборов данных периодически актуализируемых и от разных поставщиков.
cfd41439c7a049d3a9d6cb552a8c4b7d.png

Публикация является очередной в серии по теме публичных данных.
Ссылки на предыдущие статьи
  1. Почему данные могут быть открытыми и бесплатными
  2. Трансфер открытых данных
  3. О данных открытых, разделяемых и делегируемых
  4. Содержание, метаданные и контекст открытых данных
  5. Показатели качества публичных данных
  6. Управление публичными данными: подготовка и поставка


Получение и использование данных, которые предоставляются неограниченному или условно-ограниченному кругу пользователей, несколько сложнее, чем работать по закрытой схеме трансфера данных — зависимость от поставщика сильная, а взаимодействие с ним минимально.

Обратимся к нескольким принципам управления применением публичных данных.

Стратегия


Разработка стратегии публичных данных для получателя составляет основу рациональной деятельности, направленной на извлечение достойного и качественного результата. Очевидно, что если пользователь организует данную работу серьёзно и компетентно, то такая стратегия вытекает и является продолжением стратегий поиска новых данных и знаний, управления знаниям и аналитики бизнеса, а также стратегии научно-технического развития бизнеса в целом.

Конечно же не исключаются конкретные случаи «пробного» поиска и использования предметных публичных данных для решения актуальной специальной задачи. Если потребность сводится только к операционной задаче получения недостающих или уточняющих данных, которые доступны в открытом и бесплатном режиме, то полноценная мотивация для выстраивания целой системы «добычи и переработки публичной цифры» явно отсутствует. И тем не менее даже в таких случаях иногда полезно понимать с какими проблемами может быть связана разовая имплементация набора публичных данных.

Стратегически для регулярного получателя публичных данных важны такие направления

  1. Определение целей получения данных и ключевых предметных областей в рамках которой осуществляет поиск новых цифровых наборов. Привязка к внутренней проблематике и системе бизнес-аналитики обязательна. В разумном бизнесе загружаемые публичные данные будут применяться именно для экономической и управленческой аналитики с применением собственного или арендуемого программного обеспечения.
  2. Формулирование крупных подзадач трансфера данных по public-схеме в соответствии с поставленными целями и предметными областями с предварительным прогнозированием (предвидением) ожидаемых результатов.
  3. Формализация критериев отбора данных для поиска и получения, включая содержательные, структурные и форматные аспекты. Возможно даже в форме внутренних закрытых или публичных регламентов (стандартов, правил).
  4. План поиска и отбора данных в формате общих принципов или даже на уровне отдельных событий. Возможно некоторым профессиональным поставщикам публичных данных будет небезынтересным узнать подобные планы активных и авторитетных получателей.
  5. Выстраивание системы прямого и последовательного контроля качества публичных данных. Она призвана через определенные ключевые и вспомогательные операции в течение всего процесса обработки наборов данных следить комплексно за качеством и вносить по необходимости своевременные коррективы или маркировать данные как не применимые. Здесь важно уметь давать обратную связь поставщику по критичным проблемам, которые обнаруживаются в данных.
  6. Супервайзер публичных данных — отдельный контрольно-координирующий функционал целью которого является общая и проблемная оценка процесса поиска и получения данных для целей пользователя. Для «супервайзера» необходимо определить контрольные показатели и дать возможность не только активно наблюдать и вмешиваться в непосредственные процедуры отбора данных, но и в процессы и объекты внутри организации-пользователя, которые принимают или могут принять на себя прямой эффект от новых решений и знаний (продуктов и сервисов).
  7. Кадровая поддержка публичных данных как через выделение функционала в отдельные должности, так и через разумное дополнение функционала уже существующих позиций. Не забываем о компетентности отдельных работников в сфере публичных данных.
  8. Поддержка инструментами поиска, отбора, получения и применения данных обусловлена сложностью процедур непосредственного использования наборов цифровых данных.
  9. Техническая поддержка получения данных в части оценки и дополнительного выделения машинных ресурсов (места хранения, вычислительных мощностей, специалистов).
  10. Правовая поддержка получения и применения данных как на уровне принятия общего контракта (перечня условий) публичного трансфера данных, установленного поставщиком, так и на последующих уровнях обработки и ре-трансфера данных или результатов на их основе полученных.
  11. Маркетинговая поддержка получения данных для обозначения проблематики потенциальным поставщикам и побуждение их к свободному распространению и актуализации наборов цифровых данных.

Стоит отметить, что некоторые пункты совпадают со стратегией поставщика публичных данных, но ровно с противоположной направленностью. Это следствие определенной «зеркальности» построения стратегий поставщика и получателя публичных данных.

Базовое назначение грамотной стратегии получателя по управлению публичными данными сводится, по большому счету, к эффективному поиску или истребованию нужных данных с последующим их использованием в рамках собственной аналитики бизнеса с целью выявления и формулирования новых знаний (создания решений, продуктов, сервисов и т.п.) в бесплатном режиме.

Получатели (пользователи) публичных данных разные. И у каждого своя стратегия. Если сбором и применением свободно-распространяемых цифровых данных занимается крупная корпорация, то она фокусируется на системности, масштабах, алгоритмах и компетенциях. Если тем же самым занимается частное лицо (эксперт, предприниматель), то он, скорее всего, будет делать основной упор на конкретике и разовом результате.

Поиск


С одной стороны, в нашем «цифровом» мире почти не осталось проблем с поиском ответов на простые текстовые вопросы. Достаточно задать правильный запрос в поле специального поискового сервиса. Затем есть шанс провести время в просмотре выданных ссылок и итеративном уточнении запроса.

С другой стороны, поиск наборов цифровых данных это уже совершенно иная задача, которую придется решать несколько иными способами, обращаясь скорее не просто к поисковому сервису, а к предметной области из которой требуются данные. Отдельных поисковиков для публичных данных пока не наблюдается, но уже активно появляются сводные каталоги и целые порталы. Значительно помогает сообщество экспертов и обмен ссылками.

Во многом проблема поиска данных, помимо фактического обнаружения наборов искомой тематики, заключается в определении и подтверждения качества найденной информации и ответа на вопрос »а можно ли применить эти данные для решения моей задачи». Поэтому так важно найти подходящие по смыслу данные сопровождаемые подробными метаданными и, ещё лучше, имеющие достоверную оценку качества.

В этой связи понимание вида публичных данных тоже определенным образом помогает решить вопрос их применимости в той или иной ситуации. Например, доверять содержимому разделяемых данных надо с осторожностью и с обязательной их проверкой. Хотя бы по ряду простых критериев оценивая по принципу «верю — не верю». Внимание можно сосредоточить на агрегированных показателях по всему массиву данных или по отдельным выборкам.

Получателю (пользователю) всегда надо контролировать публичные данные по источнику и их возможные изменения.

Надо быть готовым, что данные будут изменены, причем период времени, на котором данные будут условно-стабильны можно только попытаться угадать. Действуя в рамках переменчивости смысла, структуры и формата публичных данных приходится прибегать к особому способу организации работы с ними и выбору более универсальных инструментов обработки.

Как правило, поиск публичных данных всегда осуществляется по подходящему содержанию.

И если по заданной тематике удается найти нужные наборы цифровых данных, то это уже хорошо. Однако помним, что в данных помимо смысла важны ещё структура и формат. Но уж это кажется непозволительной роскошью отказываться от найденных данных, если получателя не удовлетворяет структура их организации или один из слоев формата. Не беда — пользователь применит инструменты реструктурирования и переформатирования, конечно, если найдет подходящие. А меж тем такая проблема легко решается со стороны поставщика путем замены статичного способа публикации данных на динамичный, т.е. файлы с данными заменяются на API с разными вариантами выгрузки. Но с другой стороны, поиск набора публичных данных упакованного в файл и поиск API по запросу, к которому можно получить тот же набор публичных данных — это две разные истории.

Загрузка


Когда пользователь нашел нужные данные и получил их бесплатную копию себе на носитель, он благополучно осуществил так называемую загрузку, чем нашел себе нескончаемое море удовольствия от решения разных сопутствующих проблем.

Что же ему придется ещё сделать помимо простого получения набора цифровых данных, если он все-таки пытается делать правильные вещи правильно.

Ну, например, дополнительно можно было бы:

  • формализовать удачный и результативный способ поиска и нахождения нужных данных (когда, в какой последовательности, какая серия запросов, по каким ссылкам пришлось пройтись, что принесло результат);
  • зафиксировать время и место получения набора данных, а также поставщика и условия распространения данных;
  • проверить формат данных по каждому из уровней (кодировка, нотация, схема);
  • получить и сохранить максимально доступные метаданные относящиеся к целевому набору данных;
  • попытаться извлечь из окружения, в котором находятся целевые данные, дополнительные возможные метаданные и ссылки или описания контекста;
  • просмотреть явно указанный или косвенно обозначенный контекст данных;
  • получить оценку качества данных и дать собственную предварительную оценку качества найденных данных;
  • выяснить возможные и предпочтительные способы обратной связи с поставщиком данных (их владельцем или автором);
  • предварительно определиться с необходимостью получать в последующем актуализированные данные.

И чем более системно получатель (пользователь) пытается организовать работу с публичными данными, тем более четко и осознанно ему придется проделывать указанные и ещё другие вещи не после, а уже в момент загрузки найденных данных.

В большинстве случаев для подтверждения качества и/или аутентичности данных, а также для последующего обратного аудита, рекомендуется сохранять прямую копию загруженных данных в доступном месте в хранилище.

Причем лучше всего это сделать ровно в том виде и формате, в котором набор цифровых данных был получен от поставщика (с сетевого ресурса). В последующем можно также сохранять по необходимости и промежуточные результаты обработки данных, но первичный их вариант особенно важен, если поставщик внесет в них изменения без предупреждения и оговорок. Можно сделать исключение для публичных данных, которые с большой вероятностью не должны изменяться в будущем и хранение оригинальной копии загруженных данных влечет неприемлемые издержки по хранению. Однако в таком случае риск «неожиданного изменения неизменяемых данных» остается и сохраняется вероятность возникновения неблагоприятных ситуаций с ним связанных.

Получатель данных самостоятельно принимает для себя решение о том, как будет построено его решение (продукт или сервис) в условиях возможной корректировки исходных данных и стоит ли его делать динамическим по отношению к источнику данных или статично-работающим на «снимках» данных. Для каждого варианты — свои преимущества и риски.

Имплементация


Обработка и анализ публичных данных очень редко ограничивается только лишь полученными наборами. Обычно в этом процессе задействуют полный массив накопленной информации, в том числе дополнительные внутренние или ранее полученные данные, структурированные целевым образом.

Даже если разработка ведется исключительно на публичных данных, они смешиваются из разных источников и «приправляются» предыдущими расчетами, оценками и агрегаторами. Поэтому относительно выстроенной системы экономического и управленческого анализа на длительном промежутке можно говорить об имплементации загружаемых наборов данных в общий массив располагаемой (хранимой) информации.

Можно выделить три общие схемы имплементации получаемых публичных данных в общее хранилище:

  1. ёмкостная (или историческая) — наращивается увеличиваясь (расширяясь) и сохраняя все изменения в получаемых данных в рамках заданной предметной области, в том числе поддерживая все версии структур и форматов;
  2. управляемая (или актуализируемая) — изменяется ровно под актуальное содержание, структуру и схему формата получаемых данных;
  3. пользовательская (или целевая) — изменяется с учетом изменения содержания, структуры и схемы формата получаемых предметных данных, но в целом создается как независимая от источников, а зависимая от имеющийся задачи (цели).

Традиционно, имплементация данных в собственные хранилища и модели аналитики предусматривает их активную обработку, включая фильтрацию, промежуточные расчеты, корректировки, заполнения пропусков.

Это ещё не прямая обработка и аналитика данных, а всего лишь процедуры по приведению данных к общему знаменателю. И такой общий знаменатель зависит от конкретных целей, от особенностей содержания, структуры и формата данных, от задач и параметров хранилища. Вероятно, уже здесь потребуется формировать «снимки» данных — исторические срезы, которые позволяет контролировать качество данных по цепочке и по необходимости реверсивно восстанавливать отдельные их элементы.

Плюс ко всему этому, приходится уже на данном этапе формировать для набора публичных имплементируемых данных дополнительные производные внутренние метаданные по регламентам соответствующего хранилища и модели анализа.

Имплементация, как подготовка данных и доведение их до целевого рабочего состояния, важный этап, требующий профессионализма и эффективных инструментов.

Обратная связь


Так же, как и для поставщика публичных данных, для их получателя (пользователя) можно выделить два уровня обратной связи.

На первом — простом — получатель цифровых данных возвращает поставщику своё мнение о качестве и количестве загружаемой цифры, иногда сопровождая его пожеланиями к последующим публикациям.

Второй уровень, более сложный — это возврат поставщику знаний и решений (продуктов или сервисов) полученных, в том числе с использование размещенных им наборов, в обмен на новую или дополнительную порцию качественных данных или на новое качество данных.

Подобная связь даже может перерасти в нечто большее, чем просто обмен данными, знаниями и компетенциями, но это уже вопрос развития и совмещения деловых интересов.

Одним из косвенных способов сложной обратной связи получателя с поставщиком публичных данных является их целевой ре-трансфер — повторная передача третьим лицам в первоначальном или обработанном виде, а возможно даже в виде новых решений (знаний). Соблюдая условия ре-трансфера, которые устанавливает поставщик, своеобразный посредник, во-первых, может уведомлять поставщика о повторном распространении, а во-вторых, расширяет компетентные связи субъектов вовлекая новых участников в процесс работы с публичными данными. Такая схема позволяет оценивать заинтересованность в данных и охватывать большую целевую аудиторию. Отслеживание подобных цепочек требует от поставщика организации соответствующих бизнес-процессов на достаточно высоком уровне.

Комментарии (0)

© Habrahabr.ru