Показатели качества публичных данных


Проблема качества данных представляет собой достаточно серьезную тему и не только в связи с их обработкой и анализом. На данных в современном цифровом мире построено множество процессов, в том числе и связанных с безопасностью. Поэтому от того, насколько качественные данные используются в государственных и коммерческих организациях зависит эффективность и результат их работы.
6896dee650f0442fa20e0a93aafdb9b5.png
Рассмотрим несколько показателей, которые могли бы составить интегрированную оценку качества публичных (открытых) данных.

Прежде чем начать.

Настоящая публикация является продолжением в общей серии по теме публичных данных. Многие понятия, встречающиеся в тексте рассматривались в предыдущих статьях. Несмотря на то, что речь идет о публичных (открытых, разделяемых) данных, предлагаемый набор показателей качества может использоваться и для оценки других категорий данных с некоторыми поправками. Предлагаемый список является в некотором смысле гипотезой и не претендует на звание «исчерпывающего».

Ссылки на предыдущие статьи
  1. Почему данные могут быть открытыми и бесплатными
  2. Трансфер открытых данных
  3. О данных открытых, разделяемых и делегируемых
  4. Содержание, метаданные и контекст открытых данных


Данные имеют ограниченный срок годности

Первичные данные всегда актуальны на какой-то конкретный момент времени в прошлом и очень редко актуальны в течение какого-либо длительного периода.

Это одна из проблем качества: цифровые данные, как регистрация исторического состояния объекта или системы постоянно теряют свою актуальность со временем и их приходится обновлять.

Качество данных — характеристика наборов цифровых данных, показывающая степень их пригодности к обработке и анализу и соответствия обязательным и специальным требованиям, в связи с этим к ним предъявляемым.

А что может составлять такое понятие как «качество публичных данных»? Выделим девять показателей.

3f47e9be84fd4050abaf7da11b2ce0fe.png

1. Актуальность данных


Обозначенный или косвенно определяемый момент времени, на который данные отражают реальное состояние целевого субъекта (объекта, системы, явления, модели, события и т.п.).

Актуальность данных также может быть обозначена через период времени в течение которого они сохраняют свою значимость. Учитывая постоянные изменения экономических систем, публичные экономические данные имеют достаточно короткие сроки актуальности.

Актуальность данных чаще всего устанавливается поставщиком, в дополнение к которой он также может «дать обещание» периодического их обновления для её поддержания.

Получатель данных может самостоятельно оценивать их актуальность на основании информации от поставщика или иными способами.

2. Объективность данных


Точность отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).

Объективность напрямую зависит от применяемого метода и процедур сбора информации, а также от плотности регистрируемых данных. В процессе обработки наборов цифровых данных, они теряют свою объективность и обогащаются агрегированными, округленными, приведенными и расчетными показателями. Однако за счет этого данные «насыщаются» знаниями, тем самым позволяя в последующем сокращать последовательность операций по извлечению из них значимых для практики сведений.

Поставщик может указать объективность публичных данных охарактеризовав их первичность и описав процедуру их получения.

Получатель вправе критично отнестись к вторичным данным, особенно если их объективность не доказана применяемыми формулами и математическими расчетными моделями.

3. Целостность данных


Полнота отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).

В отличии от объективности, целостность показывает насколько полными и безошибочными являются данные как в части смыслового непротиворечия, так и в части соответствия заданной структуре или выбранного формата. Целостность зависит от корректного разделения на элементарные неделимые единицы, сохранения их неделимости, правильной идентификации и взаимной связанности.

Данные публикуемые добросовестным поставщиком по умолчанию должны являться целостными.

Получатель определяет целостность специальными проверочными методами оценивая смысловое содержание, корректность определения структуры и технически проверяя формат.

4. Релевантность данных


Соответствие данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) решаемой задачи (поставленной цели) и возможность их применения с учетом имеющегося содержания, структуры и формата.

Понимание релевантности напрямую увязывается с целью пользователя данных и конкретной исполняемой им задачи, а значит и с располагаемым исходным набором данных.

Поставщик не может повлиять на релевантность данных, но может существенно упростить понимание данного показателя качества с помощью расширенных метаданных, применения распространенных форматов и традиционных структур, а также указанием рекомендаций по их использованию.

Получатель в каждом конкретном случае оценивает релевантность наборов данных исходя из тематики и рабочего формата (т.е. используемых инструментов).

5. Совместимость данных


Совместная обработка данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) с имеющимися в рамках решаемой задачи (поставленной цели).

В отличие от релевантности, совместимость — это процедурный показатель, который характеризует возможность включить данные в обрабатываемый массив для дальнейшего анализа и не связан напрямую с сутью и критериями текущей задачи. С другой стороны, совместимость на содержательном уровне с тематикой исполняемой задачи важна для эффективной обработки цифровых данных. Публичные данные должны особенно тщательно оцениваться на совместимость, в том числе с точки зрения их разновидности. Допустимо ли для конкретных целей совмещение — взаимное использование — открытых данных и разделяемых данных или разделяемы и делегируемых данных зависит от оценки аналитика. Чаще всего необходимо соблюдать условия раздельного хранения и контроля разных видов публичных данных.

Поставщик публичных данных задает совместимость через метаданные и ссылки на контекст.

Получатель определяет возможность совместного использования данных для каждого набора как по содержанию и структуре, так и по формату. Но в отличие от релевантности, несовместимые данные можно попытаться привести к совместимому с помощью различных операций трансформации, перекодирования, перевода и т.п.

6. Измеримость данных


Присутствие в данных обрабатываемых качественных или количественных характеристик реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.), а также подсчитанный конечный объем набора цифровых данных.

Содержательная измеримость данных является основой для выполнения последующих процедур их обработки и анализа. Измерение же общего объема данных необходимо для выбора инструментария и контроля их целостности в процессе обработки и по итогам анализа.

Поставщик может явно указывать «измерения», включенные в данные, как количественные, так и качественные. Как минимум, сопровождение наборов публичных данных записью об итоговом или пофайловом их размере в байтах почти является общепринятым стандартом.

Получатель публичных данных восстанавливает измеримость в содержании данных анализируя их и исследуя структуру и всегда точно или бегло проверяет насколько их физический размер соответствует заявленному.

7. Управляемость данных


Возможность целевым и осмысленным образом обработать, передать и контролировать данные о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).

Управляемость обусловлена необходимостью изменять, исправлять, структурировать, организовывать, фильтровать, сохранять, пересылать, оценивать, распределять данные. Она во многом основывается на правильно выбранной структуре и формате.

Поставщик может заявить об управляемости данных через сопровождение их специальными метаданными, но получатель, как правило, самостоятельно проводит её оценку исходя из имеющихся у него компетенций и инструментов.

8. Привязка к источнику данных


Связанная и достоверная идентификация цепочки поставки данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).

При этом в описание «цепочки поставки публичных данных» лучше включить указания на все субъекты, которые исполняли основные роли трансфера данных: генератор (автор), владелец, поставщик. Привязка к источнику позволяет поставщику и получателю сослаться и восстановить авторство, правоотношения, достоверность источника, доверие к распространителям.

Публичные данные почти всегда распространяются с указанием владельца и поставщика. И более того, одним из ограничений использования данных является необходимость указать первоисточник при их последующей публикации или использовании. Следует учитывать, что хорошая привязка данных позволяет по необходимости получить её повторно с уточнениями, дополнительной актуализацией или с восстановленной целостностью, т.е. — с повышенным качеством.

9. Доверие к поставщику данных


Оценка получателем деловых качеств поставщика публичных данных о целевом состоянии субъекта (объекта, системы, явления, модели, события и т.п.), как ответственного, авторитетного, организованного и относительно независимого издателя цифровой информации высокого качества.

Данный показатель выступает некоторой интегрированной ретроспективной оценкой всех предыдущих трансферов данных поставщика — репутация издателя публичных данных.

Получатель всегда исходит из внутренней убежденности при определении такого показателя качества данных, но у поставщика есть несколько путей по формированию и поддержанию нужного ему уровня доверия. К ним можно, например, отнести: тщательную подготовку данных для публичного трансфера, высокий уровень организации процессов издания «цифры», поддержку обратной связи с получателями, своевременную актуализацию и извещение об обнаруженных в данных проблемах, специальные мероприятия, участие в независимой оценке и ассоциациях.

Любой из указанных показателей качества данных субъективен, как в части смыслового содержания данных, так и в части его восприятия разными поставщиками и получателями.
Тем не менее все показатели можно разделить на:

  1. условно-объективные — это показатели, значения которых слабо зависят от мнения поставщика или получателя данных и устанавливаются в соответствии с контролируемыми и частично проверяемыми критериями,
    к ним относятся: актуальность, целостность, измеримость, совместимость, привязка к источнику.
  2. условно-субъективные — это показатели, значения которых напрямую зависят от мнения поставщика или получателя данных и устанавливаются в соответствии с внутренней «убежденностью» как некоторая допустимая критериальная оценка,
    к ним относятся: объективность, релевантность, управляемость, доверие к поставщику.

Формальная оценка каждого из показателей качества может осуществляться как в баллах (в заданном интервале), так и в процентах. Причем бальная оценка может даваться экспертным путем, а процент может высчитываться как доля данных отвечающих заданному показателю качества к общему объему данных. В последнем случае задача выглядит много более сложная и требует специальных инструментов, хотя и будет давать взвешенную, но всё-таки экспертную оценку качества. Одним их важных аспектов формальной оценки показателей качества является их контроль по мере работы с наборами цифровых данных. В динамике качество данных не должно ухудшаться, т.е. экспертная оценка данных не должна неуправляемо снижаться после отдельных операций или целой серии обработок.

Общая проблема качества публичных данных зависит как от каждого из перечисленных показателей, так и от интегрированной субъективной оценки получателя. В любом случае, качество важно в первую очередь получателю, как лицу выполняющему операции обработки и анализа.

В случае завершения обратной связи стороннего результативного пользователя данных с поставщиком, «проблема» качества данных возвращается последнему «бумерангом». Если данные были предоставлены «плохие» или с ошибками, то ожидать от тех, кто их использовал, сколь-либо хороших и адекватных итогов не приходится. Тогда утрачивается весь смысл усилий по выбору, подготовке и публикации данных — поставщик не получает никаких новых полезных решений и знаний (продуктов или сервисов).

Важнейший показатель качества данных — это их целостность

Он оказывает сильное влияние на совместимость и управляемость данных. А неоднократная публикация данных с нарушением целостности обязательно скажется на доверии к их поставщику. Целостность данных не является чем-то обособленным от смысла, структуры или формата и должна соблюдать на всех уровнях цифровой информации.

Нарушение целостности данных возможно:

  • на смысловом уровне — при сборе допущена ошибка в полноте или записи данных так, что становиться непонятным само значение, которое описывают такие данные;
  • на структурном уровне — при упорядочивании элементов данных или при обработке данных допущена ошибка в полноте или записи данных так, что становиться «непонятной» часть или целая структура;
  • на уровне кодирования — при записи, хранении или чтении данных допущена ошибка на уровне преобразования отдельных символов и понятий так, что данные не удается прочитать и (или) присутствуют пропуски;
  • на уровне нотации — при записи, хранении или чтении данных допущена ошибка на уровне преобразования отдельных элементов цифровых данных или их совместной записи так, что в данных невозможно правильно установить обособленные отдельные единицы и связи между ними;
  • на уровне схемы — при записи, хранении или чтении данных допущена ошибка на уровне логики или формата отдельных элементов цифровых данных или их взаимосвязи так, что из данных невозможно извлечь значимую информацию о предметной области.

Аналогично, по каждому из уровней — смысл, структура, формат — можно рассматривать каждый показатель качества данных.

За качество публикуемых данных, конечно же, отвечает поставщик. Но получатель вынужден выполнять проверку и по необходимости корректировать сами данные.

Если публичные данные оказываются низкого качества, то имеет смысл отказаться от их использования и направить подробное уведомление поставщику. Добросовестный и заинтересованный поставщик обязательно предпримет усилия по исправлению ситуации. Он как минимум должен закрыть доступ к некачественным данным на время разбирательства и маркировать их соответствующим образом.

Адресованная поставщику претензия относительно качества данных, в условиях максимальной открытости сетевого общения, вынуждает в обязательном порядке помещать специальный заявительный отказ от принятия претензии с обоснованием такого отказа, либо повышать качество данных и повторно их издавать с соответствующими разъяснениями. А в случае, если поддерживается адресная связь с получателями — уведомлять их специальным образом.

Поставщик, который не готов отвечать за качество данных достаточно быстро переходит в разряд «безответственных» и теряет все преимущества, предоставляемые сообществом аналитиков и экспертов, занятых в соответствующей предметной области.

Из вышесказанного вытекает необходимость постоянного контроля качества данных как со стороны получателя, так и со стороны поставщика. Что в свою очередь вынуждает разрабатывать и применять специальные контрольно-измерительные инструменты.

Исследование проблемы качества цифровых данных, а особенно качества открытых, разделяемых и делегируемых данных должно осуществляться аналитиками и экспертами как на микро-уровне заинтересованных бизнесов, так и на макро-уровне сообществ и государственных структур. Во многом безопасность будущей цифровой экономики будет базироваться на активном мониторинге качества используемых данных.

Комментарии (0)

© Habrahabr.ru