[Перевод] Как сделать так, чтобы ваши открытые данные были никому не интересны
Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать данные именно под открытой лицензией.
Но из этой ситуации есть выход! Можно опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.
В основу списка лег мой опыт взаимодействия с источниками открытых данных и обучения студентов дата-инжинирингу, а также уроки, которые я вынес из общения с другими специалистами, работающими с открытыми данными.
1. Выберите запутанную лицензию
Самый простой способ отбить интерес к вашим данным — усложнить понимание того, являются ли они вообще открытыми. Избегайте популярных лицензий открытых данных, имеющих понятное краткое описание (наподобие тех, что публикуются Open Knowledge Foundation). Убедитесь, что лицензию, под которой находятся ваши данные, трудно найти (не используйте в метаданных идентификатор SPDX). По возможности вообще откажитесь от лицензии и ссылайтесь только на условия использования данных и другие подобные документы.
Если избежать использования стандартной лицензии невозможно, то хотя бы попытайтесь найти лицензию на своем языке — по крайней мере, это отпугнет пользователей из других стран.
Бонусные очки за конспирацию получают те, кто публикуется на Kaggle с лицензией «Other (specified in description)» без указания лицензии в описании.
2. Указывайте только метаданные при публикации
Взгляните на эту карту, созданную французской Национальной точкой доступа для данных о транспорте:
Или на проект Datenwaben Томаса Турсикса. Оба проекта привлекают внимание. Они так здорово оформлены, что использованные в них данные хочется позаимствовать для собственного проекта.
Нам нужно добиться противоположного эффекта. Поэтому стремитесь публиковать минимально требуемые метаданные и пишите фактические, скучные описания. Старайтесь любой ценой избегать примеров данных и того, как их использовать. В мире полно ничем не примечательных датасетов — у вас точно будет шанс затеряться в толпе.
2.5 В том же ключе: добавляйте в данные как можно меньше информации
Некоторые платформы, например, Kaggle, автоматически показывают пользователям превью данных, содержащихся в датасете. Например, см. этот датасет по распознаванию мошенничества с кредитными картами.
Когда нужно отбить интерес к данным, осмысленная визуализация на Kaggle — ваш враг.
Встроенные превью данных и краткие описания распределений значений в каждом столбце позволяют легко оценить, подходят ли данные для использования. Чем меньше трудностей для пользователя, тем выше вероятность, что он отнесется к вашим данным с энтузиазмом. Поэтому постарайтесь избегать генерации превью и кратких описаний данных.
3. Сделайте все, чтобы данные было сложнее найти
На самом простом уровне можно подбирать короткие и непонятные названия, а также минимально подробные описания. Это уже усложнит индексирование ваших датасетов поисковыми движками.
Кроме того, можно попробовать скрыть свои данные, просто не распространяя их широко. У порталов открытых данных наподобие govdata.de часто есть качественные функции поиска или даже API, которые можно использовать программно. Разумеется, для вас это будет катастрофой, так что создайте отдельный портал только для себя и публикуйте данные только там.
4. Используйте непопулярные или сложные в применении форматы
Если публиковать данные в удобных форматах наподобие CSV или JSON, придется смириться с угрозой того, что пользователи свободно будут иметь к ним доступ. Можно попробовать публиковаться в формате, требующем коммерческих инструментов, например, в XSL, но сегодня даже такие форматы сможет преобразовать большинство людей. Лучшее решение — найти формат файлов, нечитаемый для машин. Популярный выбор — PDF, особенно если добавить в него наряду с данными дополнительного текста, например, верхних или нижних колонтитулов.
Федеральное статистическое управление Германии предлагает при скачивании несколько популярных форматов данных на выбор. Как глупо с их стороны! Нам такое точно не подходит.
4.5 Экспортируйте данные, отформатированные под людей
При экспорте табличных данных постарайтесь сохранить структуру такой, какой она изначально проектировалась для живых читателей. Оставьте объединенные ячейки, красивые заголовки и сноски. Если вы выполняете экспорт в CSV, то добавьте в файл чисто текстовые метаданные, например, заявления о правах на копирование, чтобы поломать автоматизированный импорт. Если для использования данных пользователям придется выполнять долгий ручной процесс очистки, то они могут отказаться от этой идеи.
5. Убедитесь, что все URL ведут к 404
Если вам абсолютно необходимо выложить свои датасеты на порталы открытых данных, то воспользуйтесь тем, что часто они могут хранить только метаданные и обратные ссылки на ваш источник. Периодически реструктурируйте свой портал данных без настройки правильных редиректов, чтобы первое, что видели нетерпеливые пользователи — это страница 404 (а еще лучше — страница с объяснением, что портал теперь имеет новую структуру и все данные находятся где-то в другом месте). Это разочарует потенциальных пользователей и охладит их интерес.
5.5 Меняйте данные после публикации
Если у вас нет возможности переместить свои данные куда-нибудь еще, попробуйте менять их по тому же URL без какой-либо системы версий и уведомлений. В этом случае пользователи, которые скачивают и просматривают ваши данные, могут впасть в ступор при повторном запуске своего ПО. Если пользователь поймет, что ему нужно постоянно заново скачивать и валидировать ваши данные, скорее всего, он больше не вернется.
6. Разделяйте связанные датасеты
У вас есть датасет, данные которого охватывают множество лет? Прекрасно. Разбейте его на множество отдельных файлов и не связывайте их очевидным образом. Поиск всех датасетов и их объединение — это дополнительная работа для каждого, кому взбредет в голову воспользоваться вашими данными. К счастью для вас, дата-сайентисты ненавидят делать лишнюю работу.
У этого метода есть еще одно преимущество: он позволяет лучше спрятать ценность ваших данных. Скорее всего, пользователь решит, что ваш датасет старый или неполный, и оставит вас в покое. Возьмем для примера этот датасет футбольных данных начиная с 1960 года. Разве вам не хочется сразу узнать, как данные менялись со временем? Представьте, насколько менее удобно было бы это делать, если бы данные публиковались по одному файлу в год. Скорее всего, нашедший данные за 1960 год человек решит, что они старые и давно не обновлялись, а потому пойдет донимать кого-то другого.
Дополнительная цель, к которой стоит стремиться: автоматически распределяйте данные по порталам данных, но оставляйте описание и важный контекст только на собственном веб-сайте. Это позволит усложнить работу с данными и создать иллюзию об их низком качестве.
Работая над этим переводом, я так и не сумел до конца понять замысел автора. Что двигало им при создании статьи? Это попытка написать что-то в духе «Вредных советов» для специалистов по работе с данными? Своего рода анти-гайд, который объясняет, как делать не надо? Или я это себе накрутил, и текст стоит воспринимать как обычное руководство?
Думаю, ответ на этот вопрос зависит от позиции читателя. Какая интерпретация, на ваш взгляд, ближе к истине? Буду рад вашим комментариям.