Неразделимость информации и необходимость в открытых данных

HEaderGIFOpenData.gif

Автор — Дженнифер Йокогама, Chief IP Counsel

Microsoft запустила кампанию Open Data Campaign, нацеленную решить проблему приближающегося «разделения данных». Она должна помочь организациям любого размера осознать преимущества данных и новых технологий, которые работают на этих данных.

Мы убеждены, что обмен данными и сотрудничество в этой области принесет пользу всем, позволяя принимать более грамотные решения, повышать эффективность и даже помогать в разрешении некоторых самых острых проблем мирового сообщества.

Цель нашей кампании заключается в проведении крайне необходимой дискуссии о том, как мир использует данные и обменивается ими. Для начала сегодня мы объявляем о трех шагах:

  • Во-первых, мы публикуем новые принципы, которыми будет руководствоваться сама компания Microsoft при обмене нашими данными с другими.
  • Во-вторых, мы обязуемся предпринять шаги по развитию к 2022 году 20 новых инициатив по сотрудничеству, разработанных в отношении общих данных. Они включают в себя работу с ведущими организациями в области открытых данных, такими как Open Data Institute и Лаборатория управления The Governance Lab (GovLab) Тандонской школы инженерии Нью-Йоркского университета. Мы будем стремиться подавать пример, cделав социально значимые инициативы Microsoft «открытыми по умолчанию». Мы начнем с обмена данными о широкополосном доступе в рамках нашей инициативы Airband, а также комбинирования их с данными, полученными от других организаций, чтобы ускорить усовершенствование широкополосного подключения.
  • Наконец, мы будем инвестировать в основные активы, которые облегчат обмен данными, включая необходимые инструменты, рамки и шаблоны.

В последние месяцы мы вновь убедились, что эффективный обмен данными дает не только преимущества для бизнеса и для деятельности различных организации, но и помогает в решении крупнейших мировых проблем: от изменения климата до пандемии COVID-19. Совершенно очевидно, что данные играют важнейшую роль в понимании этих проблем и нахождении способа их решения. Чтобы в полной мере воспользоваться преимуществами данных, нам необходимо развивать способность организаций обмениваться ими безопасным и надежным способом. Именно сейчас, как никогда раньше, для всего мирового сообщества пришло время ускорить работу с открытыми данными. Мы надеемся, что наши сегодняшние шаги будут способствовать этим усилиям. Мы привержены общему делу, учимся у других и стремимся работать вместе.

Что мы имеем в виду под «разделением данных» и почему сейчас?

Несмотря на огромный рост данных и ИИ, и то, и другое все больше концентрируется в руках небольшого числа компаний. Действительно, в настоящее время менее 100 компаний собирают более 50% данных, генерируемых при онлайн-взаимодействиях (на основе анализа similarweb.com, appfigures.com и alexa.com), и около половины всех людей, обладающих техническими навыками ИИ, работают в технологическом секторе (согласно данным LinkedIn).

Неудивительно, что эти предприятия могут воспользоваться огромными преимуществами данных и ИИ, в то время как другие оказываются в невыгодном положении. Такое разделение представляет собой серьезную проблему для общества и, если оставить его без внимания, может привести к тому, что огромная экономическая мощь переместится всего лишь в несколько стран и компаний. Основываясь на текущих тенденциях, например, PWC предсказывает, что около 70% экономической ценности, создаваемой ИИ, будет приходиться только на две страны: США и Китай.

Но мы не считаем, что постоянно растущий разрыв в данных неминуем. Работая в направлении раскрытия данных и обмена ими, организации могут создавать экономическую ценность, обмениваться опытом и делать данные полезными для всех, позволяя таким образом каждому участнику извлечь выгоду, которую невозможно получить в одиночку. Действуя именно сейчас и объединяя усилия, все больше общественных и гражданских организаций, правительств и предприятий всех размеров смогут реализовать всю ценность данных.

Обозначить принципы

Чтобы задать правильный курс нашим собственным усилиям в области открытых данных, мы устанавливаем ряд принципов, которые определяют, как мы в Microsoft открываем данные и ответственно относимся к их совместному использованию. Благодаря нашей работе в области защиты конфиденциальности, ответственного использования искусственного интеллекта и устойчивого развития мы поняли, что при решении важных и сложных общественных проблем необходимо обозначить четкий набор принципов.

Мы надеемся, что эти принципы послужат основой для более широкого обсуждения открытых данных и что все остальные смогут опираться на эти положения и продолжать совершенствовать их. Вот пять принципов, которыми мы будем руководствоваться при внесении своего вклада в надежное доверительное сотрудничество в области данных:

  • Открытость: Microsoft будет работать над тем, чтобы данные, относящиеся к важным социальным проблемам, в том числе и собственные данные компании, были настолько открытыми, насколько это возможно.
  • Польза: Microsoft инвестирует в создание новых технологий, инструментов и политик, чтобы сделать данные полезными для всех.
  • Расширение возможностей: Microsoft поможет организациям получить выгоду от использования их собственных данных в соответствии с их собственными задачами, а также развивать внутри этих организаций специалистов по ИИ, чтобы они смогли самостоятельно эффективно использовать данные.
  • Безопасность: Microsoft проследит за тем, чтобы процесс обмена данными был полностью безопасен.
  • Конфиденциальность: Microsoft будет помогать организациям защищать неприкосновенность частной жизни, включая личную информацию и персональные данные, в процессе обмена данными.

Каждый из этих принципов важен. Однако, как стало очевидно в ходе нашей работы, один из них выделяется как самый сложный, но имеющий решающее значение: необходимость сделать данные более пригодными для использования. Организации должны собирать и классифицировать данные стандартизированным образом, иначе они не смогут агрегировать и анализировать их, а значит, использовать тот огромный потенциал, который может дать обмен данными для получения глубоких аналитических знаний.

Приверженность новым принципам сотрудничества

Мы верим, что успех будет зависеть не только от правильности выбранного курса, но и от построения глубокого сотрудничества с представителями промышленности, правительства и гражданского общества во всем мире. Мы будем подавать пример в стремлении делать больше для изучения проблем, связанных с открытыми данными, и создания решений.

С этой целью компания Microsoft обязуется к 2022 году начать 20 проектов по совместному использованию данных, налаживая партнерские отношения для решения самых серьезных вызовов нашего времени. Чтобы способствовать началу этого сотрудничества, Microsoft сделает свои социально значимые инициативы «открытыми по умолчанию» и изучит, смогут ли наши данные, связанные с такими инициативами, как Airband, AI for Good и наша работа в области устойчивого развития и доступности, быть открытыми и полезными в решении главных вызовов. Мы рады сотрудничеству с Институтом открытых данных в этом начинании, возможности работать вместе и делиться знаниями с другими, чтобы они также могли извлечь из них выгоду. Наша первоначальная работа будет сосредоточена на этом:

Решение задачи по подключению к сети: в рамках открытого соглашения Microsoft публикует на GitHub небольшой, но важный набор данных, относящийся к использованию широкополосной связи в США и собранный в рамках нашей Инициативы в области широкополосной связи. Мы будем работать с Институтом открытых данных и Broadband Now, компанией, которая помогает потребителям найти широкополосный доступ в США, чтобы добавить в этот набор данных для улучшения доступности широкополосной связи. Набор данных Broadband Now содержит информацию о ценах и конкуренции на уровне округов.

Анализ проблемы COVID-19: в качестве помощи в решении одной из наиболее насущных задач сегодняшнего дня мы внесем свой вклад в деятельность по использованию данных для борьбы с кризисом COVID-19. Она включает в себя расширение работы, которую Microsoft проводит совместно с партнером Adaptive Biotechnologies, по расшифровке реакции иммунной системы на COVID-19. Любой исследователь в борьбе с пандемией может осуществлять обмен результатами исследований через открытый портал доступа к данным. В более широком плане корпорация Microsoft создала трекер COVID-19 в своей поисковой системе Bing и предоставляет агрегированные данные тем, кто работает в академических и исследовательских учреждениях. Мы также сотрудничаем с GitHub, на базе которого осуществляется ряд совместных проектов по COVID-19, включая программное обеспечение с открытым исходным кодом, аппаратные проекты, модели и перспективные наборы данных по COVID-19.

Помощь в налаживании сотрудничества между городами в области данных: Microsoft выступит партнером Arup и Oliver Wyman Forum в рамках Лондонской комиссии по данным. Это инициатива по сбору открытых данных, реализуемая London First совместно с Администрацией Большого Лондона и другими организациями. Задачей данной инициативы является координация сотрудничества в отношении городских данных, которое может оказать помощь в решении социальных и экономических проблем в Лондоне.

Помощь в налаживании сотрудничества между правительствами в области данных. Чтобы способствовать большей открытости правительств и желанию сотрудничать в области данных, в Нью-Йоркском университете совместно с лабораторией GovLab мы запустим проект Open Data Policy Lab. Он представляет собой актуальный репозиторий лучших практик и ресурсов в следующих фокусных областях: 1) анализ инициатив в области данных, которые способствуют экономическому развитию в форме сравнительных исследований; 2) рекомендации, включающие наборы инструментов, фреймворки и передовой опыт для поддержки обмена данными и принятия решений на основании данных; 3) сообщества, распорядители данных и другие заинтересованные стороны в области данных в государственном и частном секторах; 4) действия по реализации экспериментальных проектов.

Развитие системы здравоохранения, основанной на данных. Эта работа позволит получить первые всемирные данные для совместного использования в области здоровья сердечно-сосудистой системы. Она объединит данные из целого ряда источников для борьбы с одной из ведущих причин смертности в глобальном масштабе. Microsoft сотрудничает с Novartis Foundation, больницами Apollo Hospitals в Индии и Coala Life в Швеции с целью консолидации их наборов данных по сердечно-сосудистой системе, поступающих из больниц и центров первичной медико-санитарной помощи по всему миру. Целью сотрудничества является дальнейшее развитие и использование ведущего инструмента ИИ для лечения сердечно-сосудистых заболеваний — показателя риска AICVD Risk Score, созданного больницами Apollo Hospitals. Он позволит ускорить использование данных при принятии решений в борьбе с сердечно-сосудистыми заболеваниями и информирование о направлениях развития в области здравоохранения.

Упрощение и повышение безопасности обмена данными. Если данные открыты и доступны, но непригодны для использования, то они бесполезны. Поэтому мы обязуемся содействовать решению проблем, вызванных отсутствием простых в использовании инструментов и рамок для обмена данными, что позволит сделать эти данные более пригодными для использования. Одна из больших проблем, которую мы наблюдали в нашей работе по обмену данными и анализу, проводимому для помощи в борьбе с кризисом COVID-19, заключается в сложности, связанной с несогласованностью данных при их сборе. В настоящее время данные собираются в различных форматах и типах документов — некоторые в документах Word, некоторые в PDF, некоторые в электронных таблицах, а некоторые вообще на бумаге. Это делает практически невозможным обмен данными и их агрегирование и создает огромный барьер для сотрудничества. Данная кампания сфокусирована на решении этой проблемы, а также на разработке масштабируемых инструментов, доступных для использования в любой организации, что поможет сократить сложности вокруг обмена.

Облегчение и упрощение обмена данными

Инициативы в области программного обеспечения с открытым исходным кодом помогут извлечь ценные уроки. Существуют важные различия между данными и кодом, особенно в отношении шагов, необходимых для решения вопросов конфиденциальности и безопасности при работе с данными. Тем не менее, наш опыт работы с открытым исходным кодом дает нам представление о том, как создать условия для успешного сотрудничества. Нашим приоритетом является продолжение работы над соглашениями об использовании открытых данных, включая предоставление шаблонов для всех участников, желающих обмениваться данными, а также использовать инструменты управления, лицензирования и правовые документы, которые доступны на сайте Open Data Campaign. Мы также продолжим работу над дифференцированной конфиденциальностью с помощью Гарвардского IQSS, предоставляя инструменты для извлечения полезной аналитики из наборов данных с обеспечением конфиденциальности персональных данных.

Сократить разрыв в данных — сложная задача. Но преимущества, которые получат организации любого размера, а также более широкое сообщество, будут значительными, если мы сможем работать сообща для достижения результатов в области открытых данных. Мы стремимся внести свой вклад и с нетерпением ждем возможности сотрудничества с другими, чтобы каждый мог воспользоваться преимуществами данных.

Tags: AI for Health, Airband, COVID-19, Open Data, Open Data Campaign, ИИ

©  Microsoft