Управление большими массивами данных
Чем занимается наука о данных? Как за последние десять лет изменился способ входа в интернет? Как можно организовать большие массивы данных? На эти и другие вопросы отвечает доцент Университета Иннополис Кьянг Ку.
Я в основном занимаюсь наукой о данных, в частности обработкой крупных массивов данных и датамайнингом. Прежде чем рассказать о своих конкретных исследованиях, я бы хотел поговорить о контексте науки о данных. Нам сложно представить, что на протяжении жизни почти любое наше действие создает данные. От этого растут не только количество и объем данных, но также их сложность.
Данные могут обладать многими известными или неизвестными свойствами. Например, возьмем действующую городскую дорогу. Все участки дороги известны в данный момент, потому что они уже существуют. Но дорожную обстановку на участках дороги очень сложно предсказать, даже имея все исторические данные, потому что на дорожную обстановку может влиять масса явных и неявных факторов. Кроме того, между объектами в массиве данных могут быть внутренние связи. Например, в процессе принятия решения мы никогда ничего не решаем только собственным умом. Мы часто учитываем взгляды друзей, коллег, родных или экспертов. Потому что наша жизнь — это сеть социальных связей.
Постоянно растущие объемы массивов данных, а также сложность данных очень сильно осложняют процесс обработки и понимание данных. Наука о данных занимается извлечением знаний и значимой информации из крупных и сложных массивов данных. Извлечение информации выводит скрытые закономерности, спрятанные в данных, и позволяет лучше понимать данные. В этом значимость науки о данных. Она соединяет знания с реальностью. Она преобразует онлайновые знания в офлайновые. Она меняет нашу жизнь, стратегии бизнеса, подход к выбору и помогает другим наукам, технологии и социологическим исследованиям. Я приведу два примера. Первый касается пользования сетью с учетом местоположения. Дело в том, что за последние десять лет мы стали иначе выходить в сеть: сейчас мы с большей вероятностью заходим в интернет с мобильного устройства. Рубеж пришелся на 2008 год. Именно тогда число выходов в сеть с мобильных устройств обогнало персональные компьютеры. Это очень значимая тенденция, особенно с 2007 года, когда вышел первый iPhone.
Важная черта смартфонов и мобильных устройств — это их геопозиционный потенциал. Благодаря ему нам легко связать свое местоположение и веб-контент. Это значительно меняет веб-поиск. К примеру, можно вести поиск с учетом своего местоположения. Можно найти гостиницу или магазин с учетом своего положения и предпочтений вместо привычного поиска лишь по ключевым словам. Но это создает конкуренцию на рынке мобильных устройств. Налицо множество ограничений — например, вычислительная мощность, хранение данных и аккумуляторы. Поэтому нужны эффективные и разумные нормы конкуренции.
Второй пример — это крупномасштабный графмайнинг. «Твиттер» — отличный пример массивной динамической диаграммы. У «Твиттера» ежемесячно более 284 миллионов активных пользователей. Они размещают более 500 миллионов твитов в день. Отношения и общение между пользователями создают массивные динамические диаграммы, но понять эту диаграмму очень сложно. Задумайтесь: сложно не только понять, но даже визуализировать такую диаграмму. Поэтому в своей работе я предлагаю сжать диаграмму. Это позволит выработать компактные и точные сводки данных, чтобы данные было проще понимать и обрабатывать. Думаю, я смогу показать вам примеры анализа данных в системах «Твиттера».
Задача одного из моих исследований — понять динамику пользователей в системах «Твиттера», то есть как информация распространяется в системах «Твиттера».
А поскольку данные крайне динамичны и масштабны, их нельзя визуализировать, чтобы увидеть, как данные перемещаются между пользователями. И одно из решений этой проблемы — обобщить данные, что я и делаю в своем исследовании. Это позволяет понять, как информация распространяется в системе и какие пользователи самые интересные и важные в процессе общения.
Сейчас все пользователи важны в процессе общения. Если определить этих важных пользователей, можно создать разные приложения. Например, можно остановить вирус, если таковой распространяется по системе. Можно рекламировать товары в системах «Твиттера». Можно разобраться, как люди воспринимают информацию в онлайновые часы и чем это непохоже на офлайновые часы. Мне кажется, одна из важнейших задач в этой области — понять миры онлайна и офлайна.
Сейчас есть новый тренд — «интернет вещей». Мы используем сенсоры, киберфизические системы, чтобы соединить миры онлайна и офлайна. Можно интернетизировать что угодно из физического мира в виртуальный. В этой области может быть масса проблем. На самом деле обработка больших массивов данных и «интернет вещей» — вернее, датамайнинг в этих областях — очень важны. Потому что с помощью знаний, полученных из данных, можно оптимизировать организацию информации в ограниченных сенсорных и смарт-устройствах.
Я думаю, управление большими массивами данных и датамайнинг очень важны для будущих исследований. Данных собирается все больше. С помощью «интернета вещей» можно собирать данные из разных отраслей. Можно собирать данные из электрических сетей. Можно собирать данные из любой отрасли, из своего «умного дома». И на этой основе анализировать поведение пользователей. А мотив для этой деятельности в том, что с помощью методов обработки больших массивов данных можно извлекать из данных важнейшие знания и повышать качество жизни или создавать новые продукты.
Полный текст статьи читайте на Postnauka.ru