[Перевод] Жизнь и графы: сетевой подход к моделированию систем

6d09d55430024c328dab519a0cf87357.jpg

Современным миром правят всевозможные сети. Практически любые данные можно представить в виде сетевой структуры. При этом многие люди не осознают, не видят того, что в основе тех или иных систем лежат сетевые принципы. В этом посте мы рассмотрим несколько видов сетей, моделирующих различные системы, разберём их преимущества и недостатки, а также поговорим о выгодах, которые нам даёт использование сетевого подхода к моделированию.

Сети и рынки


Торговля — это процесс продажи товара или услуги одним участником сделки другому, а значит является разновидностью сети. Именно анализ рыночных сетей может помочь нам понять, как функционирует экономика.
Некоторое время назад Марк Грановеттер (Mark Granovetter), занимавшийся исследованием процессов поиска работы, открыл силу слабых связей.

ad85b2b09c6e4c9bada2089ebffa1640.jpg

Работа Грановеттера оказала очень большое влияние на анализ социальных сетей. В частности, в ней утверждается кое-что, противоречащее здравому смыслу: специалисты, с которыми у вас мало точек соприкосновения (слабые связи), могут быть наилучшим источником полезной информации по работе, поскольку у них есть доступ к более свежим данным, отличающимся от тех, что доступны людям, с которыми вы общаетесь плотнее (сильные связи). Эта «гипотеза слабых связей» используется сегодня для анализа всевозможных видов взаимоотношений.

Несколько десятилетий назад при анализе социальных сетей исследователи оперировали только теми данными, которые им удалось собрать самостоятельно, через личный опыт, а также опрашивая своё ближайшее окружение и проводя многие часы «в полях». Сегодня исходные данные для анализа поставляют бесчисленные сайты и приложения социальных сетей. Да и сам по себе интернет может быть представлен в виде большого графа, отражающего логические взаимосвязи между вебсайтами. И для исследования и понимания принципов функционирования этих экосистем можно использовать широкий ассортимент методик, применяемых в анализе социальных сетей. По сути, грамотное применение анализа сегодня является одной из главных инноваций в сфере социальных сетей.

Сети успеха


Есть и другие пути использования сетей для понимания рыночных связей.

7352174f8ac14cbda47d602d9d9f839f.png

Так выглядит схема взаимосвязей между стартапами в сфере информационной безопасности в Атланте по состоянию на 2010 год. Построить её удалось благодаря информации, полученной от самих участников стартапов, а также из LinkedIn и Google. Каждый узел на схеме соответствует какой-то компании. Связь между узлами А и Б говорит о том, что основатель компании Б ранее работал в компании А. Например, компании Internet Security Systems (ISS) и SecureIT являются настоящими инкубаторами основателей стартапов, породив большинство представленных на схеме компаний.

Эта простая схема хорошо иллюстрирует идею, согласно которой в основе процесса экосистемы стартапов лежит сетецетрический принцип. Целые кластеры компаний выживают совместно благодаря так называемой «сети успеха» — взаимосвязям между отдельными лицами, работающих в одном направлении, развивающих многочисленные навыки, социальный капитал и финансовые средства.

Эта сеть аналогична целому ряду широко известных социальных сетей, таким как PayPal Mafia или Fairchildren. И под «социальными сетями» здесь подразумеваются не Facebook или ВКонтакте, а социальные структуры, которые изучаются с помощью анализа социальных сетей.

Представленная выше схема доказывает важность наставничества и обучения в деле создания стартапов и экосистем. Участие сотрудников в IPO компании равносильно обретению каждым из них стартового капитала. Правда, в экосистемах стартапов редко присутствуют провинциальные компании, поскольку в провинции у сотрудников обычно недостаточно возможностей и финансовых средств для того, чтобы рисковать и создавать собственные стартапы.

Но как только одни стартапы начинают порождать другие, экосистема становится саморазвивающейся, ей уже не нужна поддержка извне. Более ранние поколения предпринимателей начинают инвестировать сами и становятся наставниками для новых предпринимателей, причём каждый возникший кластер становится устойчивее, связи внутри него расширяются.

Одним из способов извлечения пользы из подобных схем является инвестирование именно в компании, составляющие подобные кластеры. Естественно, для этого необходимо сначала выявить эти связи, проанализировав массив доступных данных и построив схему. Таким образом можно снизить долю инвестиционных потерь, поскольку синергетический эффект от взаимодействия между компаниями внутри кластеров повышает вероятность их успеха на рынке.

InMaps LinkedIn


В своё время Али Имам, работая в LinkedIn, разрабатывал InMaps как побочный проект. Но он оказался крайне успешным, аудитория с большим энтузиазмом начала пользоваться этим функционалом.

InMaps являлась замечательным примером приложения, использующего выборку методом «снежного кома» и сети с полуторным переприёмом (1,5 hop networks). «Снежный ком» представлял собой выборку, которая начинается с одного или нескольких человек, а затем разрастается, словно снежный ком, по мере включения в выборку друзей, друзей друзей, друзей их друзей и т.д. Пока выборка не станет достаточно большой, чтобы на её основе можно было сделать необходимые выводы. Под «сетями с полуторным приёмом» подразумевались локальные группы людей, сформированные вокруг какого-то объекта или личности. Эти два понятия помогают анализировать отдельные части больших графов, которые невозможно охватить целиком.

В InMaps брался какой-то пользователь сети LinkedIn, к нему добавлялись связанные с ним люди, а также связи между ними — это была «сеть с полуторным переприёмом». Если бы брался исходный человек и связанные с ним люди, без «радиальных» связей, это была бы «сеть с одним переприёмом». Если включить не только связи между друзьями «центрального» пользователя, но их связи с другими людьми, не связанным с первым, то получилась бы «сеть с двумя переприёмами».

Забавно, но один из багов InMaps в результате превратился в фичу. На заключительном этапе разработки ещё не был реализован функционал, позволяющий пользователям давать названия кластерам, создаваемым в приложении. В то же время перед разработчиками встал вопрос, как привлечь внимание пользователей к проекту?

В конце концов на широкоформатном принтере была распечатана карта взаимосвязей брата одного из разработчиков, и он вручную приклеивал придуманные им названия кластеров. Этот штришок — когда необходимо давать названия кластерам на твоей карте — впоследствии очень по душе пришёлся пользователям. Это только подкрепило вирусное распространение информации о новом инструменте, с помощью которого можно было визуализировать всю свою карьеру, профессиональную деятельность.

af7119f4396842418933c02d7d9e013d.png

Сети почтовых ящиков


Ещё одним интересным примером сетей является результат анализа данных компании Enron. В ходе масштабного расследования, сопровождавшего банкротство корпорации, было собрано около 0,5 Гб электронных писем, которые впоследствии превратились в стандартный набор данных для тестирования различного статистического ПО.

Поработав с «данными Enron», Расселл Джурни (Russell Jurney), автор статьи, решил, что ему хочется поработать с личной информацией, а не с чьими-то чужими письмами. Для этого он написал скрипт, скачивающий письма из папки «Входящие» на Gmail и конвертирующий их в формат Avro. С помощью алгоритмов, использующихся в InMaps, Рассел создал карту взаимосвязей из своего почтового ящика:

a1a104c17b974674b5aec84dc6087f33.png

Здесь наглядно отражены группы и почтовые рассылки, в которых принимал участие Расселл. Также он создал карту связей между авторами писем, на которой они объединены по группам и организациям. Технология «сети почтовых ящиков» легла в основу проекта RelatelQ, который был приобретён в 2014 году за $392 миллиона. Одним из преимуществ RelatelQ стало то, что с его помощью можно очень сильно уменьшить объём вводимых в CRM-систему данных. Это достигается благодаря автоматической идентификации компаний, с которыми ведётся переписка, и созданию связей между входящей и исходящей корреспонденцией в CRM-системе.

Данная технология используется также в стартапе Kontexa, основанном Расселлом Джурни. C его помощью можно создавать совместные семантические почтовые ящики. Вот пример визуализации связей между разными почтовыми ящиками на семантическом уровне:

b7bd84fc475c48138ed475d56c847baf.png

Данная работа позднее легла в основу книги Agile Data Science. С её помощью читатели могут самостоятельно скачать письма из своих почтовых ящиков и проанализировать их в Apache Pig и Python.

Анализ CRM


Базы данных CRM могут стоить многие миллионы долларов, и они представляют собой находку для аналитика, ведь на них можно тестировать самые разные инструменты и методики. Одной из интересных задач стало исследование возможности визуальной кластеризации подобных баз данных для последующего автоматического таргетирования.

Ниже представлена карта связей на основе баз данных CRM основных вендоров Hadoop: Cloudera, Hortonworks, MapR и Pivotal. Взаимосвязи устанавливались на основании партнёрских списков. Такие списки есть у большинства компаний в сфере больших данных. Там перечислены те организации, чьи продукты и услуги используются в предлагаемых решениях. Сначала была построена карта партнёрских связей для каждого из четырёх вендоров, а затем добавлены партнёрские связи партнёров.

e1e0f3a1a0b5452485adbe1289a43156.png

С помощью подобных карт можно создавать контент, предназначенный для конкретных кластеров и эффективнее таргетировать его.

Здесь у вас, вероятно, возникла идея:, а что если таким образом построить карту целых рынков? Да что там рынков — экономик! Создать глобальную схему взаимосвязей между всеми организациями, участвующими в товарно-денежных отношениях. Вероятно, этот амбициозный проект вполне может быть реализован. В частности, с помощью такой карты можно было бы легче обнаруживать слабые места в экономике и повышать эффективность различных рынков. С этой целью создавался, например, стартап Relato. Позднее собранные с его помощью данные сведут в отчёт Картографируя большие данные: Рынок, которым движут данные, который появится в общем доступе благодаря партнёрству с компанией O«Reilly. В отчёте будет представлена аналитика по компаниям, предлагающим продукты и услуги для работы с большими данными.
Как видите, сетевые структуры лежат в основе самых разных явлений и систем.

Так что когда в следующий раз начнёте работать с какими-то данными, спросите себя:, а не являются ли они сетью? Что мне даст подобное представление взаимосвязей?

© Habrahabr.ru