Пинг IP-адресов как универсальный инструмент общественных наук

bcb3aa5cb7ff42a0bd88e4d358d763b9.png

С какой точки зрения ни посмотреть, но интернет — физическая сеть оптоволоконных кабелей, соединяющая воедино миллиарды маршрутизаторов, серверов и компьютеров по всему миру — это самое выдающееся изобретение человечества, которое повлияло на все сферы человеческой деятельности: здравоохранение, политику, образ жизни. Наличие интернета положительно коррелирует с изменением режима сна человека и его интимной жизнью.

По оценке МСЭ, к концу 2016 года к Сети подключены 3,5 млрд человек (47,1% населения) или почти 1 млрд домохозяйств. В четырёх странах мира проникновение достигло условных 100% по количеству IP-адресов на домохозяйство из трёх человек: это Германия, Дания, Южная Корея и Эстония. Кстати, в последней даже президента выбрали через интернет.

Группа исследователей под руководством Клауса Акермана (Klaus Ackermann) из Чикагского университета провела первое в истории масштабное исследование влияния интернета на человеческое общество: за период с 2006 по 2012 годы они сделали более 1 триллиона пингов всех адресов IPv4 с интервалами от 15 минут — и соотнесли эти данные с изменениями разных социоэкономических показателей в 1647 городах 122 стран мира. Это исследование не является каким-то цельным описанием картины изменений, но показывает любопытные корреляции между проникновением интернета и некоторыми изменениями, которые происходят в обществе.
Авторы исследования подчёркивают, что ни одна технология в истории человечества не распространялась в обществе настолько быстро. По их оценке, в среднем для достижения максимального проникновения (примерно 1 IP-адрес на домохозяйство) в каждой конкретной стране интернету требуется 16,1 года. Для сравнения, другим революционным технологиям в истории человечества для этого понадобились более продолжительные периоды времени: паровому двигателю — 100 лет, электричеству — примерно 60.

81eecf8aaaea438aaa2e3ac5c2b22e7f.png

Для социологии это поистине уникальная возможность. Впервые в истории почти половина человечества подключена к единой технологии общего назначения, то есть к такой технологии, которая влияет сразу на всю экономику целиком. Половина человечества подключена к единой сети и пронумерована в соответствии с правилами адресации IP-протокола. Более того, с научной точки зрения важно то, что в любой момент времени можно относительно легко проверять статус онлайн/офлайн для каждого IP-адреса. Таким образом, появляется возможность составлять моментальные «срезы» всего интернета целиком.

Исследователи из Чикагского университета и Университета Монаша (Австралия) разработали техническую платформу для мониторинга всего диапазона IP-адресов каждые 15 минут. На протяжении 2006–2012 гг было сделано 1,5×1012 проверок активности (офлайн/онлайн). Эта информация добавлялась в базу данных вместе с геолокационной информацией о каждом IP-адресе.

Статус каждого IP-адреса проверялся путём пинга ICMP. Физическое местонахождение устройства определялось путём триангуляции его широты и долготы по времени пинга из разных точек земного шара. Поскольку географическое местонахождение IP-адреса — величина непостоянная, то каждые несколько недель триангуляция каждого адреса повторялась для обновления геолокационной базы данных.

18830ed04423478d8730733b8bcc9732.png

Собранную базу данных активности IP-адресов с их географическими координатами учёные затем объединили с координатами 1647 крупных городов в 122 странах мира. Таким образом они получили многолетнюю статистику интернет-активности всех крупных городов с 15-минутными интервалами.

Научный потенциал этой базы данных ещё предстоит открыть учёным в будущем. Наверняка её неоднократно используют в различных исследованиях. В своей научной работе инженеры всего лишь представили несколько примеров, как можно применить эту базу. Во-первых, они показали динамику распространения самого интернета в каждом городе и каждой стране (как уже было отмечено выше, в среднем время максимального насыщения IP-адресами оценивается в 16,1 года). Во-вторых, учёные отследили изменения продолжительности сна у населения после подключения интернета. В-третьих, они изучили корреляции между проникновением интернета и изменением экономических показателей региона, в том числе ВВП на душу населения.


Учёные подтвердили, что интернет действительно распространяется в каждой стране по S-образному графику. За медленным началом следует стремительный рост, а затем медленное насыщение. Большинство развитых стран, в том числе Россия, Украина и Беларусь, находятся в средней или высокой стадии процесса насыщения IP-адресами.

Точно по такому S-образному графику распространялись среди людей другие революционные технологии, которые кардинально продвинули общество вперёд: паровые двигатели, электричество, персональные компьютеры, гибридная кукуруза и др.

По оценке исследователей, темпоральная динамика IP-адресов на душу населения в 1647 городах соответсвует логистическому процессу, который описывается формулой

$IPc_t = \frac{K}{1+(e^{-\alpha(t-\beta)})}$

,
где $K$, $\alpha$ и $\beta$ — это асимптотический предел, градиент и средняя точка, соответственно. EM-алгоритм обработал данные со всех городов, вычисляя оценку максимального правдоподобия и уточняя ожидаемое правдоподобие на каждой следующей итерации. Таким образом удалось вычислить асимптотический предел, который составил 0,32 IP-адреса на человека, то есть «насыщенность» интернетом наступает при регистрации примерно одного IP-адреса на домохозяйство из трёх человек. Время $t$ для прохождения всего пути проникновения с уровня 1% до уровня 99% составляет, в среднем, 16,1 года.

В таблице показаны результаты расчёта параметров для стран, по которым проводилось исследование.

88fafb22ef7b4da7a55be30d2b0fa496.png

Хотя многие развитые страны уже достигли точки насыщения, но некоторым государствам вроде Латвии ждать асимптоматического предела нужно ещё 13 лет. Фактически, график той же Латвии ещё не добрался даже до точки $\beta$.


Используя внутридневные вариации статуса активности IP-адресов, учёные создали базу оценки времени ухода ко сну, времени просыпания и оценки длительности сна жителей 645 городов за семилетний интервал времени. Это довольно актуальное направление исследование, потому что в последнее время влияние интернета и гаджетов на человеческое поведение и качество сна (биоритмы, гормональная активность) активно изучается исследователями.

Учёные логично предположили, что уход в офлайн подключенного к интернету устройства может соответствовать времени, когда человек засыпает. И наоборот, время подключения устройства к интернету в начале дня соответствует времени, когда человек просыпается. Используя такое предположение, исследователи для начала применили программу машинного обучения для сравнения детальной и точной статистики American Time Use Survey (ATUS) со своей базой данных. ATUS содержит статистику по времени сна американцев в 81 крупном городе с населением более 500 тыс. человек. Сравнение показало, что фактическая статистика времени сна ATUS отличается от результатов анализа активности IP-адресов в среднем на 11 минут. То есть информация в базе имеет приемлемую погрешность, чтобы использовать интернет как глобальную мировую хронобиологическую платформу. Так и сделали авторы работы.

Выяснилось, что паттерны сна в мире очень сильно статистически отличаются. Например, жители Мексики спят гораздо дольше, чем жители соседних США. Такая же существенная\ разница наблюдается у жителей соседних Японии (мало сна) и Южной Кореи (много сна).

f69150e65bd24ba5ac83131c16de2c74.png

Но самое интересное показано на графике D. Судя по всему, благодаря интернету в мире происходит глобальная конвергенция паттернов сна. Независимо от страны, культуры и религии, люди начинают спать примерно одинаковое количество времени, то есть унифицируются. Время сна в Азии увеличивается, время сна европейцев сокращается, а в целом все три кривые стремятся к одной общей точке между 8 и 8,5 часами. Продолжительность сна жителей Северной Америки на протяжении семи лет измерений оставалась примерно одинаковой.

Вот данные по некоторым другим странам.

Украина. Среднее время засыпания жителя страны — 22,38 (22 ч 23 мин), просыпания — 8,21 (8 ч 13 мин), продолжительность сна — 9,83 (9 ч 50 мин). По максимальной продолжительности сна жителей Украины обгоняют только две страны мира: Испания и Аргентина.

Россия. Среднее время засыпания — 22,57 (22 ч 34 мин), просыпания — 7,90 (7 ч 54 мин), продолжительность сна — 9,33 (9 ч 20 мин). Россияне спят примерно столько же, сколько греки, итальянцы и португальцы.

Германия. Среднее время засыпания — 21,86 (21 ч 52 мин), просыпания — 6,94 (6 ч 56 мин), продолжительность сна — 9,07 (9 ч 4 мин).

США. Среднее время засыпания — 22,11 (22 ч 7 мин), просыпания — 6,62 (6 ч 37 мин), продолжительность сна — 8,51 (8 ч 31 мин).

Япония. Среднее время засыпания — 23,06 (23 ч 04 мин), просыпания — 6,33 (6 ч 20 мин), продолжительность сна — 7,27 (7 ч 16 мин). Одна из самых трудолюбивых стран мира, Япония, отличается минимальным временем сна.

bcab4b0548c7401da236c71156deba3b.png

Учёные обращают внимание, что анализ изменений в продолжительности сна — это лишь один параметр в базе ATUS, который можно анализировать с помощью собранной статистики IP-адресов. Есть ещё много других параметров, которые описывают образ жизни людей.


Исследователи продемонстрировали, что активность IP-адресов позволяет прогнозировать локальную экономическую активность в городах, а также отличия в производительности по секторам. В данном случае были проанализированы данные из 411 крупных регионов в странах со средним или высоким уровнем экономического развития за 2006–2012 годы, в том числе из 71 региона России (полный список см. в научной работе). Понятно, что простое сравнение экономической активности и проникновения интернета здесь не работает. Эти два процесса идут одновременно и сопровождаются рядом фактором, которые влияют одновременно и на экономическую активность, и на проникновение интернета. Например, технологическое развитие, культура, география и т.д. Вместо этого учёные сравнили три конкретных показателя:

  • региональный ВВП на душу населения за конкретный год;
  • ВДС (валовая добавленная стоимость) — разница между стоимостью произведенных товаров и услуг (выпуском) и стоимостью товаров и услуг, полностью потреблённых в процессе производства — на работника в год по секторам экономики;
  • количество IP-адресов на душу населения.

5377ddd429e343f9a8a6c5850b2503c2.png

Была найдена явная положительная корреляция количества IP-адресов на душу населения и ВВП. Простой коэффициент корреляции без учёта специфических для региона трендов и специфических отличий конкретного года в конкретной стране и специфических для региона временных трендов составляет 0,38. С учётом всего перечисленного коэффициент уменьшается до 0,08. Это означает, что увеличение количества IP-адресов на 10% соответствует увеличению ВВП на 0,8% на уровне конкретного города.

Любопытно, что экономический рост в связи с распространением интернета не распределяется равномерно по всем отраслям экономики. Некоторые отрасли выигрывают от него гораздо сильнее остальных, а отдельные отрасли, наоборот, начинают слегка деградировать после распространения интернета.

Как видно на диаграмме вверху, среди выигравших отраслей по производительности труда — торговля недвижимостью, прочие сервисы, промышленность, торговля, ремонт, транспорт и гостиничный бизнес.

Упала производительность труда при распространении интернета в таких секторах как информация и коммуникации, профессиональные, технические и административные сервисы, общественные услуги, образование и здравоохранение.

По словам авторов, это первое научное исследование такого рода, когда техническая информация сети Интернет используется как платформа для проведения социальных и экономических исследований. Научная работа опубликована 19 января 2017 года на сайте препринтов arXiv.org (arXiv:1701.05632).

© Geektimes