Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub

Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности.

e40f9dfe9e5a0b28d31c1b345a949c5a.jpg


Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы теперь богач. Если находили, то наверняка первый месяц провели, обложившись книжками, увеличительными стеклами и всем, что может помочь вам узнать про находку всё. А следующие несколько месяцев вы хвастались находкой всем друзьям.
Что-то в этом роде произошло со мной, когда я наткнулся на логи sci-hub. Вроде в интернете полно открытых данных, но чтобы заполучить журнал учёта на 195 миллионов записей — это не каждый день так везёт. Несколько недель я изучал доставшееся мне богатство, а теперь пришёл на хабр, чтобы рассказать вам, что я нарыл.
Sci-hub — крупнейший пиратский сайт для учёных. С его помощью исследователи всего мира скачивают научные статьи в обход дорогущих paywall-ов. В день через sci-hub скачивается около полумиллиона статей. Недавно Александра Элбакян — автор сайхаба — выложила логи скачиваний статей за 2017-й год. Изучая эти записи можно многое узнать о том, как работает наука, но я решил подойти с немного другой стороны и узнать, как работают учёные.

Особенность этих данных в том, что они показывают трек не просто сетевой активности, а активности рабочей. Читать научные статьи — это вам не котиков лайкать. Для нас статистика скачиваний — это возможность более-менее объективно посмотреть на то, как устроен рабочий год учёного или инженера, не полагаясь на стереотипы. Вы ведь не меньше моего хотите знать, как будет устроена ваша жизнь, когда вы эмигрируете в Китай или, скажем, Колумбию.

Сразу оговорюсь, что мой анализ не претендует ни на полноту, ни на глубину охвата. Чем больше я вертел данные, тем больше чувствовал себя в роли зоолога, который изучает не столько общие признаки разных зверюшек, сколько их отличия. Там, где я не могу уверенно объяснить результаты, я буду отчаянно спекулировать. К статье следует относиться как к рассказу про интересные находки, и про то, как я к ним пришёл. И не следует относиться как к работе исчерпывающе описывающей, как устроен мир.

Все картинки в статье спрятаны в спойлерах — это поможет статье поместиться в ваш браузер. Чтобы читать статью было интереснее, вы можете пытаться спрогнозировать результат, прежде чем открывать картинку.

Что мы знаем о мировой науке


Для начала небольшой экскурс в то, что успели сделать до меня. Началось всё со статьи журналиста Джона Боханнона в Science, который попросил Александру Элбакян выдать ему логи сайхаба. Шёл 2016-й год и общественность не понимала, кто пользуется пиратским ресурсом. Вывод Боханнона для многих был неожиданным: сайхабом пользуются и в богатых, и в бедных странах. В качестве побочного эффекта статьи был опубликован датасет с полугодовыми логами скачиваний. Попутно автор сайхаба отладила движок для геопривязки скачиваний — и в начале 2018-го года Александра опубликовала аналогичный лог, но уже за весь 2017-й год (основная часть, потерянная добавка от Эльзивера). За это время аудитория сайта стала только активнее, и вместо 200 тысяч скачиваний в день сайхаб обслуживает уже более 500 тысяч скачиваний.

После выхода статьи Боханнона появилось ещё несколько публикаций. Вот, например, он же дал комментарий, сопроводив его картой, иллюстрирующей работу сайхаба за двое суток.
Бианка Крамер заметила, что многие используют sci-hub даже при наличии легального доступа к публикации, т.к. он даёт единообразный интерфейс, работающий в один клик. Она изучила географию скачиваний в Нидерландах, в попытках разобраться, почему пользуются сайхабом: оттого что у исследователей нет доступа к публикациям или потому что это удобнее. Но однозначного ответа на этот вопрос получить не удалось.

Бастиан Цоварас также пытался оценить долю пользователей в университетах. У обоих исследователей вышло, что с университетских адресов приходит порядка 9% загрузок. Помимо этого Цоварас построил корреляции числа скачиваний по странам с различными экономическими показателями этих стран. Это показало, что в богатых странах качают даже больше. Также он сделал некоторые замечания про сезонность скачиваний (но эти заметки как раз довольно сомнительного качества).

Исследование географии пользователей по IP адресам было подвергнуто критике. Авторы заметки утверждают, что города, где много качают хорошо коррелируют с местами расположения крупных провайдеров, так как IP может разрешаться не в координаты пользователя, а в координаты провайдера. При интерпретации результатов стоит учитывать, что геокодирование IP адресов неточно. У нас будет возможность ярко пронаблюдать этот эффект на паре кейсов, но в целом геопривязка кажется сделанной прилично.

Чего мы не знаем о мировой науке


И откуда мы не знаем то, чего не знаем


Вернёмся к нашим бандерлогам и разберемся, какая информация у нас в распоряжении. Нам доступен doi-идентификатор скачиваемой статьи (это такая специальная перманентная ссылка), серверное время, географические координаты, страна и город. IP-адрес и идентификатор пользователя в целях анонимизации пользователей переведены в ничего не значащие номера. Identity пользователя, вероятно, определяется по cookies, ведь логиниться на сайте нельзя. Это ведёт к некоторым очевидным ограничениям: сессия время от времени может сбрасываться, а пользователь на домашнем и рабочем компьютерах будут распознаваться как два разных пользователя.

timestamp doi ip user country city lat lng
2017–01–01 00:00:28 10.1016/j.ajodo.2004.08.024 46 48 Egypt N/A 30.0527614 31.3641695
2017–02–02 21:13:37 10.1109/4.818917 1855983 2715037 Singapore Singapore N/A N/A
2017–04–16 20:25:05 10.1016/j.jsg.2005.01.014 1752366 105597 Poland Warszawa 52.2296756 21.0122287


Время в логах указано серверное; по косвенным признакам можно сказать, что сервер живёт в московской временной зоне (UTC+3, без перевода часов на летнее время). Нам это не подходит, мы ведь хотим узнать рабочий график людей, а не сервера. Даже статистика по дням недели будет некорректна без такого преобразования, ведь пока у сервера суббота, у пользователей в других странах может быть ещё пятница или уже воскресенье.

Первое, что мы сделаем — это переведём часы. Большинство стран очень удачно решили, что им хватит одной временной зоны — с ними всё легко. Для большой части оставшихся загрузок мы знаем либо название города (город всё-таки живёт в одной конкретной временной зоне), либо координаты — их тоже легко соотнести с временной зоной. Приблизительно для 2% записей точно выявить временную зону не удалось — их мы отбросим. Нам хватит и оставшихся 190 миллионов записей.

Интересно, что такие неопознанные записи очень неравномерно распределены по году. Например, в середине года было очень много записей из неизвестного места в США, в начале и в конце года — в десятки раз меньше. Ошибка ли это геокодера или особенности работы какого-то бота/провайдера — неясно.

В процессе конвертации времени выяснилась пара неочевидных моментов. В нескольких странах (например, в Германии) формально есть две временные зоны, но на 2017-й год они совпадают. Ещё интересный факт: два года назад география сайхаба охватывала все континенты, кроме Антарктики, но за последний год это упущение было исправлено, что выразилось в появлении загадочной временной зоны None. Сайхабят оттуда в основном довольно печальные вещи, но бывают у тамошних обитателей и довольно неожиданные интересы, как вот эта статья про развитие винного туризма в Испании. Позднее этот пользователь ничего не искал, но надеюсь, у него всё хорошо.

Где живут инженеры


Главное правило дата-журналистики, как я его понимаю: «Видишь координаты — делай карту». Увы, как я писал, карту скачиваний уже сделали до меня. Но это было давно, так что, как говорится, можем повторить. К сожалению, нам потребуется сразу две карты-хороплета:

число скачиваний по странам
aaad955c5d7d800cd5d9c20ce87acb9f.png


и

десятичный логарифм числа скачиваний.
4cc2de3d579c06f99872757194d7939f.png


Иначе мы не увидим разницу либо в области малых значений (ЮАР с его 400 тысячами скачиваний будет неотличим от Намибии с 6 тысячами), либо в области высоких значений (не сможем отличить Китай от России).

Дополнительно приведу здесь карту

числа скачиваний на душу населения (в логарифмической шкале)
228ac9a97953e1c44aa35c6be684c3a3.png


Здесь мне пришлось выкинуть страны, с очень маленьким населением и очень низким числом скачиваний — чтобы они не перекашивали цветовую шкалу. В лидеры ожидаемо выбиваются Сингапур, Гонконг и довольно неожиданно Португалия, Тунис и Нидерланды.

Теперь изучим научную активность чуть более детально — по областям знаний. Префикс doi-идентификатора кодирует издателя, однако большая часть мировой научной периодики контролируется всего несколькими очень многопрофильными издателями: Elseiver, Springer-Nature, Wiley. Однако есть пара очень крупных издателей «узко специализированной» тематики: IEEE для инженеров-электронщиков и American Chemical Society плюс The Royal Society of Chemistry — для химиков. С химиками всё получается не очень интересно, а инженеры-электронщики распределены сильно неравномерно.

Угадаете, где они живут?
Абсолютным лидером по скачиваниям статей IEEE будет Индия. Хотя в целом у неё в два раза меньше закачек, чем в Китае, конкретно статей IEEE они выкачивают аж в три раза больше в абсолютном выражении, чем Китай! В среднем на журналы IEEE приходится 6.5% скачиваний от общего числа, но в Индии, Южной Корее, Бангладеше и Сингапуре эта доля достигает аж 15–20%. Больше только на Сейшеллах (но где те Сейшеллы) и странах, где сайхабом почти не пользуются (там пяток активных пользователей способны сместить статистику).

Может, китайцы уже выкачали всю IEEE, а индусы только в процессе? Или Индия запустила свою «лунную программу»? Надеюсь, что в комментарии придёт кто-нибудь и расскажет, чего мы не знаем об Индии и Китае, что могло бы объяснить такой странный перекос.

e94416c93eef8a4095f3bbc00dd02741.png


Откровенно говоря, исходно я рассчитывал проверить не IEEE, а Elsevier, в надежде на то, что увижу всплеск скачиваний в Германии, где 60 университетов отказались от подписки на журналы гиганта издательского бизнеса. Но карты демонстрируют совершенно иную картину: доля Эльзивера в среднем 30%, в Германии на пару процентов меньше. А лидеры — Марокко, Алжир, Боливия, Тунис и Перу — аж 50% статей

качают с Эльзивера.
73a4df7f409bcf48190691903869dc86.png


Позднее я прочитал, что Elsevier восстановил университетам доступ, несмотря на отсутствие соглашения. Чтобы проанализировать эффект, я посмотрел, на первые 40 дней года, когда длился бан, но картина практически не изменилась.

Ещё одним интересным открытием для меня была серьезная популярность (несколько процентов всех скачиваний) статей с префиксом 10.1111/, принадлежащим довольно экзотическому издателю: The Korean Society of Plant Taxonomists. Как думаете, почему?

Разгадка

Оказалось, что doi-префикс не совсем однозначно кодирует издателя. Хотя зона 10.1111/ раньше и принадлежала корейским ботаникам, сейчас она перешла под контроль Wiley.


«Восемьдесят три процента всех дней в году начинаются одинаково: звенит будильник».


Как я упоминал, попытка изучить временной профиль использования сайхаба уже предпринималась, но… сделано это было для галочки: рассматривались только две страны, с низким разрешением и некорректной аттрибуцией дня недели. А главное и наиболее возмутительное — это интерпретация в духе «видите, рабочие часы совпадают — значит графики похожи». Хотя графики Германии и Гонконга действительно похожи, у них есть и довольно серьезное отличие. А профили использования сайхаба на протяжении дня во многих других странах отличаются разительно!

Мы скоро будем строить свои, правильные графики, но прежде я расскажу вам, как они устроены и почему именно так. Если вы хотите побыстрее перейти к картиночкам, можете пропустить следующие два раздела.

Тактика наезда-отката


Чтобы изучить, как работают пользователи в разных странах, мы будем строить графики числа скачиваний за определенный временной промежуток. Данных достаточно много, но нам всё же придётся балансировать между детализацией и чёткостью картины — ведь для того чтобы что-то увидеть, статистика должна стабилизироваться. Изначально я строил график числа скачиваний в каждый час дня, просуммированный по всем дням года. Уже из таких графиков стало понятно, что история вырисовывается крайне интересная. Если увеличить разрешение до 10 минут становится видно больше деталей, а шум всё ещё на приемлемом уровне. Оставляем!

Параллельно я построил графики числа скачиваний по дням недели, но они получались не слишком внятные (и некрасивые: всего семь точек). Однако если скрестить эти графики и считать скачивания в полдень понедельника и в полдень воскресенья по отдельности, картина выглядит более чем занятно. Становится видно, как будни плавно перетекают в выходные, а выходные — в будни. Таким образом мы представляем как выглядит усредненный день года и усредненная неделя года.

Чтобы графики были сравнимы между разными городами и странами, они отнормированы на максимум.

Почему именно так
Нормировать на суммарное число скачиваний не очень удобно: тогда понижение доли скачиваний в одном месте приведёт к росту доли в другом. При такой нормировке в стране с ярко выраженным выходным будет возникать иллюзия, что в будни там работают гораздо более напряженно, чем в других странах.

Надо понимать, что мы не можем корректно сравнить абсолютный уровень работы двух стран между собой, и сравниваем лишь относительный уровень работы внутри одной страны в разное время суток. Нормировка на максимум отлично решает эту задачу.


Параллельно я пытался изучить, как устроен не день, а год. Например, строил график числа скачиваний в каждый из 365 дней года. Он получался уж совсем никакой. Во-первых, шумный, но это можно решить медианным сглаживанием с окном в неделю. А во-вторых, его было очень тяжело интерпретировать, и это исправить уже сложнее.

Ещё я ввёл такую характеристику как «центр масс дня» — это усреднение времени, когда произошло скачивание (альтернативный подход — медианный момент скачивания). Идея была в том, чтобы вычислить одну характеристику, по которой можно было бы узнать, насколько рано начинается и заканчивается рабочий день в разные времена года. Однако оказалось, что я не умею описать этот график в одно предложение — верный признак того, что его никто не поймёт. Сложность описания и интерпретации побудила меня искать другие способы визуализации.

Оказалось, что достаточно снова скрестить графики и построить тепловую карту. По одной оси будут сменяться недели года, а по другой отложено время относительно начала. Например, мы можем откладывать каждый час года как одну точку. Чтобы сделать картинку более чёткой можно ещё просуммировать все дни в пределах одной недели.

На такой карте тоже видны закономерности недельного графика, хотя читать их всё-таки проще по «одномерному» графику средней недели (а сравнивать — и подавно). Гораздо важнее, что на тепловой карте становятся видны артефакты — получается взглянуть на различия между днями и неделями года.

Нам придётся время от времени делать zoom in/zoom out, чтобы разглядывать общую картину издалека и проводить сравнение между странами, а частности объяснять, спустившись к максимально возможному уровню детализации.

Мы можем смотреть на тепловые карты с разными целями: когда мы смотрим на активность работы в различные периоды года, нам логичнее изучать абсолютные значения скачивания. А если мы смотрим на то, как с течением года меняется расписание дня, удобнее смотреть на значения нормированные. В частности, отлично работает нормирование числа скачиваний в клеточке тепловой карты на суммарное число скачиваний за неделю.

В то же время терять информацию об абсолютном числе скачиваний за неделю не хочется. Без этого мы, например, можем не понять, в какие недели были серьезные перебои в работе сервера. Кроме того, хотелось бы понимать, когда учёные напряженно работают, а когда массово уходят на каникулы.

Чтобы взять лучшее из двух подходов, я рисовал в основном нормированные тепловые карты, а по краям — гистограммы, агрегированные по времени суток (или времени недели) и по неделям.

С тепловыми картами меня ждала ещё одна сложность: детали не были видны либо в зоне слабой интенсивности, либо в зоне активной работы. Когда мы строили карты-хороплеты, пришлось строить сразу две карты: в обычной и логарифмической шкалах. Но тепловых карт и так будет много, удваивать их число показалось мне плохой идеей. К счастью, оказалось, что при помощи однородно-воспринимаемой цветовой палитры можно решить проблему. С географическими картами, впрочем, этот фокус не прокатил.
При перенормировании тепловой карты на недельное число скачиваний очень ярко проявляется проблема выбросов. Когда за неделю (как правило, из-за сбоя) было скачано очень мало статей, то доля, приходящаяся на конкретный интервал становится очень велика. Я отсекаю такие выбросы (только выбросы вверх) по учетверенной медиане — получается хорошо.

Верить нельзя никому. Мне — можно


Наконец, последняя пара замечаний, прежде чем перейти к картинкам — про то, насколько этим картинкам стоит верить. Когда мы суммируем события в совпадающих временных интервалах, нам требуется брать множество интервалов на протяжении года. Но число интервалов, относящихся к разным дням недели и даже разным временам суток будет не вполне сбалансированным.

Почему? И почему это можно игнорировать?
Дело в том, что в логах отсутствует приблизительно месяц наблюдений (хотя работа сервиса в это время продолжалась), разбитый на два-три крупных интервала: 21–29 апреля, 7–29 октября, плюс одиночные сбои и блокировки сайхаба в отдельных странах. На тепловых картах в такие дни вы увидите полосы с нулевым либо пониженным (если мы агрегируем скачивания по неделе, из которой выпало лишь несколько дней) уровнем скачиваний.

Давайте оценим периоды «доступности» сервера (имеется ввиду исключительно представленность периода в логах), чтобы оценить масштаб ошибки. Разобьем каждую неделю на 10-минутные интервалы вида «пятница, 13:40–13:50» и оценим на каждом таком интервале доступность сервера так: число таких интервалов в году, для которых в логах есть записи, деленное на общее число таких интервалов. Получается, что доступность сервера колеблется от 86% до 92%, т.е. разница около 6.5%. На конец пятницы-субботу (в UTC) выпало немного больше сбоев, чем на другие дни. Можете в уме на 5–10% процентов увеличивать число скачиваний в субботу и её окрестности, но общую картину это практически не изменит.

В этой цифре не учтены локальные блокировки. Я отдельно посчитал, что выходит в России (где sci-hub был заблокирован с 6 по 9 сентября) — ошибка увеличивается до 9.5%. Что ещё мы не учли? Вероятно, что праздничные дни неравномерно распределены по неделе и часто переносятся поближе к выходным. Теоретически это могло немного исказить картину средней пятницы.
Кроме того, стоит помнить, что сервер живёт по серверному времени, а по местному времени его сбои приходятся на разные интервалы недели. Из-за этого, например, пока в одном городе идёт первая неделя года, в другом городе продолжается последняя. Статистике первой и последней недель года я бы особо не доверял (тем более, что первая неделя года была неполной).


Непостоянную доступность игнорировать можно, с этим разобрались. А вот ботов игнорировать не получится. Я не взялся честно очистить данные от ботов, эта задача ещё ждёт своего исследователя. Просто учитывайте, что где-то в фоновом режиме они работают. Когда боты приходят, не заметить их невозможно.

Можно предположить, что самые активные боты никогда не спят и работают с более-менее постоянной интенсивностью, а реальные люди по ночам всё-таки нуждаются в отдыхе. Тогда мы можем просто вычесть фоновый уровень активности. Как вы увидите, это позволяет получить более-менее правдоподобные оценки активности.

Что в анализе не учтено? Во-первых, есть города, которые геокодер преобразует в разные названия.

Не очень существенно

Например, Saint Petersburg и Sankt-Peterburg. Или Токио (и частично Париж), которые распались на множество муниципалитетов. Со странами такое тоже бывает, но редко. Я нашёл лишь пару случаев, из которых важен один — Czechia и Czech Republic. Одно название преобладает, но разница не на порядки. Это, безусловно, несколько искажает картину (и могло вызвать проблему при построении хороплетов, которым приходится решать, какую из цифр визуализировать). Ошибку с названиями странами, конечно, легко было бы исправить, но я заметил её только после работы вычислительно-ёмких шагов, которые переделывать ради не очень существенных поправок не хотелось.


Во-вторых, и это важно, мы не можем отделить сезонность работы от эффектов роста аудитории сервиса. В частности, было бы наивно предполагать, что рост аудитории происходит с постоянной скоростью. Или что он одинаков в разных странах. Буду рад, если кто-нибудь в комментариях опишет, как эти эффекты лучше разделить, или даже возьмётся это посчитать.

«Трудовое законодательство нарушалось злостно и повсеместно»


Наше мудрое расписание


Ок, давайте наконец посмотрим, как же распределены рабочие часы в разных странах. Для начала мы, конечно, посмотрим на дефолт-сити, город-герой Москву с её 2.4 миллионами скачиваний. Мы будем смотреть рабочий график сразу на всю неделю.

Угадали, как он выглядит?
52a9ac601e3fe4052e7ec9278566cbb0.png
На графике видно, что учёные стараются жить по обычному расписанию: часов в 8–9 приходят на работу, часов в 17–18 уходят. Правда, многие продолжают работать часов до глубокой ночи. Часа в 2–3 ночи город засыпает и просыпается мафия. Если посмотреть на активность по дням недели, становится видно, что в субботу читатели научных журналов скорее отдыхают, а в воскресенье уже потихоньку возвращаются к работе.


Стоит отметить, что вся Россия живёт примерно так же. Разве что в Новосибирске и Казани (в отличие от Москвы и Питера) исследователи стараются по ночам спать, и большую часть рабочей активности концентрируют днём.

Скрытый текст
09c368a807971786b0068dd8a1b097a6.png


Вы должны были заметить, что Москва никогда не спит — и активность даже в субботнюю ночь всего лишь в 10 раз отличается от активности в самое загруженное время — около 14–15 часов вторника. Боты в Москве явно более активны, чем в Новосибирске. Давайте вычтем из обоих графиков фоновый уровень.

Скрытый текст
c2d7a1a09f8da1add7fe469ce4487cc1.png


Что мы видим? Во-первых, в Москве учёные, действительно, чаще предпочитают отложить работу на более позднее время и намного больше работают по выходным. Во-вторых, складывается впечатление, что в Москве есть не только круглосуточные боты, но и те, которые отдыхают по выходным (хоть и работают ночами). Впрочем, это могут быть и реальные люди.

Во многих странах ещё можно видеть небольшой горбик в вечернее время — около 21–22 часов. Это родители открывают сайхаб, чтобы почитать детям на ночь научно-фантастические сказки. Возможно и другое альтернативное объяснение: учёный приходит домой, открывает браузер, и у него по-новой загружаются закрытые ранее статьи.

Это я, кстати, почти серьезно говорю. В логах видно, как некоторые пользователи одновременно открывают пару статей, которые уже читали раньше. Это явно артефакт от перезагрузки браузера. Не факт, что исследователь решил прямо сейчас поработать (прочесть статью), но загрузка произошла.

Ещё одна гипотеза — что этот горбик появляется из-за дедлайнов. Ведь к полуночи (иногда — к полуночи по Гринвичу или Нью-Йорку) вам непременно надо завершить работу над списком литературы в ваших конференционных тезисах. Эту гипотезу, кстати, можно проверить, сравнивая время этого холмика в разных временных зонах.

Их безумное расписание


Мы выяснили, что вся Россия живёт примерно одинаково, а кто живёт не так? Это удивительно, но… все.

Давайте сравним Россию, например, с Францией. Видите, что поменялось?

Скрытый текст
a3a0f5159f3d9a055f3003ad60703370.png


Спать в Европе ложатся раньше, но и на работу выходят более организованно. Но самое интересное, что появился глубокий провал в середине дня. Можно предполжить, что французы более-менее синхронно ходят на обеденный перерыв в промежутке с 12 до 14 (на выходных эффект чуть слабее, но тоже заметен).

Если посмотреть на Париж, то там провал заметно менее выражен, чем по всей Франции в целом. Германия занимает промежуточное положение между Россией и Францией, «обеденный» провал там есть, но сильно менее глубокий, чем во Франции.

Наверное самый любимый для меня пример — это Китай. Во-первых, там очень много пользователей, поэтому статистика получается очень гладкой. Во-вторых, разные города почти совсем не отличаются, удивительная согласованность для довольно большой страны. Ну и, конечно, Китай совсем не похож на Россию. Я буду рисовать сразу много городов на одном графике, так что нам больше подойдёт масштаб одного дня, тем более что выходные отличаются от будних дней в Китае лишь количественно.

День жизни китайского города
23978657c5c84e10310af3628a15e860.png


В Китае перерывов два. В районе половины первого и половины седьмого. А рабочие пики в 11, 16 и 22. Перерывы очень широкие. Это можно было бы объяснить тем, что все идут обедать в разное время, но! Можно заметить, что начинается перерыв довольно резко — сравните, например со Францией. То есть начинается обед почти одновременно, а вот заканчивается он у всех за разное время.

Китай, Гонконг, Франция и Германия (с поправкой на фоновый уровень)
e94c495fb9b8bcbb713ca8bb2a5bc247.png


Если почитать про распорядок дня в Китае, можно узнать про традицию послеобеденного сна; похоже, что это не байка. Откуда берётся вечерний пик (которого, кстати, нет в Гонконге) наверняка кто-нибудь расскажет в комментариях.

По дням недели большинство городов Китая тоже очень похожи, но есть загадочный город Динси, в котором картина существенно отличается. Работа там смещена на вечер, а выходные не так заметны. Тот факт, что относительно небольшой и ничем не примечательный городок Динси попал на третье место в список самых активных городов Китая, скорее всего свидетельствует о том, что геокодер ошибается. Возможно, там располагается одна из точек фильтрации трафика. Или просто координаты определились некорректно.

Китай и Динси
325e79ac714b8f9984d6d480968a08f8.png


Думаю, вы неплохо справлялись с угадыванием того, как выглядят графики в Европе. А теперь… попробуйте угадать, как выглядит график скачиваний в Колумбии (или в Бразилии с Мексикой — там довольно похожая ситуация).

Я сам не справился
b3c30dc31feab27a7b85d6f7ab1420fe.png


Чтобы был сильнее виден контраст, я нарисовал рядом Колумбию и Россию. Ночь и начало рабочего дня выглядит «как положено», а к вечеру происходит что-то необычное.

То ли учёные предпочитают работать, когда станет прохладней. То ли на работе сайхаб у многих заблокирован/не требуется, и приходится обращаться к нему из дома. А может быть у них просто принято днём работать руками, а читать по вечерам. Но факт остаётся фактом, пик скачиваний приходится вовсе не на рабочие часы, а на поздний вечер.

Заметьте ещё, что так происходит не всегда, а только с понедельника по четверг. Вечер пятницы научные сотрудники, вероятно, предпочитают проводить не перед монитором, а в каком-нибудь баре.

Понедельник начинается в субботу


При взгляде на Колумбию складывается впечатление, что основные выходные там в пятницу и субботу, а воскресенье — нормальный рабочий день. В этот момент самое время сообразить, что в некоторых странах неделя начинается не с понедельника, и пойти читать википедию про устройство рабочей недели в разных странах. Про Колумбию википедия говорит, что рабочая неделя там такая же как у нас, т.е. продолжается с понедельника по пятницу или субботу… Но жизнь, видимо, устроена не совсем так, как принято официально. Предваряя вопросы хочу вас заверить, что, это не ошибка определения дня недели в западном полушарии: в близлежащих США и Кубе рабочая неделя определяется, как и должна, с понедельника по пятницу.

Давайте посмотрим на ещё один график со сдвинутой неделей — Израиль. Как известно, рабочая неделя у них с воскресенья по четверг, а вечером пятницы начинается шаббат. И тут никаких сюрпризов, всё так и происходит.

Скрытый текст
d7d4e69b3622e17c44a6f29221d47c16.png


Какими ещё бывают выходные? Заметно отличаются от других стран Индия и, особенно, Куба. В большинстве стран в воскресенье учёные начинают возвращаться к работе. В Индии и на Кубе наоборот: воскресенье — полноценный выходной с очень сильным провалом даже относительно субботы.

Судя по тому, как резко кончается рабочий день на Кубе, дело не столько в лени или в национальных традициях, а в том, что на Кубе просто нет возможностей работать из дома. В Индии картина выглядит иначе — смотрите сами. Я построил два графика отдельно:

Куба с Россией
18c4d7d3694d74836d1e0d6a95dabe43.png


Индия с Россией
995e60b0627c91f49fab6177e6dffd26.png


В стране обычно есть общие тренды, которые распространяются на все города. Но бывает и так, что город имеют свою специфику. Калькутте, например, несвойственна присущая Индии воскресная расслабленность.

Скрытый текст
5005fb6c8184a363a8cfbc67208b03c1.png


Что удивительно, во многих странах Африки и Ближнего Востока (Иран, Ирак, Алжир, Египет) нет существенной разницы между днями недели. В Иране понедельник таки начинается в субботу. В выходные для них четверг-пятницу работают, действительно, чуть меньше, но разница между самым загруженным и самым расслабленным днями недели составляет всего 10–20%.

Впрочем, отсюда не следует, что эти страны похожи между собой. Казалось бы, Иран и Ирак должны быть похожи: две рядом расположенные мусульманские страны, и даже названия похожи, но — нет. У одних пик работы утром, у других — вечером.

Скрытый текст
99f25515780c59f72fcae761ad915051.png


Мы ещё вернёмся к этой загадке, вооружившись тепловыми картами, но сейчас поговорим о другом.

Мор, глад, нашествие ботов и другие напасти


Вы, должно быть заметили, что я обошёл стороной США, хотя они — один из крупнейших пользователей сайхаба. Так вот, у этого есть веские причины. Дело в том, что большую часть трафика в США создают боты. Как я говорил, это невозможно перепутать.

США-Россия
c00b8464e20919860da0fa20dc3eb4d6.png


Трафик ночью отличается от трафика в самое нагруженное время лишь в два раза. Если мы предположим, что боты добывают статьи с постоянной скоростью, а ночью уровень скачиваний от реальных людей пренебрежимо мал, то мы можем грубо оценить, что чуть больше 70% трафика создаётся ботами. Для сравнения, в России этот показатель около 15% (для Москвы — 20%). На этом месте можно злорадно заметить, что после вычитания 70% скачиваний США со свистом вылетает из тройки лидеров пиратства, уступая своё место Ирану.

Построим недельный график без этого фонового уровня. На нём видно, что общие закономерности просматриваются. Ночью затишье. Резкий рост активности наблюдается с началом рабочего дня и вечером в районе 22 часов. В субботу работа затихает. Всё как положено.

Россия и США, поправленные на фон