[Из песочницы] Мой дашборд и анализ динамики распространения инфекции COVID-19

unaiokevkelfch6fhnkqpqz6gi4.png

Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.

Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ в своих отчетах.


Дашборд доступен по этом адресу. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.

Зачем


  • Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
  • Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса, на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
  • На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
  • Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
  • Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script

Данные


Изначально я использовал данные из отчетов ВОЗ, но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.

На что смотреть


vet4q0hpltagdz1cwg9hwsg1dhm.png

  • Информеры. Они отображают текущую ключевую динамику по миру;
  • Динамику общего количества случаев заражения в мире (TOTAL CASES);
  • Динамику новых случаев заражения по миру (DAILY NEW CASES);
  • Динамику распространения инфекции и летальных исходов по странам;
  • Визуально оценить ситуацию на карте мира;
  • Динамику летальности (CFR);
  • Длительность пикового периода эпидемии по странам;
  • Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
  • Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.

Летальность (CFR)


pdxhw-icnwlzgknzf59dwxdeicm.png

В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.

Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.

Люди путают смертность с летальностью. Согласно ВОЗ и CDC летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи (26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.

Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola (34% и 50%), но контагиозность, вирулентность, скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.

Пиковый период


Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.

Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Второго Квартиля. Далее формула считает количество дней, которые превышают значение Второго Квартиля — это и есть длительность пикового периода.

Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам. У этого метода есть одна особенность, длительность пикового периода может изначально быть больше, даже при условии если эпидемия в одной из стран началась позже другой. Например, если рассмотреть динамку США, то по таймлайну видно что в этой стране был резкий рост без постепенного нарастания. В следствие чего мы имеем малое количество дней с малым значением новых случаев заражений и большое количество дней с высоким значением. Поэтому на данный момент пиковый период в США составляет 21 день, а в Иране, где эпидемия началась раньше — 18. При этом длительность пикового периода в Иране может расти, а в США оставаться постоянной, пока эпидемия в США не пойдет на спад.

Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. В Китае он составлял — 36 дней, в Южной Корее — 27. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.

Сводная таблица по странам


Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.

zyir70krldvmcz5ab-5y3t5aqfg.png

Данные на карте мира


Визуализация на карте позволяет оценить текущие очаги распространения инфекции.

r4h1ijec8xrjnka-eujkw-aluwi.png

Что планирую добавить


  • Отдельные таблицы по количеству заражений с поправкой на численность населения;
  • Визуализацию динамики на картах мира с поправкой на численность населения;
  • Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.

Обратная связь


Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд еще информативнее.

© Habrahabr.ru