Анализ данных по коронавирусу SARS-CoV-2 (2019-nCov)

В последнее время вижу много выпусков новостей о новом вирусе, но так ли всё плохо, прошёл ли пик эпидемии или всё ещё впереди. По большей части из новостных выпусков сложно сделать хоть какие-то выводы. В итоге решил разобраться сам, и вот, что из этого получилось.

image

Для того, чтобы разобраться в ситуации мне необходимо было раздобыть данных для анализа, найти их удалось на сайте Всемирной Организации Здравоохранения (ВОЗ). Данные публикуются в виде pdf отчётов за каждый день начиная с 21 января 2020 года. Универсальный парсер написать не удалось, так как все отчёты разные, пришлось копировать данные из них вручную. В первую очередь меня интересовало количество инфицированных и умерших человек, получив это я рассчитал число инфицированных и умерших за день:

ljes6htyqsd4kc8m0xfdrueedym.png

Отобразим на графике количество умерших за каждый день:

8gag1dlipds6joraeanmptljtt0.png

На графике видны аномальные данные за 13 и 14 февраля, уточнив это в отчётах за указанные периоды я заметил опечатки, так за 14 и 15 февраля указано, что количество умерших в эти дни равно по 121 человеку, что не соответствует тому, что было рассчитано ранее. В силу этого (хотя 13 февраля и совпадает с тем, что напечатано в отчёте), я за 13 и 14 февраля взял их среднее значение:

qpclx5fj4gl6xwnxipu_kw9ko4u.png

Далее отобразим на графике количество инфицированных человек за каждый день:

qlzf5u_5lvgrm7ao9rz3fvu-dsg.png

На этот раз аномальное значение получилось 17 февраля, проверив данные по отчётам за это число, я узнал, что до 17 февраля инфицированные люди и люди с симптомами вируса (т.е. случаи не подтверждённые лабораторно) велись отдельно, а после этой даты их объединили, из-за этого на графике такой скачок. Чтобы это исправить я за 17 февраля взял среднее между 16 и 18 февраля:

ywigtetalj66_j4hw-cllqkx8qu.png

Теперь графики больше похожи на правду, для наглядности я наложил графики друг на друга:

gb6hymwszszfpcr1gvsafqdenak.png

Из этих графиков можно сделать вывод, что пик и по количеству инфицированных и по количеству умерших прошёл, и хотя общее количество зараженных велико, всё же прослеживается позитивный прогноз. Приведенные графики были получены по данным из Китая, остальной мир я не стал брать, т.к. для статистики там мало данных. Выводы, которые я получил являются лишь мнением автора и ни на что не претендуют.

Исходный код.

© Habrahabr.ru