Анализ данных по коронавирусу SARS-CoV-2 (2019-nCov)
В последнее время вижу много выпусков новостей о новом вирусе, но так ли всё плохо, прошёл ли пик эпидемии или всё ещё впереди. По большей части из новостных выпусков сложно сделать хоть какие-то выводы. В итоге решил разобраться сам, и вот, что из этого получилось.
Для того, чтобы разобраться в ситуации мне необходимо было раздобыть данных для анализа, найти их удалось на сайте Всемирной Организации Здравоохранения (ВОЗ). Данные публикуются в виде pdf отчётов за каждый день начиная с 21 января 2020 года. Универсальный парсер написать не удалось, так как все отчёты разные, пришлось копировать данные из них вручную. В первую очередь меня интересовало количество инфицированных и умерших человек, получив это я рассчитал число инфицированных и умерших за день:
Отобразим на графике количество умерших за каждый день:
На графике видны аномальные данные за 13 и 14 февраля, уточнив это в отчётах за указанные периоды я заметил опечатки, так за 14 и 15 февраля указано, что количество умерших в эти дни равно по 121 человеку, что не соответствует тому, что было рассчитано ранее. В силу этого (хотя 13 февраля и совпадает с тем, что напечатано в отчёте), я за 13 и 14 февраля взял их среднее значение:
Далее отобразим на графике количество инфицированных человек за каждый день:
На этот раз аномальное значение получилось 17 февраля, проверив данные по отчётам за это число, я узнал, что до 17 февраля инфицированные люди и люди с симптомами вируса (т.е. случаи не подтверждённые лабораторно) велись отдельно, а после этой даты их объединили, из-за этого на графике такой скачок. Чтобы это исправить я за 17 февраля взял среднее между 16 и 18 февраля:
Теперь графики больше похожи на правду, для наглядности я наложил графики друг на друга:
Из этих графиков можно сделать вывод, что пик и по количеству инфицированных и по количеству умерших прошёл, и хотя общее количество зараженных велико, всё же прослеживается позитивный прогноз. Приведенные графики были получены по данным из Китая, остальной мир я не стал брать, т.к. для статистики там мало данных. Выводы, которые я получил являются лишь мнением автора и ни на что не претендуют.
Исходный код.