[Перевод] Почему так чертовски сложно построить хорошую модель распространения COVID-19?

b3cecbefb36d7401a99f7e569e5b2382.png

И вот мы здесь, во время пандемии, смотрим наружу из наших окон, как аквариумные рыбки. Все думают об одном: насколько плохо всё кончится? И сразу же вторая мысль: серьёзно, сколько мне ещё жить в такой тесноте?

Нам всем нужны ответы. Учитывая объём исследований и собираемых данных о новом коронавирусе, кажется, что ответы просто обязаны появиться.

И ответы действительно есть. Проблема в том, что в них царит раздрай. К примеру, центры по контролю и профилактике заболеваний США используют модели, судя по предсказаниям которых в лучшем случае от вируса погибнет 200 000 американцев. Тем временем отчёт Имперского колледжа Лондона попал в заголовки газет со своим ужасным сценарием, по которому погибнет 2,2 млн американцев, если никто не будет менять своего повседневного поведения.
Это, мягко говоря, охренительно большой разброс — примерно как между количеством людей, погибающих от травм и насилия ежегодно и количеством людей, погибших при подавлении китайскими коммунистами восстания контрреволюционеров с 1950 по 1953 года [тут автор, по-видимому, попутал корейскую войну с китайской гражданской войной / прим. перев.]. Иначе говоря, разница между повседневной жизнью и событиями, которые изменят её навсегда.

Так откуда такой широкий разрыв? Такова, дорогие мои, природа моделирования этой зверюги. Использование математической модели для предсказания будущего — полезный инструмент для экспертов, даже когда между возможными результатами пролегает пропасть. Однако не всегда легко понять результаты и то, как они меняются со временем, и эта путаница может повредить и вашему разуму, и вашим чувствам. Поэтому нам нужно поговорить о том, что входит в модель пандемии. Возможно, понимание неопределённости поможет вам разобраться во всех этих цифрах.

Представьте простую математическую модель, предсказывающую результат распространения коронавируса. Её довольно просто сконструировать — такого рода вещи наши сотрудники делают во время телеконференций. Количество людей, которые погибнут от вируса, является функцией от количества потенциально способных заразиться людей, скорости его распространения и процента людей, которых вирус может убить.

eryxsu20snlgo4vlk3m7tzx1qxi.png

То есть, другими (математическими) словами:

N(смерти) = N(подверженные заражению) * скорость_заражения * процент_смертности

Довольно просто. До тех пор, пока вы не попытаетесь заполнить недостающие данные. Тогда оказывается, что ни на одно место нельзя поставить конкретную цифру. Каждое значение зависит от разных выборов и недостатков в знаниях. А если каждый элемент модели колеблется, то у всей модели будут такие же проблемы с тем, чтобы устойчиво стоять на ногах, как у журналиста, пишущего о данных после слишком долгой телеконференции во время самоизоляции.

Рассмотрим такую базовую вещь, как ввод данных. Различные страны и регионы собирают данные разными способами. Не существует единой электронной таблицы, которую заполняли бы все сразу, и которая позволила бы нам легко сравнивать количество заболеваний и смертей в мире. Даже в США доктора утверждают, что количество смертей от COVID-19 занижается.

Те же несоответствия относятся к тестам на вирус. В некоторых странах тестируют всех, кто хочет. В других — нет. Это влияет на наши знания о том, сколько реально людей заразилось COVID-19, и у скольких его обнаружили.

Кроме того, сам вирус действует непредсказуемо, вредя одним группам сильнее, чем другим — местная демография и здравоохранение очень сильно определят итоги влияния вируса на сообщества.

«Мы — люди, связанные со здравоохранением — иногда работаем в условиях недостатка информации, пытаясь сделать наилучшие оценки на основе очень неполной информации», — сказал Билл Миллер, профессор эпидемиологии в университете штата Огайо.

Коэффициент смертности


st60ug7kxzhawthfr22jemlha1w.png

Некоторые люди умирают от COVID-19. И это, наверное, будет последним нашим безусловным заявлением. Однако «некоторые» — это не число, и математику на нём не построишь.

Проблема в том, что подсчёт процента смертности от вируса с самого начала оказывается делом неточным. У разных коллективов он может сильно отличаться. «Возраст — очень важный фактор, поэтому приходится пересчитывать летальные случаи с учётом демографического состава США и наличия хронических заболеваний», — сказал Рэй Уанье, биостатистик из Калифорнийского университета в Сан-Франциско. Хронические заболевания способны обострять действие COVID-19.

Иначе говоря, единого коэффициента смертности нет — их много. Коэффициент смертности в США будет отличаться от коэффициента смертности в стране, где, допустим, меньше больных диабетом. То же можно сказать о коэффициентах в США — если вирус распространится в городе с пригородами, где живёт пожилое население, то подсчитанный там коэффициент смертности будет выше, чем если бы центр распространения оказался в городе с молодым населением.

Но обратимся к международной статистике. Позволит ли коэффициент смертности от COVID-19 в Китае или Италии нам оценить коэффициент смертности в США? Определённо, эта информация окажется полезной –, но она лишь уменьшит неопределённость, а не даст полной определённости.

Нам, конечно, всё равно неизвестны точные коэффициенты смертности в тех регионах. По многим причинам — начиная с набора базовых данных о случаях заболевания. Числа — это не факты. Это результат множества субъективных выводов, которые сначала нужно подробно и прозрачно записать, а потом уже начинать рассматривать как факт. Влияет то, как собираются данные, и не меняется ли процесс их сбора от раза к разу.

А ещё есть проблема несобранных или неточных данных. Для определения коэффициента смертности нужно поделить количество умерших от заболевания людей на количество заболевших. Но у нас нет точных цифр по заболевшим людям — говоря математически, нам неизвестен знаменатель. А честно говоря, нам и первое число, числитель, тоже точно неизвестно — однако мы предполагаем, что оно близко к реальности.

7619c515e4a8d3fa7eff86556c81e59a.jpg
Тысячи пассажиров «Бриллиантовой принцессы» прошли тест на COVID-19. Полученные данные могут нам что-то рассказать об инфекции и коэффициенте смертности, однако параллель будет неидеальной, поскольку большинство людей не живёт на круизных судах.

В идеальном мире мы проверили бы всех людей на признаки заражения новым коронавирусом, чтобы точно знать, у скольких людей он есть и сколько умерло из-за него. Однако к такой ситуации мы подошли всего в паре случаев. Возьмём, например, «Бриллиантовую принцессу», одно из круизных судов, вставших на карантин после вспышки COVID-19. Тесты прошли почти все пассажиры (3063 теста на 3711 человек). «Бриллиантовая принцесса» стала живой лабораторией, с условиями сбора данных, которые в реальном мире обычно не складываются. Исследователи смогли не только узнать, сколько людей заболело, но и у скольких не было никаких симптомов — и, следовательно, сколько людей не прошло бы тестирование, не получило бы диагноз и не было бы учтено, находись они на суше.

Результаты этого необычного эксперимента говорят о существовании большого количества людей, переносящих вирус и не знающих об этом — и, следовательно, о том, что коэффициент смертности на самом деле ниже, чем следует из данных. Среди популяции «Бриллиантовой принцессы» коэффициент смертности для людей с диагнозом и симптомами был 2,3%, однако если учитывать все поставленные диагнозы — даже у тех людей, у кого не было симптомов — тогда коэффициент будет 1,2%. В Исландии компания deCODE Genetics 13 марта начала предлагать бесплатное тестирование для всех, даже людей без симптомов. На 29 марта deCODE обнаружила 71 инфицированного человека на 8694 теста, включая и тех, у кого симптомов не было.

Тем временем коэффициент симптомности — количество людей с симптомами относительно количества людей без них — также имеет большое значение, но при этом на его счёт нам остаётся лишь догадываться. В отчёте Имперского колледжа Лондона предполагается, что две трети случаев оказываются достаточно симптоматичными для того, чтобы заражённый человек почувствовал их и самоизолировался. В данных с «Бриллиантовой принцессы» обнаружено, что на момент диагностики симптомы проявлялись у половины людей. То, какой на самом деле коэффициент симптомности, влияет на подсчёты коэффициента смертности.

Однако данные с «Бриллиантовой принцессы» тоже неидеальны — они проверяли не всех, демографический срез пассажиров круизного лайнера не является репрезентативным для более широкой популяции, а некоторые из заболевших ещё могут скончаться, что увеличит коэффициент смертности. Однако на суше более реалистичных данных не найти. Данные из Исландии не публикуются с теми же методологическими подробностями. В США широкомасштабное тестирование пока лишь начинается. Если тестировать только заболевших, как делается в большинстве штатов, то коэффициент смертности не будет отражать реальное поведение вируса — проблема знаменателя снова поднимает голову. Кроме того, тестирование в США сталкивается с дополнительными проблемами — нехватка тестов и то, что некоторые частные лаборатории не публикуют количество отрицательных результатов.

На истинный коэффициент смертности также влияет наша способность не дать больному человеку умереть. А это зависит от возможностей больниц. С неограниченным доступом к койкам в реанимации и аппаратам ИВЛ многие люди с серьёзными симптомами смогли бы пережить инфекцию. Но в США ресурсов не хватает, и если спрос превысит предложение — как уже происходит в некоторых частях страны — то люди, которые выжили бы при доступе к аппарату ИВЛ, умрут. Это может привести к эффекту домино. Люди, которым требуется неотложная помощь, не связанная с вирусом, тоже пострадают от нехватки ресурсов в больницах, и их смерти, даже не связанные с COVID-19, добавятся к общей смертноститатистике, хотя их можно было бы предотвратить, и хотя их не стоит включать в статистику по COVID-19.

«На смертность сильно повлияет то, столкнёмся ли мы с нехваткой запасов и персонала, и пока непонятно, насколько гибкой окажется наша система здравоохранения», — сказал Уанье.

А есть ещё и коэффициент заражения


x6j-6wrhdbsrllrighdsww-vysa.png

Практически всё, что мы говорили о коэффициенте смертности, применимо и к коэффициенту заражения: все оценки зависят от сбора данных, выборки и коэффициента симптоматичности. Но чтобы узнать коэффициент заражения, нужно ещё понять, насколько часто вирус передаётся от одного человека к другому. Возможно, вы слышали такой термин, как базовое репродуктивное число (сокращенно — R0) — это среднее число вторичных инфицирований, которые происходят после того, как один инфицированный индивид оказывается в популяции, состоящей из индивидов, полностью чувствительных к данному заболеванию.

Вот в чём штука: передача вируса наверняка будет чрезвычайно сильно колебаться, и зависеть от разных особенностей социального поведения, деталей местного окружения и политических решений. В разных странах всё это будет отличаться. И даже в разных штатах США. Также эти параметры будут меняться во времени в зависимости от принимаемых нами мер по борьбе с вирусом. У малярии, к примеру, R0 больше в тех местах, где много стоячей воды.

Из-за этого моделирование потенциальных результатов распространения COVID-19 должно включать в себя множество различных сценариев передачи вируса. И они не будут точными; это будет некий диапазон оценок. В этих сценариях учитываются несколько оценок, каждая из которых в свою очередь также может меняться (серьёзно, это просто бесконечная регрессия).

Первая переменная, это коэффициент контакта — по сути, со сколькими людьми взаимодействует заражённый за определённый промежуток времени. Только этот параметр подвластен людям, и именно поэтому все сидят взаперти и говорят о социальной дистанции. Средний коэффициент контакта неоднороден — он меняется от человека к человеку, в зависимости от таких факторов, как ситуация с местом обитания и работой, а также меняется в зависимости от того, как реагирует система здравоохранения и где всё происходит. «Представьте себе разницу между гористой местностью сельского штата и деловым районом большого города», — сказал Миллер.

Затем идёт коэффициент передачи. Это способ представить количество людей, которые заразятся сами, встретившись с заражённым человеком. Это тоже подвижная мишень. Вирусы не распространяются по равномерной схеме типа «по два новых случая на человека». Процесс идёт неровными скачками, словно толпа жителей пригорода, накинувшихся на полки с туалетной бумагой. Сэм Скарпино, профессор Северо-восточного университета, моделирующий инфекционные заболевания, называет это «событиями суперраспространения» — ситуациями, когда какой-то фактор, который обычно больше зависит от места действия, чем от людей, внезапно скачкообразно увеличивает количество случаев. Вспомним конференцию Biogen, которая в какой-то момент оказалась ответственной за 77 случаев заболевания из 95, диагностированных в Массачусетсе. Или о женщине, которой в одиночку удалось сломать эффективную стратегию сдерживания в Южной Корее.

Помните коэффициент симптомности? Некоторые предполагают, что переносчики с симптомами заражают меньше людей, чем те, у кого симптомов не наблюдается, поэтому этот коэффициент тоже влияет на коэффициент передачи.

Также вирусология имеет значение при пересчёте количества передач на контакты. Здесь нужно учитывать, как долго вирус способен выжить на поверхности (и на каких поверхностях он оказывается), и как далеко он может перелететь по воздуху. С новым COVID-19 существуют разные оценки для обоих факторов. Есть ещё разница между телами и поведением людей. К примеру, курильщики могут быть сильнее подвержены риску инфекции и осложнений. И хотя во многом это связано с влиянием курения на лёгкие и с тем, чем вирус занимается внутри тела, на это также влияет и то, что курильщики чаще подносят руки ко рту, увеличивая риск передачи.

Наконец, есть ещё длительность заразности — как долго человек может распространять вирус, и в какой период развития болезни он заразен? Это зависит от биологии вируса и индивидуальных иммунных систем, сказал Марк Вейр, директор программы экологии, эпидемиологии и здравоохранения Университета штата Огайо.

Все эти параметры используются для оценки R0, базового репродуктивного числа.

И если базовое репродуктивное число предполагает уязвимость всей популяции, то есть ещё эффективное репродуктивное число, зависящее от того, какой процент популяции уязвим к вирусу. Одна из причин высокой уязвимости популяции к новому коронавирусу состоит в том, что этот вирус именно что новый. Его ни у кого раньше не было.

Также хорошей модели нужно задуматься о таком вопросе, как повторное заражение: если люди, получившие вирус и выздоровевшие от него, приобрели к нему иммунитет, то процент уязвимой популяции уменьшается. Но пока что нам не так много известно об иммунитете после инфицирования.

И это мы ещё даже не упомянули об изменении уязвимости при открытии вакцины. Но у нас и так уже достаточно подробностей.

Смешаем всё это в модель


Чтобы создать модель, вам нужно собрать все эти переменные (и другие, о которых нам не разрешил распространяться редактор), учесть их неопределённость, совместную корреляцию, и множество всего другого. Может получиться довольно сложная штука.

И на все эти факторы могут влиять все попытки вмешаться в распространение вируса — социальное дистанцирование, мытьё рук, закрытие школ, уменьшение количества несрочных хирургических операций, и т.п. Это большая неизвестная, способная радикально поменять форму вспышки — и она тоже меняется в зависимости от страны, штата и даже города.

yymx6yqp5ckxrxshbxoe8-cd1c0.png

Это как печь пирог. С нормальным рецептом его можно сделать достаточно просто и ожидать осмысленного и предсказуемого результата. Но если в рецепте встретятся инструкции вроде «добавьте от трёх до 15 яблок, или стейков, или кусков брюссельской капусты, в зависимости от того, что у вас есть под рукой»… это определённо повлияет на вкус пирога, не так ли? Можно делать предположения по поводу правильности ингредиентов и их количества. Но это лишь предположения, а не точные факты. И если сделать слишком много предположений при готовке, можно получить совсем не то, что вы хотели сделать. И вы не обязательно узнаете о том, что ошиблись.

В следующие месяцы вы встретите множество различных предсказаний, касающихся результатов пандемии COVID-19. Не все они будут одинаковыми. Но только то, что они основываются на предположениях, не означает, что они бесполезны.

«Все модели неверны, мы просто стремимся сделать их менее неверными и полезными сегодня», — сказал Вейр.

Мы хотим есть, поэтому кому-то придётся заняться готовкой. Обязательно спросите, из каких ингредиентов и из какого количества делали этот пирог.

© Habrahabr.ru