Почему опасно опираться только на статистическую значимость

В Нетологии сделали краткий конспект статьи из журнала Nature о перспективах статистической значимости в исследованиях и собрали комментарии экспертов по этому поводу.

Обучение в онлайн-университете: курс «Data Scientist»

Обычное дело: на конференции докладчик может утверждать, что между двумя наблюдаемыми группами нет разницы, потому что различия в результате исследования статистически незначимые. Умаление роли различий приводит к массе последствий: от утраты части данных из исследований до дезинформации во время принятия политических решений.

Очень ярко опасность таких суждений можно увидеть на примере анализа побочных эффектов противовоспалительных препаратов. Результаты проведенных тестов не были статистически значимы. Поэтому один из ученых пришел к выводу, что прием препаратов не связан с возникновением у ряда пациентов мерцательной аритмии. Фактически, процент попадания в группу риска варьируется от 9% до 33% с учетом коэффициента риска -1,2 То есть, повышенный риск существует для пациентов с предрасположенностью к таким заболеваниям. Таким образом, «статистически незначимые результаты» показали существенную степень риска для пациентов. Но этот риск проигнорировали из-за «незначительности» результатов. Если оценивать необходимость ранжирования статических данных лишь на основании «значимости», можно серьезно ошибиться.

Проблема в том, что классификация результатов на «статистически значимые» и «статистически незначимые» заставляет людей думать, что их разделенные таким образом выборки различны. Ложно полагать, что прохождения порога статистической значимости достаточно, чтобы показать достоверность результата. Ведь запрос на статистическую значимость побуждает исследователей выбирать данные и методы, которые заведомо иллюстрируют достаточную значимость для желаемого результата. Или наоборот, не доходят до нормы прохождения в случае с нежелательными результатами. Распространение в массовой культуре такого мышления привело к тому, что ученые и редакторы журналов стали отдавать предпочтение «значимым» результатам, искажая факты.

Еще в 2016 году Американская статистическая организация заявила: недопустимо злоупотреблять показателями статистической значимости и референсных значений.

После публикации петиции 250 человек подписали ее в первые 24 часа. Спустя неделю количество заявление поддержали уже 800 человек — статистики, клинические и медицинские исследователи, биологи и психологи из более чем 50 стран и всех континентов. Специалисты согласились, что нужно прекратить применение P-критерия значимости, используя традиционный, дихотомический способ (деление на два взаимоисключающих понятия: a или не-a), а также проводя выделяя категории на основе коэффициента Байеса и других статистических показателей. Петиция предлагает исследователям избегать описаний практических последствий всех значений внутри контрольных интервалов экспериментов.

Значения за пределами интервала не существенно отличаются от значений внутри него. Точечная оценка оптимальна: проще воспринимать значения от точки к точке, чем сравнивать их в каждом отдельном интервале и в интервалах в совокупности. Порог статистической значимости в 0,05% основан на двух ложных идеях:

  • с вероятностью 95% сам вычисленный интервал содержит истинное значение в сочетании;
  • это и есть основа для окончательного решения.

Что бы ни показывали статистические данные, важно уметь аргументировать окончательные результаты и анализировать все данные в совокупности, а не сознательно выбранные для дискуссий. Научные выводы всегда выходят далеко за рамки чисто статистических. Исходные данные, дизайн исследования, качество данных и понимание основных механизмов работы зачастую важнее, чем статистические показатели Р-критерия или интервалы.

На примере социально-значимых последствий проблема заключается в следующем. Камень преткновения для несогласных с пенсионной реформой — необходимость принимать решение с двумя опциями, «да» или «нет». Статистическая значимость — недостаточное подкрепление для таких решений. В законодательной, политической и деловой сфере на их фоне выигрывают решения, основанные на расчете возможных рисков, выгоды и вероятности наступления всех потенциальных последствий.

Создатели петиции надеются, что люди будут тратить меньше времени на подсчет статистических показателей и рассуждать более глобально. Отказ от категоризации поможет остановить чрезмерную убежденность ученых в своей правоте, необоснованные утверждения об «отсутствии различий» и абсурдные заявления о «провале репликации», когда результаты оригинального и повторного исследований слишком схожи.

Злоупотребление статистической значимостью уже нанесло большой вред научному сообществу и тем, кто в своей работе полагается на научные рекомендации. Р-критерий, интервалы и другие статистические показатели безусловно важны, но настало время для разработки критерия реальной статистической значимости.

Вячеслав Мурашкин, Data Scientist Яндекс

Качественно провести тест при внедрении нового функционала в интернет-сервисах и приложениях — непростая задача. В этом я убедился во время работы с Рамблер Новости, Яндекс.Маркет, рекомендательным сервисом RetailRocket.

Даже если есть возможность собрать большой объем данных, к ним в комплекте идут подводные камни. Например, пользователи могут перетекать из одной группы в другую, могут влиять внешние факторы: выходные, длинные праздники или тест глобального изменения запущен на отдельном сегменте — «только пользователи пришедшие по рекламным объявлениям». Это лишь немногие причины, из-за которых можно сделать некорректные выводы, а результаты теста следует поставить под сомнения.

Тесты на цифровых сервисах проверять долго: нужно время для накопления достаточного объема выборки, большие вложения — зачастую необходимы доработки в инфраструктуре. Поэтому если изменение все равно нужно внедрить, в некоторых случаях целесообразно делать это без тестов, сравнивая результаты, например, с аналогичными периодами в предыдущем месяце или году.

Выбирая между статистической и практической значимостью, важно понимать, какой эффект в денежном эквиваленте можно получить для бизнеса. Даже несущественное увеличение конверсии в интернет-магазине может ощутимо повысить выручку.

Алексей Артемов, научный сотрудник Сколковского института науки и технологий

Если посмотреть на сложившийся подход к принятию решений в большинстве областей, от традиционно «числовых» экономики, торговли, маркетинга, до изначально качественных биомедицины, политики, социологии, то увидим, что решения в этих областях опираются на количественные показатели. Как статистику важна общность, воспроизводимость выводов (отсюда понятия «почти наверное», «за исключением множества нулевой меры» и подобные), так и фармацевту нужны мощные инструменты оценки влияния препаратов на непосредственно испытуемых и на всю популяцию.

Поэтому процессы принятия решений изучают и формализуют. Известны ограничения такой формализации, например, большинство законов статистики — асимптотические, то есть характеризуются периодичностью возникновения событий. Без этого не работает, например, закон больших чисел: при достаточном повторении эксперимента отклонения в результате становятся ничтожными. Схожие ограничения относятся и к использованию доверительных интервалов и p-value, за исключением того, что теперь речь идет об очень практическом правиле.

Доверительные интервалы любят использовать, слабо представляя изменения статистических критериев в различных условиях. Например, вероятность отвергнуть нулевую гипотезу «связи между событиями нет» зависит не только от того, насколько она отличается от истины, но и от размера выборки в эксперименте. Другим примером, на который обращают внимание в статье, служит учет размера P-критерия для принятия решения. Например, есть исследование, в котором за три года женщины делали упражнения не меньше часа в день и набрали «значимо меньше» веса, чем те, которые делали упражнения меньше 20 минут в день. Р-значение согласно исследованию — 0.001, разница в набранном весе составила 150 г. Практическая значимость такого эффекта сомнительна.

Есть и области, в которых использование доверительных интервалов все еще в зачаточном состоянии. Например, я занимаюсь в институте компьютерным зрением, и судить о воспроизводимости результатов порой здесь не приходится. К сожалению, повсеместное использование таких простых методов, как доверительные интервалы, в продвинутых областях науки еще предстоит увидеть.

Читать еще: «Как сквозная аналитика помогает бизнесу»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Полный текст статьи читайте на Нетология