[Перевод] Правдоподобия, P-значения и кризис воспроизводимости19.11.2018 14:32

Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры

Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор: … и, наконец, ничего не понимающий Студент справа от меня.
Модератор: Байесовец, не могли бы вы для начала рассказать, в чём суть вашего предложения?
Байесовец: Грубо говоря, суть вот в чём. Предположим, у нас есть монета. Мы подбрасываем её шесть раз и наблюдаем серию «ОООООР» (прим. пер.: здесь и далее О — Орёл, Р — Решка). Стоит ли нам подозревать, что с монетой что-то не то?
Учёный: Нет.
Байесовец: Монета тут просто для примера. Предположим, мы предлагаем выборке добровольцев тарелку с двумя печеньками: одна с зелёной посыпкой и одна с красной. Первые пять человек берут зелёные печеньки, а шестой берёт красную. Верно ли, что люди предпочитают печеньки с зелёной посыпкой, или же такой результат лучше считать случайным?
Студент: Наверное, можно заподозрить, что, может быть, людям больше по душе зелёная посыпка. По крайней мере, студентам-психологам, которые склонны идти добровольцами в странные эксперименты, зелёная посыпка нравится больше. Даже после шести наблюдений можно так заподозрить, хотя я подозреваю, что тут есть какой-то подвох.
Учёный: Я думаю, это ещё не подозрительно. Много какие гипотезы выглядят многообещающе при N=6, но не подтверждаются при N=60.
Байесовец: Лично я бы заподозрил, что наши добровольцы не предпочитают красную посыпку, или хотя бы предпочитают её не очень сильно. Но вообще я придумал эти примеры только чтобы показать, как в современной научной статистике считаются P-значения, и что с ними с байесовской точки зрения не так.
Учёный: А нельзя придумать более реалистичный пример с 30 добровольцами?
Байесовец: Можно, но Студент и так ничего не понимает.
Студент: Это точно.
Байесовец: Итак, уважаемые знатоки: Орёл, орёл, орёл, орёл, орёл, решка. Внимание, вопрос: вы назовёте этот результат «статистически значимым» или нет?
Учёный: Господин ведущий, это не значимо. При нулевой гипотезе, что монетка честная (или при аналогичной нулевой гипотезе, что цвет посыпки не влияет на выбор печенек) такой же или более выраженный результат можно получить в 14 из 64 случаев.
Студент: Ага. Я правильно понимаю: Это потому что мы считаем исходы ОООООО и РРОРРР «такими же или более выраженными», их в общей сложности 14, а всего возможных исходов при 6 бросках 26=64. 14/64 — это 22%, что выше 5%, поэтому результат не считается значимым на уровне p
Учёный: Верно. Я бы ещё заметил, что на практике даже при исходе ОООООО не стоит останавливать эксперимент и писать статью про то, что монетка всегда выпадает орлом.
Байесовец: Дело в том, что если можно перестать бросать монетку в любой момент, то придётся спросить себя: «Насколько вероятно, что я найду такой момент для остановки эксперимента, в который количество орлов будет выглядеть публикабельно?» А это в парадигме P-значений уже совсем другая история.
Учёный: Я имел в виду только то, что всего шесть опытов — это несерьёзно, даже если мы изучаем цвет печенек. Но да, Вы тоже правы.
Студент: А почему вообще важно, могу я перестать бросать монетку или не могу?
Байесовец: Какой чудесный вопрос.
Учёный: Дело в том, что P-значения — штука сложная. Нельзя просто взять числа, закинуть их в программу и публиковать то, что эта программа выдаст. Если Вы заранее решили подбросить монетку ровно шесть раз, а потом остановиться независимо от результата, то результат ОООООО или РРРРРР будет получаться в среднем 2 раза из 64, или в 3,1% случаев. Это значимо на уровне pбыл бы статистически значимым, если бы Вы заранее решили подкинуть монетку ровно столько же раз. Но на самом деле Вы этого заранее не решали. Вы решили остановиться только после того, как получили результаты. Так делать нельзя.
Студент: Окей, я про это где-то читал, но так и не понял, что тут плохого. Это же моё исследование, и мне должно быть виднее, достаточно данных или нет.
Учёный: Весь смысл P-значений в том, чтобы создать тест, который нулевая гипотеза не сможет пройти. Убедиться, иначе говоря, в том, что дым без огня бывает не слишком часто. Для этого нужно так организовать исследования, чтобы не генерировать «статистически значимые» открытия в отсутствие искомого феномена. Если подбросить монетку ровно шесть раз (и определиться с этим числом заранее), то вероятность получить от честной монетки шесть орлов или шесть решек меньше 5%. Если же бросать монетку сколько угодно раз, а после каждого броска пересчитывать P-значение (делая вид, что количество бросков было известно заранее), то шанс рано или поздно получить меньше pгораздо больше 5%. Поэтому такой эксперимент обнаруживает дым без огня гораздо чаще, чем в 1 из 20 случаев.
Байесовец: Лично я люблю формулировать эту проблему примерно так: допустим, Вы бросаете монетку и получаете ОООООР. Если при этом Вы в ведомых только Аллаху (ибо Аллах — мудрый, знающий) глубинах своего сердца определились с числом бросков заранее, то результат не значим; p=0,22. Если же Вы после трёхмесячного поста принесли Святому Франциску обет бросать монетку до тех пор, пока не выпадет решка, то этот же результат статистически значим с вполне неплохим p=0,03. Потому что шанс того, что при вероятностях 1:1 решки придётся ждать шесть и более бросков, 1/32.
Студент: Что?
Учёный: Это скорее пародия, конечно. На практике никто не станет бросать монетку до тех пор, пока не выпадет единственная решка, а затем останавливаться. Но вообще-то Байесовец прав, P-значения именно так и работают. Строго говоря, мы пытаемся узнать, насколько редок полученный результат среди тех, которые мы могли бы получить. Человек, бросающий монетку до первой решки, может получить результаты {Р, ОР, ООР, ОООР, ООООР, ОООООР…} и так далее. Класс результатов, в котором совершается шесть и более бросков — это {ОООООР, ООООООР, ОООООООР…}, суммарная вероятность которых 1/64 + 1/128+ 1/256… = 1/32. А человек, бросающий монетку ровно шесть раз, получает один из результатов класса {РРРРРР, ОООООР, ООООРО, ОООООРР…}, в котором 64 элемента. Для целей нашего эксперимента ОООООР эквивалентно ООООРО, ОООРОО и прочим таким же. Так что да, всё это довольно контр-интуитивно. Если бы мы действительно проводили первый эксперимент — ОООООР было бы значимым результатом, который маловероятен с честной монетой. А если бы мы проводили второй эксперимент — ОООООР значимым бы не было, потому что даже с честной монеткой время от времени случается нечто подобное.
Байесовец: Вас случайно не беспокоит то, что результаты эксперимента зависят от того, что вы думаете?
Учёный: Это вопрос совести. Какие угодно исследования мало чего будут стоить, если врать об их результатах, то есть буквально говорить неправду о том, какой стороной выпала монета. Если врать о том, какой именно эксперимент проводился — эффект будет тот же. Так что надо просто взять и честно сказать, по каким именно правилам совершались броски. Конечно, содержимое головы учёного менее очевидно, чем то, какой стороной лежит монетка. Поэтому всегда есть возможность подкрутить параметры анализа, не писать, как определялось число субъектов, выбрать тот статистический тест, который подтверждает вашу любимую гипотезу… Много чего можно придумать при желании. И это будет проще, чем фальсифицировать исходные данные. По-английски это называется p-hacking. И на практике, разумеется, используются гораздо менее очевидные способы создавать дым без огня, чем придуманная постфактум дурацкая нулевая гипотеза. Это серьёзная проблема, и в какой-то степени кризис воспроизводимости с ней связан, хотя и непонятно, в какой именно.
Студент: Это… звучит разумно? Наверно, это одна из тех штук, с которыми надо долго разбираться и перебрать кучу примеров, и тогда всё станет ясно?
Байесовец: Нет.
Студент: В смысле?
Байесовец: В смысле «Студент, Вы были правы с самого начала». Если то, что экспериментатор думает, никак не влияет на то, какой стороной падает монета, то его мысли не должны влиять и на то, что результаты броска сообщают нам о мироздании. Мой дорогой Студент, преподаваемая Вам статистика — не более чем переусложнённая куча кривых костылей, которую даже не озаботились сделать внутренне непротиворечивой. Ради всего святого, она выдаёт разные неправильные результаты в зависимости от того, что творится в Вашей голове! И это гораздо более серьёзная проблема, чем склонность некоторых учёных слегка приврать в «Материалах и методах».
Учёный: Это… серьёзное заявление, мягко говоря. Но скажите, прошу Вас: что же нам, несчастным, делать?
Байесовец: Анализировать следующим образом: данный конкретный результат ОООООР может быть получен при шести бросках идеально сбалансированной монеты с вероятностью 1/64, или примерно 1,6%. Предположим, мы уже подозревали, что наша монетка сбалансирована неидеально. И не просто неидеально, а таким образом, чтобы она выпадала орлом в среднем пять из шести раз. Это, конечно, дикое упрощение, но к реалистичным гипотезам я перейду чуть попозже. Так вот, эта гипотетическая шулерская монетка выдаёт последовательность ОООООР с вероятностью (5/6)5*(1/6)1. Это примерно 6,7%. Так что у нас есть две гипотезы: «Монетка самая обычная» и «Монетка выпадает орлом в 5/6 случаев». Данный конкретный результат во втором случае в 4,3 раза более вероятен, чем в первом. Вероятность последовательности ОООООР для другой гипотетической шулерской монетки, которая в 5 случаях из шести выпадает решкой, составляет 0,01%. Так что если кто-нибудь вдруг думал, что перед нами эта вторая монетка — то у нас теперь есть неплохой аргумент против его гипотезы. Данный конкретный результат в 146 раз вероятнее для честной монетки, чем для монетки, которая выпадает орлом всего один раз из шести. Аналогично, наши гипотетические любители красных печенек с гораздо меньшей вероятностью ели бы зелёные.
Студент: Окей, математику я вроде бы понял. Но, честно говоря, не улавливаю, в чём её смысл.
Байесовец: Сейчас объясню, но сперва обратите внимание вот на что: результаты моих вычислений никак не зависят от того, почему монета была подброшена именно шесть раз. Может быть, после шестого броска Вы решили, что данных уже вполне достаточно. Может быть, после серии из пяти бросков Вам во сне явилась Намагири Тайяр и посоветовала бросить монету ещё раз. Монеточке всё равно. Факт остаётся фактом: данная конкретная серия ОООООР для честной монеты вчетверо менее вероятна, чем для монеты, которая выпадает орлом пять раз из шести.
Учёный: Согласен, как минимум одно полезное свойство у Ваших вычислений есть. А что дальше?
Байесовец: А дальше вы публикуете результаты в журнале. Желательно вместе с сырыми данными, потому что тогда любой желающий может вычислить правдоподобие какой угодно гипотезы. Допустим, кто-нибудь неожиданно заинтересовался гипотезой «Монета выпадает орлом 9 раз из 10, а не 5 раз из 6» В этом случае серия наблюдений ОООООР имеет вероятность 5,9%, что чуть меньше нашей гипотезы про пять орлов из шести бросков (6,7%), но в 3,7 раз больше гипотезы, что монета сбалансирована идеально (1,6%). Заранее придумать все возможные гипотезы невозможно, да и не нужно. Достаточно публиковать полные данные — тогда любой, у кого появилась гипотеза, сможет легко посчитать нужные ему правдоподобия. Байесовская парадигма требует публикации сырых данных, потому что основное внимание сосредоточено именно на конкретном результате, а не на каком-то классе предположительно одинаковых исходов.
Учёный: В этом я с Вами согласен, публикация полных наборов данных — один из важнейших шагов к преодолению кризиса воспроизводимости. Но лично я не понимаю, что мне потом делать со всеми этими «А в столько-то раз вероятнее, чем Б».
Студент: Я тоже.
Байесовец: Это не совсем тривиально… вы читали наше введение в правило Байеса?
Студент: Отлично. Вот только очередного трёхсотстраничного учебника статистики мне и не хватало.
Байесовец: Его вообще-то за час можно прочитать. Просто это всё в буквальном смысле не тривиально, то есть требует объяснений. Но окей, за неимением полноценного введения я постараюсь что-нибудь придумать. Скорей всего, это будет звучать разумно — и логика действительно корректна —, но не факт, что самоочевидно. Поехали. Существует теорема, которая доказывает корректность следующих рассуждений:
(Байесовец набирает воздух)
Байесовец: Допустим, в убийстве подозревают профессора Плюма и мисс Скарлет. Изучив биографии обоих, мы предполагаем, что профессору убить человека было бы вдвое легче, чем мисс Скарлет. С этого предположения и начнём. Выясняется, однако, что покойный был отравлен. Мы знаем, что если профессор Плюм соберётся кого-нибудь убить, то он использует яд с вероятностью 10% (а в 9 случаях из 10 предпочтёт, например, револьвер). Мисс Скарлет же, если она решится на убийство, использует яд с вероятностью 60%. Иными словами, использование яда профессором в шесть раз менее вероятно, чем использование яда мисс Скарлет. Так как у нас есть новая информация, а именно способ убийства, то мы должны обновить наше предположение и считать, что Плюм примерно втрое менее вероятный убийца: 2×1/6 = ⅓.
Студент: Не уверен, что я это понял. Что вообще значит фраза «Профессор Плюм втрое менее вероятный убийца, чем мисс Скарлет»?
Байесовец: Она значит, что если у нас нет других подозреваемых — то вероятность того, что жертву убил именно Плюм, составляет ¼. Остальные ¾ составляют вероятность того, что убийца — мисс Скарлет. Поэтому вероятность вины профессора втрое ниже, чем таковая мисс Скарлет.
Учёный: А теперь уже я хочу знать, что вы имеете в виду под «вероятностью вины». Плюм либо совершил убийство, либо он его не совершал. Мы не можем рассмотреть выборку убийств и обнаружить, что Плюм действительно виновен в четверти из них.
Байесовец: Я надеялся в это не влезать, ну да ладно. Мой добрый Учёный, я имею в виду, что если бы Вы предложили мне пари со ставками 1:1 на то, убивал ли Плюм жертву или нет, то я бы поставил на то, что он этого не делал. Но если по условиям пари я плачу бы Вам $1 в случае его невиновности, а Вы платите мне $5 в случае его вины, я бы с радостью поставил на вину. Президентские выборы 2012 года проходили всего однажды и «Вероятность победы Обамы» такая же концептуально невнятная штука, как «Вероятность вины Плюма». Но если бы 7 ноября вам предложили поставить $10 на Обаму и обещали $1000 в случае его победы — то едва ли вы отказались бы от такой ставки. В целом, когда рынки предсказаний и большие ликвидные пулы ставок принимают ставки в 6:4 на какое-то событие, это событие происходит примерно в 60% случаев. Рынки и пулы хорошо откалиброваны по вероятностям в этом диапазоне. Будь они откалиброваны плохо, то есть если бы события, на которые принимают ставки в 6:4, происходили в 80% случаев, то кто-нибудь смог бы это заметить и обогатиться за счёт таких ставок. При этом он повышал бы цену ставки до тех пор, пока рынок не станет хорошо откалиброванным. А раз события с рыночной оценкой вероятности в 70% действительно случаются примерно 7 раз из 10, то я не понимаю, зачем настаивать на том, что такая вероятность не имеет смысла.
Студент: Признаю, звучит убедительно. Но наверняка же это мне только кажется, и на самом деле есть целая куча хитрых аргументов за и против.
Байесовец: Куча аргументов действительно есть, но общий вывод из неё таков, что ваше интуитивное представление довольно близко к истине.
Учёный: Ладно, к этому мы ещё вернёмся. А что, если существуют два агента, оба в Ваших терминах «хорошо откалиброванные», но один из них утверждает »60%», а другой — »70%»?
Байесовец: Допустим, я подбрасываю монетку и не смотрю, какой стороной она выпала. В этом случае моё незнание — это не информация про монетку, это информация про меня. Оно существует в голове, а не в окружающем мире, так же как белые пятна на карте не означают, что на этом месте нет территории. Если Вы посмотрели на монетку, а я нет — вполне разумно, что мы с Вами в разных состояниях неуверенности по её поводу. Учитывая, что я не уверен на сто процентов, мне имеет смысл выразить свою неуверенность в терминах вероятности. Существует штук триста теорем, которые утверждают, что если чьё-то выражение неуверенности не является по сути распределением вероятности — то, в общем, так ему и надо. Почему-то всегда так получается, что если мышление агента в условиях неуверенности нарушает любую из стандартных аксиом теории вероятности — земля разверзается, вода превращается в кровь, а с небес сыплются доминируемые стратегии и заведомо проигрышные ставки.
Учёный: Ладно, тут я был неправ. К этому мы тоже ещё вернёмся, но сперва всё-таки ответьте на мой вопрос: что нам делать с правдоподобиями после того, как мы их получили?
Байесовец: Согласно законам теории вероятности, эти правдоподобия и есть доказательства. Именно они заставляют нас изменить наши априорные вероятности с 2: 1 в пользу Плюма на 3:1 в пользу Скарлет. Если у меня есть две гипотезы и правдоподобия данных для обеих, то мне следует менять своё мнение описанным выше образом. Если же я меняю его как-нибудь по-другому — то небеса разверзаются, стратегии сыплются и так далее. Теорема Байеса: это не просто статистический приём, это ЗАКОН.
Студент: Извиняюсь, но я всё ещё не понял. Допустим, мы проводим эксперимент. И, допустим, полученные результаты вшестеро вероятнее, если герра Труппа убил профессор Плюм, чем они были бы, будь убийцей мисс Скарлет (прим. пер. — Студент, очевидно, перепутал правдоподобия использования яда двумя убийцами. Далее обсуждается именно такое соотношение). Арестовывать нам профессора или нет?
Учёный: Полагаю, для начала надо придумать более-менее реалистичную априорную вероятность, например »a priori я полагаю, что вероятность убийства Труппа Плюмом 20%». Затем её надо перемножить на отношение правдоподобий, составляющее 6:1, и получить отношение апостериорных вероятностей 3:2, что Плюм таки убил Труппа. После чего можно заявить, что Плюм виновен с вероятностью 60%, а дальше пусть разбирается прокуратура.
Байесовец: Нет. Ради всего святого! Вы действительно думаете, что байесовская статистика так и работает?
Учёный: А она работает не так? Я всегда считал, что её главное достоинство в том, что она даёт нам апостериорные вероятности, которых P-значения действительно не дают, а главный недостаток — в том, что для этого нужны априорные вероятности. Так как их приходится брать более или менее с потолка, корректность апостериорных вероятностей можно оспаривать до скончания времён.
Байесовец: В статьях нужно публиковать правдоподобия. Точнее, нужно публиковать сырые данные и вычислять для них несколько интересующих нас правдоподобий. Но уж точно не апостериорные вероятности.
Студент: Я опять запутался. Что такое апостериорные вероятности?
Байесовец: Апостериорная вероятность — это утверждение типа «С вероятностью 60% герра Труппа убил профессор Плюм». Как уже отметил мой коллега, из P-значений такие утверждения не следуют. И, на мой взгляд, им не место в экспериментальных статьях, потому что это не результаты эксперимента.
Студент: Но… окей, Учёный, вопрос к вам: допустим, мы получили результаты с p
Учёный: Во-первых, это не реалистичная нулевая гипотеза. Скорей всего, нулевой гипотезой будет что-то вроде «Никто не убивал герра Труппа» или «все подозреваемые виновны в равной степени». Но даже если бы описанная Вами нулевая гипотеза работала, даже если бы мы могли отвергнуть невиновность Плюма с p
Студент: А что они тогда сообщают?
Учёный: Они сообщают, что наблюдаемые данные входят в некий класс возможных исходов, и что результаты этого класса наблюдаются менее чем в 1% случаев, если нулевая гипотеза верна. Больше P-значение не значит ничего. Нельзя просто взять и перейти от p
Студент: Вообще отлично. Сперва я не понимал, что мне делать с правдоподобиями, а теперь я ещё и не понимаю, что мне делать с P-значениями. Какой эксперимент требуется, чтобы наконец отправить Плюма в тюрьму?
Учёный: На практике? Если ещё пара экспериментов в других лабораториях подтвердит его вину с pдействительно виновен.
Байесовец: А «кризис воспроизводимости» — это когда позже дело поднимают и оказывается, что он таки не совершал убийства.
Учёный: В общем, да.
Студент: Как-то неприятно получается.
Учёный: Жизнь вообще неприятная штука.
Студент: Итак… Байесовец, у Вас же наверняка есть похожий ответ? Что-нибудь типа того, что если отношение правдоподобий достаточно большое, скажем, 100:1, то на практике можно считать соответствующую гипотезу истинной?
Байесовец: Есть, но он несколько сложнее. Допустим, я бросаю монету 20 раз и получаю ОООРОООРОРОРРОООРОООРРОР. Подвох в том, что правдоподобие гипотезы «Монета гарантированно выдаёт последовательность ОООРОООРОРОРРОООРОООРРОР» выше правдоподобия гипотезы «Монета равновероятно выпадает орлом или решкой» примерно в миллион раз. На практике, если Вы не вручили мне эту гипотезу в запечатанном конверте до начала эксперимента, я буду считать её сильно переобученной. Мне придётся выдать этой гипотезе штраф за сложность как минимум в 220:1, потому что одно только описание последовательности занимает 20 бит. Иными словами, понизить априорную вероятность настолько, что она более чем компенсирует преимущество в правдоподобии. И это не единственный подводный камень. Но тем не менее, если понять, как и почему работает правило Байеса — то в каждом конкретном случае можно разбираться по ходу дела. Если отношение правдоподобий за Плюма против любого другого подозреваемого 1000:1, а подозреваемых вообще всего шестеро, то можно предположить, что априорная вероятность едва ли была значительно больше 10:1 против того, что он убийца. Если так, то можно считать, что он виновен с вероятностью 99%.
Учёный: Но тем не менее, в статье это писать не стоит?
Байесовец: Верно. Как бы сформулировать… Ключевое условие байесовского анализа в том, что надо учитывать всю релевантную информацию. Нельзя исключать данные из анализа только потому, что они вам не нравятся. Это вообще-то ключевое условие науки как таковой, независимо от используемой статистики. Есть куча статей, выводы которых получились только потому, что не был учтён какой-то фактор или выборка нерепрезентативна по какому-то параметру. Я про это к чему? А к тому, что откуда мне (как экспериментатору) знать, что такое «вся релевантная информация»? Кто я такой, чтобы вычислять апостериорные вероятности? Может быть, кто-то опубликовал статью, в которой есть дополнительные данные и дополнительные правдоподобия, которые мне следовало бы учесть, а я её ещё не прочитал. Поэтому я просто публикую свои данные и свои функции правдоподобия — и всё! Я не могу утверждать, что рассмотрел все аргументы и теперь могу предложить достоверные апостериорные вероятности. И даже если бы я мог, то через неделю может выйти ещё одна статья, и эти вероятности устареют.
Студент: Грубо говоря, экспериментатор должен просто опубликовать свои данные, рассчитать для них несколько правдоподобий и всё? А уже потом кто-нибудь другой пусть решает, как с ними поступить?
Байесовец: Кому-нибудь придётся выбрать априорные вероятности — равные, или с максимальной энтропией, или с штрафами за сложность, или ещё какие-нибудь, — потом постараться собрать все возможные данные, вычислить правдоподобия, убедиться, что результат не бредовый, и прочая и прочая. И их всё равно придётся пересчитывать, если через неделю выйдет новая статья.
Студент: Звучит довольно трудоёмко.
Байесовец: Было бы гораздо хуже, если бы мы взялись за мета-анализ P-значений. Обновлять байесовские вероятности гораздо проще. Достаточно просто перемножить старые апостериорные вероятности на новые функции правдоподобия и нормализовать. Всё. Если эксперимент 1 даёт отношение правдоподобий 4:1 для гипотез А и Б, а эксперимент 2 даёт для них же отношение правдоподобий 9:1, то вместе они дают отношение 36:1. Вот и всё.
Студент: А с P-значениями так делать нельзя? Один эксперимент с p=0,05 и другой эксперимент с p=0,01 не означают, что на самом деле p
Учёный: Нет.
Байесовец: Дорогие зрители, пожалуйста, обратите внимание на мою высокомерную улыбку.
Учёный: Но меня всё ещё беспокоит необходимость придумывать априорные вероятности.
Байесовец: А почему она вас беспокоит больше, чем то, что все решили считать один эксперимент и две репликации с p
Учёный: Вы хотите сказать, что выбор априорных значений не более субъективен, чем интерпретация P-значений? Хм. Я хотел заявить, что требование, скажем, p
Байесовец: И добавлю к этому, что требовать любого произвольного P-значения менее эффективно, чем высосать из того же пальца априорную вероятность. Одна из первых теорем, грозящих нарушителям аксиом вероятности карами египетскими, была доказана Абрахамом Вальдом в 1947 году. Он пытался описать все приемлемые стратегии, называя стратегией какой-то способ реагировать на то, что вы наблюдаете. Разумеется, разные стратегии при разных обстоятельствах могут быть более или менее выгодными. Приемлемой стратегией он назвал такую, которая не доминируется какой-то другой стратегией при всех возможных условиях. Так вот, Вальд обнаружил, что класс приемлемых стратегий совпадает с классом стратегий, которые содержат распределение вероятности, обновляют его на основании наблюдений по правилу Байеса и оптимизируют функцию полезности.
Студент: Извините, а по-русски можно?
Байесовец: Если Вы что-то делаете в связи с тем, что вы наблюдаете, и получаете больше или меньше, например, денег, в зависимости от того, каков реальный мир, то верно одно из двух. Либо Ваша стратегия в каком-то смысле содержит распределение вероятностей и обновляет его по правилу Байеса, либо есть какая-то другая стратегия, которая никогда не уступает Вашей, а иногда её превосходит. То есть Вы, например, говорите: «Я не буду бросать курить, пока не увижу статью, доказывающую связь курения с раком при p
Учёный: Серьёзно?
Байесовец: Ага. Байесовская революция началась с этой теоремы; с тех пор она потихоньку набирает обороты. Стоит отметить, что Вальд доказал свою теорему через пару десятилетий после изобретения P-значений. Это, по-моему, объясняет, как так вышло, что вся современная наука оказалась завязана на заведомо неэффективную статистику.
Учёный: То есть вы предлагаете выкинуть P-значения и вместо них публиковать только отношения правдоподобий?
Байесовец: Коротко говоря, да.
Учёный: Что-то я не очень верю в идеальные решения, подходящие для любых условий. Я подозреваю — пожалуйста, не сочтите за оскорбление — что вы идеалист. По моему опыту, в разных ситуациях бывают нужны разные инструменты и было бы неразумно выкидывать все, кроме одного.
Байесовец: Что ж, я готов объяснить, в чём я идеалист, а в чём нет. Функции правдоподобия сами по себе не разрешат кризис воспроизводимости. Его нельзя полностью разрешить, просто приказав всем использовать более эффективную статистику. Популярность журналов с открытым доступом не зависит от выбора между правдоподобиями и P-значениями. Проблемы с системой рецензирования тоже от него не зависят.
Учёный: А всё остальное, стало быть зависит?
Байесовец: Не всё, но они могут много с чем помочь. Давайте посчитаем.
Байесовец: Во-первых. Функции правдоподобия не заставляют проводить границу между «статистически значимыми» и «незначимыми» результатами. У эксперимента не может быть «положительный» или «отрицательный» исход. То, что называется нулевой гипотезой — теперь просто одна из гипотез, ничем принципиально не отличающаяся от всех остальных. Если Вы кидаете монету и получаете ООРОРРРООО — нельзя сказать, что эксперимент не смог «отвергнуть нулевую гипотезу при pстимулируют! Именно из-за него p-hacking вообще существует. Так что переход к правдоподобиям не принесёт счастья всем и даром, но он точно поможет.
Байесовец: Во-вторых. Система правдоподобий гораздо сильнее подчёркивает важность исходных данных и будет стимулировать их публикацию везде, где это возможно, потому что байесовский анализ строится на том, насколько вероятны данные конкретные результаты в той или иной модели. Система P-значений, напротив, заставляет исследователя рассматривать данные как всего лишь один из членов класса «столь же крайних» результатов. Некоторые учёные любят держать все свои драгоценные данные при себе; дело тут не только в статистике. Но P-значения стимулируют и это, потому что для статьи важны не сами данные, а то, входят ли они в какой-то определённый класс. После того, как это установлено, вся содержащаяся в них информация будто бы схлопывается в единственный бит «значимости» или «незначимости».
Байесовец: В-третьих. С точки зрения теории вероятности, с байесовской точки зрения, разные величины эффектов — это разные гипотезы. Это логично, потому что им соответсвуют разные функции правдоподобия и соответственно разные вероятности наблюдаемых данных. Если один эксперимент обнаружил величину эффекта в 0,4, а другой эксперимент обнаружил «статистически значимую» величину того же эффекта в 0,1, то эксперимент не воспроизвёлся и мы не знаем, что там с эффектом на самом деле. Это позволит избежать довольно распространённой ситуации, когда величина «статистически значимого» эффекта всё убывает и убывает с увеличением выборки.
Байесовец: В-четвёртых. Функции правдоподобия намного упрощают объединение данных и мета-анализ. Они даже могут помочь нам заметить, что данные собраны в неоднородных условиях или что мы не рассматриваем истинную гипотезу. В этом случае либо все функции будут близки к нулю при всех возможных параметрах, либо лучшая гипотеза будет давать на объединённых данных намного меньшее правдоподобие, чем она сама предсказывает. Более строгий подход к воспроизводимости позволит быстро понять, можно ли вообще считать такой-то эксперимент повтором такого-то.
Байесовец: В-пятых. Функции правдоподобия не зависят от того, что о них думают. Это объективные высказывания о данных. Если публиковать значения правдоподобия, то есть только один способ обмануть читателя — фальсифицировать сами данные. P-hacking не сработает.
Учёный: Вот в этом я как раз сильно сомневаюсь. Допустим, я решу убедить вас, что монета чаще выпадает орлом, хотя на самом деле она честная. Я возьму монету, буду кидать её до тех пор, пока случайно не получу чуть больше орлов, а потом остановлюсь. Что тогда?
Байесовец: Валяйте. Если не фальсифицировать данные, вы меня не обманете.
Учёный: Вопрос б