Как математик-пивовар t-распределение изобретал
Распределение Гаусса на графике — это колоколообразная кривая. Она достигает своего пика в среднем значении и убывает по обе стороны от него. Социологи его применяют, когда изучают мнение, а статистики — средние доходы, рост людей и то, кто какую окрошку предпочитает.
Распределение удобное, математически выверенное. Показывает, что типичные события происходят часто, а редкие — редко. В начале двадцатого века выяснилось, что для некоторых случаев оно не подходит, более того — может выдать ложные результаты.
Например, оно не подходит для промышленного пивоварения. К такому выводу однажды пришёл учёный (и экспериментальный пивовар компании Гиннесс) Уильям Госсет. Он столкнулся с проблемой: как подойти к оценке качества сырья и продукта, если данных для анализа мало, и в итоге вывел так называемое t-распределение. У него, в отличие от распределения Гаусса, более низкий «горб» и толстые «хвосты» — края, отвечающие за маловероятные события. За счёт этих хвостов, а также благодаря своей возможности меняться, притворяясь гауссовым, t-распределение незаметно, но прочно вошло в нашу жизнь.
Правда, под именем «распределение Стьюдента».
Нормальное распределение (z) и два варианта распределения Стьюдента
Уильям Сили Госсет родился в 1876 году в Кентербери, в семье английского полковника. Юноша хотел пойти по стопам отца и стать офицером, однако не смог: помешало плохое зрение. Поэтому он поступил в Винчестерский колледж, а затем в Оксфорд, где изучал математику и химию. Завершив обучение, он отправился туда, где были очень нужны молодые учёные-химики с математическим складом ума.
На пивоварню.
За 60 лет до Госсета
Варка пива — не самый простой процесс, но и не волшебство. Многое зависит от ингредиентов, ячменя и хмеля, которые в свою очередь зависят от условий выращивания. А пиво любят за постоянство вкуса. Поэтому здесь особенно нужен и важен контроль.
Обычно контролем занимались сами пивовары. По виду, запаху и вкусу они оценивали качество ингредиентов и либо пускали их в дело, либо браковали. Когда производство наращивает объёмы, такая схема уже не очень подходит.
Вот, например, у ячменя множество сортов. При одинаковых условиях выращивания один сорт может давать вдвое больше урожая, чем другой. Как это определить научно и достоверно? Вырастить два поля ячменя двух разных сортов, собрать сначала урожай, а потом две выборки, провести статистическую проверку гипотез.
Но это долго и дорого, поэтому обычно сначала делают случайную выборку, а потом выводы.
Если выводы по выборке соответствуют стандартному распределению, то всё ок, она корректна и репрезентативна.
Вот так (по Гауссу) — нормально
А если значения на графике образуют не колокол, а слона в удаве, значит, принцип отбора какой-то неправильный и экстраполировать выводы не стоит.
Вот так нормальное распределение выглядеть НЕ должно
У компании Гиннесс не было времени выращивать целые поля разных ячменей, и выводы нужно было делать по нескольким исследованным образцам. Здесь требовался математический ум.
В 1899 году ум как раз устроился на работу в компанию.
Колокол и блюдце
Уильям Госсет начал с того, что вывел вероятность ошибки. Он рассчитал, с какой вероятностью разные небольшие выборки могут дать значение, отличное от истинного. Сделать это можно было только одним способом: провести много, очень много экспериментов.
Изучив множество выборок, Госсет подсчитал, что два образца дают точность в районе 80%, три — уже 87,5%, а при исследовании 87 образцов вы получите примерно ту же точность, что и при изучении тысячи. Это позволило серьёзно сократить расходы, однако компания решила, что потенциал ноу-хау не исчерпан — и отправила Госсета в оплачиваемый отпуск, который он провёл в лаборатории известного биолога и статистика Карла Пирсона.
Результатом отпуска и стало то самое t-распределение. Госсет вывел формулу, позволявшую оценить качество выборки в зависимости от количества её степеней свободы, или, иначе говоря, независимых элементов в выборке. При этом число степеней свободы всегда на единицу меньше количества объектов в выборке, то есть при выборке в 5 элементов у нас будет 4 степени свободы, при 3 — 2. Объясняется это просто: если вам известно среднее арифметическое выборки и все значения, кроме одного, вы легко сможете высчитать это последнее значение. То есть оно не является независимым.
Сама формула выглядит так. Y — значения независимых переменных из выборки, n — количество степеней свободы
На основе этой формулы можно построить распределения для разных небольших выборок и нарисовать график. При трёх (то есть для двух степеней свободы) он имеет форму лежащего вверх дном блюдца: его «горб» сильно ниже, чем у стандартного распределения, а «хвосты» — толще. Это позволяет учитывать тот факт, что при небольшой выборке, скорее всего, получится больший разброс значений. Но чем больше образцов, тем сильнее график вытягивается вверх по центру, приближаясь к стандартному распределению.
Такое распределение учитывает, что в выборке может быть чуть больше необычно больших или маленьких значений, при этом общая картина сохраняется: если вы взяли три образца и их результаты соответствуют «блюдцу», всё ок. А если нет — то, сравнив графики, вы всё равно сможете понять, какова вероятность ошибки. И если она невелика — ею можно пренебречь и в продакшене.
Ячменное поле экспериментов
Однажды к Госсету за советом обратился коллега — солодовник Эдвин С. Бивен, тот занимался экспериментальной работой ещё с 1890-х годов. Их сотрудничество оказалось взаимовыгодным: математические навыки Госсета дополняли практический опыт Бивена.
В 1913 году Бивен предложил дизайн эксперимента по схеме шахматной доски: восемь сортов ячменя на участках размером один квадратный ярд. Каждый сорт был представлен по одному разу в каждом блоке, но распределение внутри блока было сбалансированным, а не случайным. А Госсет тем временем сформулировал метод оценки ошибки для сравнения сортов, алгебраически эквивалентный дисперсионному анализу. Который, к слову, в этот же период, но независимо от Госсета, разработал Рональд Фишер.
Они были знакомы, вели переписку и, судя по всему, как положено великим умам, мыслили одинаково.
Вместе с тем Фишер считал, что рандомизированные схемы круче, а Госсет — что сбалансированные. И поэтому первый критиковал второго за метод «полурядовой полосы», который тот вместе с Бивеном часто использовал для полевых испытаний. Например, два сорта ячменя высевались длинными полосами на площади около одного акра. Такой подход позволял точно оценивать ошибки при сравнении различных сортов. В одном из экспериментов стандартная ошибка среднего значения сорта составила около 0,6 процента. Госсет утверждал, что сбалансированные схемы имеют меньшую реальную ошибку по сравнению с расчётной. И хотя они могут пропускать небольшие реальные различия, значительные пропускают гораздо реже.
Впрочем, вообще Госсет был за сочетание баланса и рандомизации во имя точности.
Так откуда же здесь Стьюдент?
Разработав свою теорию, Уильям Госсет решил её опубликовать, так как он всё же был учёным и хотел, чтобы новые знания распространялись. Однако у компании было другое мнение. Получив новую прорывную технологию, она хотела использовать её самостоятельно, а не отдавать в руки конкурентам. Тем более что всего несколькими годами ранее произошёл неприятный случай, один из коммерческих секретов был опубликован в общедоступном издании. В конце концов начальство позволило выпустить статью под псевдонимом Стьюдент, чтобы никто не догадался. В смысле, чтобы конкуренты не смогли связать технологию с пивоваренной промышленностью и понять, откуда ноги растут.
Они и не поняли.
А t-распределение так и осталось распределением Стьюдента.
Уильям «Ну Стьюдент, так Стьюдент» Госсет
Используют его там, где размер выборки мал и не подходит под нормальное распределение. С его помощью можно, например, оценить эффективность разных сотрудников, сравнив относительно небольшое количество их показателей. Распределение Стьюдента используют при анализе рынка, социологических исследованиях, даже в медицине. Предположим, есть медицинское исследование, в котором участвует десять человек, из них пятеро получили плацебо. С таким малым числом участников трудно определить является разница статистически значимой или случайной.
В общем, Госсет использовал статистические методы для улучшения различных этапов пивоварения, включая выбор и обработку сырья, контроль за ферментацией и консистентность качества конечного продукта. Это было особенно важно для масштабного производства Гиннесса, где даже небольшие улучшения играют значительную роль.
А ещё, говорят, что он был просто хорошим парнем.