Байесовский вывод и метод максимизации правдоподобия в задаче о бросках монетки

image

Давайте представим, что мы бросаем монету и смотрим, какой стороной она выпадает — орлом или решкой. Все, что мы знаем о монете, — это то, что результаты бросков независимы, и у нас нет способа на них повлиять. Есть ли у нас способ предсказать, какой стороной выпадет монета при следующем броске?
Результат броска — это случайная величина. Если обозначить «решку» числом 0, а «орел» числом 1, то мы можем описать распределение этой случайной величины как $x \in\{0, 1\} $. Такое распределение называется распределением Бернулли:

$p(x|{\mu}) = \mu^{x}(1-\mu)^{1-x} \text{, где } \mu \text{- это вероятность }x=1$

Математическое ожидание и дисперсия этого распределения равны, соответственно:

$ E[x] = \mu $

$ V[x] = \mu(1-\mu) $

Но что если мы имеем дело не с отдельным броском монеты, а с серией бросков? Известно распределение величины $m$ — числа бросков, где $x=1$ из общего количества бросков $N$. Данное распределение называется биномиальным распределением.

$ Bin(m|\mu, N) = \binom{N}{m}\mu^m(1-\mu)^{N-m}$


где

$ \binom{N}{m} \equiv\frac{N!}{(N-m)!m!} $

Так как броски монеты — это независимые события, мы можем вычислить математическое ожидание и дисперсию биномиального распределения как суммы соответствующих параметров распределения Бернулли:

$ E[m] \equiv \sum_{m=0}^{N}mBin(m|\mu, N) = N\mu$

$ V[m] \equiv \sum_{m=0}^{N}(m-E[m])^2Bin(m|\mu, N) = N\mu(1-\mu) $


Предсказание следующего броска


На практике параметры биномиального распределения нам неизвестны. Вместо этого нам могут быть доступны результаты серии бросков этой монеты $D = \{x_1, x_2, ...., x_N\}$

Как же мы можем использовать эти данные для предсказания результатов следующего броска?

Метод максимизации правдоподобия


Классический подход к решению этой задачи — оценить параметры распределения по выборке. В нашем случае необходимо оценить один параметр биномиального распределения — $\mu$. Это можно сделать с помощью принципа максимизации правдоподобия. Идея этого метода — найти такое значение параметров распределения, при которых наблюдаемая выборка будет наиболее вероятной.

Поскольку броски монеты — независимые события, вероятность выборки $D$ можно представить как произведение всех вероятностей отдельных событий из этой выборки:

$ p(D|\mu) = \prod_{i=1}^{N}p(x_i|\mu) = \prod_{i=1}^{N}\mu^{x_i}(1-\mu)^{1-x_i} $


Для удобства максимизировать можно не саму вероятность выборки $D$, а логарифм этой вероятности. Тогда можно воспользоваться свойством логарифмирования, звучащим как «логарифм произведения равен сумме логарифмов»:

$ \ln{p(D|\mu)} = \sum_{i=1}^{N}\ln{p(x_i|\mu)} = \sum_{i=1}^{N}(x_i\ln\mu + (1-x_i)\ln(1-\mu)) $

Для нахождения максимума этой функции от $\mu$, нужно взять ее производную по $\mu$ и приравнять ее к нулю:

$ \frac{\partial{(\ln{p(D|\mu)})}}{\partial{\mu}} = \sum_{i=1}^{N}(\frac{x_i}{\mu} + \frac{x_i - 1}{1-\mu}) = 0 $

$ (1-\mu) \sum_{i=1}^{N}x_i + \mu\sum_{i=1}^{N}x_i - \mu N = 0 $

$ \sum_{i=1}^{N}x_i = \mu N $

$ \mu = \frac{1}{N} \sum_{i=1}^{N}x_i$

Таким образом, мы получили оценку параметра $\mu$, который и является вероятностью события $x=1$ в следующем броске. Если обозначить число событий $x=1$ в выборке $D$ как $m$, то мы получим предсказание на основе этой выборки:

$ p(x=1|D) = \frac{m}{N} $

Такое предсказание кажется разумным, однако, оно сталкивается с проблемами на небольших выборках. Что, если мы подкинули монету 3 раза, и монета трижды выпала «орлом»? По нашей оценке, вероятность в следующий раз получить «орла» равна 100%, так как $m=N=3$. Кажется, что такой результат противоречит здравому смыслу. Для решения этой проблемы можно перейти от частотного анализа к байесовскому подходу.

Байесовский вывод


Байесовский подход позволяет по-другому взглянуть на величины, с которыми мы работаем. В вышеуказанном частотном подходе мы предполагали, что существует «истинное» фиксированное значение $\mu$, которое мы оцениваем по выборке из распределения с этим параметром $\mu$. В байесовском подходе мы считаем, что параметр $\mu$ это случайная величина с неизвестным распределением. При этом у нас есть априорное знание об этом распределении, которое мы можем учитывать. А наблюдаемая выборка $D$ позволяет получить апостериорное распределение параметра $\mu$.

Апостериорное распределение получается умножением априорного распределения на вероятность выборки (или функцию правдоподобия). Вероятность выборки пропорциональна произведению членов $\mu^{x}(1-\mu)^{1-x}$. Если мы выберем априорное распределение, которое также пропорционально членам этого вида, то апостериорное распределение будет иметь такую же функциональную форму, как и априорное. Это ценное свойство, которое мы хотим обеспечить.

Но как правильно выбрать априорное распределение? Описанное выше априорное распределение задается в виде бета-распределения:

$ Beta(\mu|a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \text{, где } \Gamma(x) \text{ - это гамма-функция}$


Коэффициент $\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}$ нужен для нормализации распределения, то есть, чтобы $\int_0^1Beta(\mu|a, b)d\mu = 1$.

Математическое ожидание бета-распределения равно:

$ E[\mu] = \frac{a}{a+b}$

Для вычисления апостериорного распределения нужно умножить априорное распределение на функцию правдоподобия. Оставляя только члены, зависимые от $\mu$, получаем, что апостериорное распределение пропорционально:

$ p(\mu|a, b, m, N) \propto \mu^{m+a-1}(1-\mu)^{N-m+b-1} $

Мы получили бета-распределение $Beta(\mu|m+a, N-m+b)$ и уже знаем коэффициент для его нормализации. Теперь мы можем получить апостериорное распределение параметра $\mu$:

$ p(\mu|a, b, m, N) = \frac{\Gamma(a+b+N)}{\Gamma(m+a)\Gamma(N-m+b)}\mu^{m+a-1}(1-\mu)^{N-m+b-1}$

Здесь может возникнуть вопрос: «Какой смысл имеют параметры $a$ и $b$. Из распределения выше видно, что это априорное представление о доле объектов $x=1$ и $x=0$ в выборке. Можно сказать, что каждый новый бросок монеты обновляет наше знание об этих долях и корректирует предыдущую оценку распределения параметра $\mu$.

Теперь имея выборку $D$ и апостериорную оценку распределения $\mu$, мы можем проинтегрировать по этому распределению для предсказания результата следующего броска:

$ p(x=1|D) = \int_0^1p(x=1|\mu)p(\mu|D)d\mu = \int_0^1\mu p(\mu|D)d\mu $

Это в точности схоже с определением математического ожидания бета-распределения $p(\mu|D)$, значит:

$ p(x=1|D) = \frac{m+a}{N +a +b}$

Такое предсказание устойчиво к маленьким выборкам. Даже если $m=0$ или $m=N$ в маленьких выборках, полученная оценка результата не будет вырождаться в 0% или 100% благодаря влиянию априорных значений $a$ и $b$.

Связь предсказаний из байесовского вывода и метода максимума правдоподобия


Теперь давайте сравним предсказания, полученные методом максимума правдоподобия и байесовским выводом. При увеличении размера выборки предсказание из байесовского вывода стремится к предсказанию по методу максимума правдоподобия:

$ \lim_{m, N->\inf} \frac{m+a}{N +a +b} = \frac{m}{N} $» /></p>

<p>Это иллюстрирует тот факт, что с увеличением размера выборки влияние априорных значений на результат снижается. Предсказание для <img src=, полученное байесовским выводом, всегда лежит между априорным предсказанием $\frac{a}{a+b}$ и оценкой метода максимума правдоподобия $\frac{m}{N}$.

Иллюстрация эволюции байесовской оценки с ростом выборки


Ниже можно пронаблюдать, как меняется апостериорное распределение $p(\mu|D)$ с увеличением выборки $D$ из распределения с заданным $\mu=\frac{1}{3}$. В качестве априорного распределения выбрано бета-распределение $Beta(\mu|a=1, b=1)$, то есть распределение со средним значением $E[\mu] = \frac{1}{2}$.

Можно увидеть, что с увеличением размера выборки, $E[\mu]$ начинает двигаться от априорного значения $\frac{1}{2}$ к истинному значению $\mu=\frac{1}{3}$. Также уменьшается дисперсия распределения $p(\mu|D)$, указывающая на то, что оценка $\mu$ становится более «уверенной».
klwrllc9qvcj3a8io77repvftis.gif

Список литературы


  1. Bishop, Christopher M. Pattern Recognition and Machine Learning. New York: Springer, 2006.
  2. Deep Learning (Ian J. Goodfellow, Yoshua Bengio and Aaron Courville), MIT Press, 2016.

© Habrahabr.ru