Матстат в одной схеме

Данная статья посвящена описанию базы математической статистики.

Это база

Это база

Сразу к делу.

Постановка задачи

Главная задача математической статистики заключается в оценке распределения случайных величин, основываясь на выборке данных.
Мы рассматриваем выборкуx_1, x_2, \ldots, x_n, которая является реализацией случайных величин \xi_1, \xi_2, \ldots, \xi_n. И мы предполагаем, что случайные величины одинаково распределены и в совокупности независимы.
Наша цель — определить, каков закон распределения этих случайных величин, т.е. оценить функцию распределения случайных величин F_{\xi_i}и ее параметры.

Функцию распределения истинной случайной величины (которой высшие силы описывают случайную величину) можно обозначить как:
F_\xi \in \{ F_\theta \}, \theta \in \Theta \subset R^m
где \theta — это параметр/параметры этого распределения.

Инструменты для решения поставленной задачи

Приведу сначала список, а потом рассмотрю некоторые пункты подробнее:

  1. Оценки параметров

    • Точечные оценки параметров

    • Методы построения точечных оценок

    • Интервальные оценки параметров

  2. Эмпирическая функция распределения

  3. Проверка статистических гипотез

Точечные оценки параметров

Определение.
Точечная оценка — это функция от элементов выборки, которая принимает значения в параметрическом пространстве \Theta и обозначается как \overline{\theta}_n.
Качество оценок.
Оценка может быть:
1) несмещенной (в среднем равна истинному значению параметра), если для \overline{\theta}_n выполнено:
E\overline{\theta}_n = \theta
2) состоятельной (сходимость по вероятности оценочной функции к истинному значению при увеличении объема выборки), если выполнено:
\overline{\theta}_n \to^P \theta при n \to \infty
Сходимость по вероятности это: \forall \varepsilon > 0 \space P (|\overline{\theta}_n — \theta| > \varepsilon) \to 0, при \space n \to \infty» src=«https://habrastorage.org/getpro/habr/formulas/8/8f/8f5/8f59b062bd18e99bea296f5b7e397039.svg» /><br />3) <strong>асимптотически нормальной</strong>, если для <img alt= выполняется: \sqrt{n} (\overline{\theta}_n - \theta) \to_{n \to \infty} \eta \sim N(0, \sigma^2(\theta))
где \sigma^2(\theta) — асимптотическая дисперсия.

Методы построения точечных оценок

Метод моментов.
Оценка параметров через равенство теоретических и эмпирических моментов.
На нём я останавливаться не буду, скажу лишь, что для этого метода нам нужны априорные знания о моментах случайных величин до порядка k, где k — это количество параметров истинного распределения.

Метод максимального правдоподобия.
Он в каком-то смысле более мощный. Здесь, в отличие от метода моментов, никакой догадки, априорных знаний нам не нужно.

По жизни распределения (с которыми обычно работаем) бывают двух типов: дискретные и абсолютно непрерывные. Поэтому введём в функцию, которую можно назвать плотностью для обоих типов распределения:
f(x;\theta):=
1)P_\theta(\xi=x) \space if \space дискретное
2)p_\xi(x; \theta), \space if \space абс \space непрерыв

И введём функция правдоподобия:
L(x_1, ..., x_n, \theta)= \Pi_{i=1}^nf(x_i,\theta)
Смысл функции такой: мы перемножаем либо вероятности (в дискретном случае), либо плотности (в абс. непрерывном), с условиями \xi_i = x_i. То есть, это либо вероятность того, что \xi_1=x_1 и так далее до \xi_n=x_n, либо совместная плотность для p_{\xi_1}(x_1, \theta) и так далее до p_{\xi_n}(x_n, \theta).

В двух словах о методе.
Можно сказать, что эта совместная вероятность (функция правдоподобия) показывает следующее. Чем больше значение этой функции, тем больше вероятность того, что именно такая случ величина \xi_i принимает такое значение x_i и так далее, при выбранных параметрах. И следовательно, тем правдоподобнее эти параметры, то есть тем вероятнее, что именно с этим параметром и задана функция распределения, которую используют высшие силы для описания нашей случайной величины.

Из абзаца выше следует, что нам нужна точка \overline{\theta}_n максимума L.
Находить максимум удобнее через экстремумы функции, то есть через приравненную к нулю производную функции. Но дифференцировать L тяжело, поэтому лучше взять логарифм от L. Точка максимума будет одна и та же, так как логарифм монотонная функция.
Следовательно, решив уравнение:

\frac{\partial LnL}{\partial\theta} = 0

мы найдём экстремум, а значит и нужную нам оценку \overline{\theta}_n.

Эмпирическая функция распределения

Оценка функции распределения по данным выборки. Эмпирическая функция распределения имеет вид:

\overline{F}_n(x) = \frac{1}{n} \sum_{i=1}^n I_{\{\xi_i \leq x\}}

Данная функция является несмещенной и состоятельной оценкой истинной функции распределения для каждого x. Но проблема в том, что мы смотрим только на точечные оценки функции распределения. А теорема ниже утверждает, что эта оценка также хорошо апроксимирует функцию распределения на всей прямой сразу.

Теорема Гливенко-Кантелли:
Если мы возьмём вероятность того, что супремум по всем x из R модуля разности оценки функции распределения и истинной функции распределения при n \to \infty стремится к нулю, то это вероятность будет равна 1.

P(sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)| \to_{n \to \infty} 0) = 1

То есть теорема утверждает, что для почти любой выборки, которая может породиться в рамках эксперимента, не просто разность между оценкой и истинным распределением близка к нулю, а даже супремум этой разности на все прямой стремиться к нулю при увеличении выборки.

Проверка статистических гипотез

Поиск доказательства или опровержения предварительных предположений о распределении данных или о параметрах распределения.
Основные виды ошибок: ошибка 1-го рода (отказ от нашей гипотезы, хотя она верна) и ошибка 2-го рода (принятия нашей гипотезы, хотя она ложна). Ошибка 2-го рода самая страшная.

Допустим наша гипотеза в том, что выборочная функция распределения совпадает с известной нам функцией распределения, например с нормальной N(0,1).
Как построить оценку функции распределения мы поняли, а так же убедились, что наша э.ф.р. апроксимирует истинную функцию распределения. (в пункте про эмпирическую функцию распределения).

А как узнать совпадает ли э.ф.р. с предполагаемой нами функцией распределения с такими-то вот параметрами? И с какой вероятностью мы можем ошибаться?
Отвечает Александр Друзь Андрей Колмогоров.

Критерий, названный в честь Колмогорова помогает ответить на эти вопросы. Существуют и другие критерии для работы с различными гипотезами, но мы рассмотрим для примера колмогоровский критерий.

Но сначала про теорему Колмогорова. Она утверждает, что выражение:
\sqrt{n}D_n = \sqrt{n} \space sup_{x \in R}|\overline{F}_n(x, \xi_1, ..., \xi_n) - F_{\xi_i}(x)|
можно привести к распределению, которое называется (сюрприз) Колмогоровским.

Связь теоремы Колмогорова и теоремы Гливенко-Кантелли можно сравнить со связью центральной предельной теоремы и закона больших чисел, формулы которых следующие:

\frac{\xi_1 + ... + \xi_n - na}{n} \to 0 — ЗБЧ
\frac{\xi_1 + ... + \xi_n - na} {\sqrt{n}\sigma} \to^d N(0, 1) — ЦПТ

Как выражение из закона больших чисел можно преобразовать в случайную величину со стандартным нормальным распределением, так и преобразованное выражение из теоремы Гливенко-Кантелли подобным образом сходится по распределению к распределению Колмогорова.

Итак, суть теоремы:
D_n(\xi_i,...,\xi_n) = sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)| \to_{n \to \infty} 0
— это выражение из теор. Г-К обозначим как D_n

И при условии, что F_{\xi_i}(x) — непрерывно (это важно) выполняется:
\sqrt{n}D_n \to_{n \to \infty}^d \eta
где \eta — случайная величина с тем самым колмогоровским распределением:
F_\eta(y) = K(y)=
1)\space 0 \space при \space y \leq 0
2)\space \Sigma_{i=-\infty}^\infty(-1)^i e^{-2i^2y^2} \space при \space y > 0» src=«https://habrastorage.org/getpro/habr/upload_files/002/950/94a/00295094a60bf1a94688ca8a85b78e80.svg» /></p>

<p>Зачем нам вообще это надо, зачем приводить выражение <img alt= к случайной величине с колмогоровским распределением?
Сначала стоит вспомнить для чего мы здесь, что мы хотим от нашей выборки элементов.
А хотим мы понять как распределены эти числа, если вообще как-то распределены, по какому закону высшие силы спускают нам эти значения.
И связка теорем Гливенко-Кантелли и Колмогорова один из способов это сделать. Он называется критерием колмогорова.

Критерий колмогорова используется для проверки гипотез на согласованность выборки с какой-то известной функцией распределения.
Делается это так. Мы можем предположить, что в выражении D_n = sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)| истинная функция распределения F_{\xi_i}(x) — это например ф.р. стандартного нормального распределения N(0,1). И преобразуем его так:
\sqrt{n}D_n = \sqrt{n}*sup_{x \in R}|\overline{F}_n(x, \xi_1, ..., \xi_n) - F_{\xi_i}(x)|
Тогда логично предположить, что чем больше \sqrt{n}D_n тем меньше наша э.ф.р. похожа на нормальную ф.р.

Но в математике любят, когда всё формализовано, поэтому отойдём чуть-чуть в сторону и введём понятие критического множества. Это такое множество \Omega \subset R^n, что если (x_1,...,x_n) \in \Omega (выборка в него попадает), то отвергаем гипотезу.

Вернёмся к \sqrt{n}D_n. Мы ввели критическое множество, чтобы формализовать проверку насколько наше значение велико, то есть какой порог c должно переступить значение \sqrt{n}D_n, чтобы считать, что оно слишком большое, то есть наша э.ф.р. слишком не похожа на гипотетическую ф.р…

Тогда критическое множество можно записать так:
\Omega_C = \{(x_1,...,x_n): \space  \sqrt{n}D_n(x_1,...,x_n) > c \}» src=«https://habrastorage.org/getpro/habr/formulas/8/85/856/85610069e5c85bc36546afc325620087.svg» /><br />Получается от <img alt= зависит порог принятия решения (когда отвергаем гипотезу). И в зависимости от того как мы выберем эту константу будет зависеть вероятность ошибки 1-го рода (отвергаем нашу гипотезу, хотя она верна).
Распишем это:
P_0((\xi_1,...,\xi_n) \in \Omega) \sim P(\eta > c)» src=«https://habrastorage.org/getpro/habr/formulas/5/52/527/527b972821a6bd140b5998adc550892b.svg» />, что равно <img alt=
Эта точка:
c_{1-\alpha}: \space K(c_{1-\alpha}) = 1 - \alpha
будет 1 - \alpha квантиль колмогоровского распределения.
И если мы так выбираем c, то \Omega переименуем в:
\Omega_{\alpha} = \{(x_1,...,x_n): \space  \sqrt{n}D_n(x_1,...,x_n) > c_{1-\alpha} \}» src=«https://habrastorage.org/getpro/habr/formulas/4/4f/4f7/4f7049f5e5a7766641615f11dec442be.svg» /><br />И эта точка <img alt= — критическая точка для \alpha или же квантиль для 1 - \alpha.

Вывод.
Гипотеза тем разумнее (сильнее), чем выше для неё значение порога \alpha.
То есть чем больше \alpha, тем меньше c_{1-\alpha}. Чем меньше c_{1-\alpha}, тем больше критическое множество \Omega_{\alpha}. Чем больше крит. множество \Omega_{\alpha} и при этом наша гипотеза не отвергается, тем сильнее эта гипотеза.

И пару слов про p-value.
Часто при принятии решения по гипотезе сравниваются не критические точки (\sqrt{n}D_n и c_{1-\alpha}), а p-value и \alpha.
Но по сути это то же самое, то есть как c_{1-\alpha} является критической точкой для \alpha, так и \sqrt{n}D_n является критической точкой для p-value.
Соответственно, если \sqrt{n}D_n > c_{1-\alpha}» src=«https://habrastorage.org/getpro/habr/formulas/7/71/710/710e308ea4de9f49c1d6b8f160fcf0af.svg» />, то <img alt=

По такой же логике выбора уровня значимости \alpha, критического множества \Omega_{\alpha} и проверке гипотез работают и другие критерии, связанные как с проверкой выборок, так и с проверкой параметров выборок.

© Habrahabr.ru