Матстат в одной схеме30.09.2024 15:30

Данная статья посвящена описанию базы математической статистики.

Это база

Сразу к делу.

Постановка задачи

Главная задача математической статистики заключается в оценке распределения случайных величин, основываясь на выборке данных.
Мы рассматриваем выборку $x_1, x_2, \ldots, x_n$ , которая является реализацией случайных величин $\xi_1, \xi_2, \ldots, \xi_n$ . И мы предполагаем, что случайные величины одинаково распределены и в совокупности независимы.
Наша цель — определить, каков закон распределения этих случайных величин, т.е. оценить функцию распределения случайных величин $F_{\xi_i}$ и ее параметры.

Функцию распределения истинной случайной величины (которой высшие силы описывают случайную величину) можно обозначить как:
$F_\xi \in \{ F_\theta \}, \theta \in \Theta \subset R^m$
где $\theta$ — это параметр/параметры этого распределения.

Инструменты для решения поставленной задачи

Приведу сначала список, а потом рассмотрю некоторые пункты подробнее:

Оценки параметров
- Точечные оценки параметров
- Методы построения точечных оценок
- Интервальные оценки параметров
Эмпирическая функция распределения
Проверка статистических гипотез

Точечные оценки параметров

Определение.
Точечная оценка — это функция от элементов выборки, которая принимает значения в параметрическом пространстве $\Theta$ и обозначается как $\overline{\theta}_n$ .
Качество оценок.
Оценка может быть:
1) несмещенной (в среднем равна истинному значению параметра), если для $\overline{\theta}_n$ выполнено:
$E\overline{\theta}_n = \theta$
2) состоятельной (сходимость по вероятности оценочной функции к истинному значению при увеличении объема выборки), если выполнено:
$\overline{\theta}_n \to^P \theta$ при $n \to \infty$
Сходимость по вероятности это: $\forall \varepsilon > 0 \space P (|\overline{\theta}_n — \theta| > \varepsilon) \to 0, при \space n \to \infty» src=«https://habrastorage.org/getpro/habr/formulas/8/8f/8f5/8f59b062bd18e99bea296f5b7e397039.svg» /> 3) асимптотически нормальной, если для <img alt=$ выполняется: $\sqrt{n} (\overline{\theta}_n - \theta) \to_{n \to \infty} \eta \sim N(0, \sigma^2(\theta))$
где $\sigma^2(\theta)$ — асимптотическая дисперсия.

Методы построения точечных оценок

Метод моментов.
Оценка параметров через равенство теоретических и эмпирических моментов.
На нём я останавливаться не буду, скажу лишь, что для этого метода нам нужны априорные знания о моментах случайных величин до порядка k, где k — это количество параметров истинного распределения.

Метод максимального правдоподобия.
Он в каком-то смысле более мощный. Здесь, в отличие от метода моментов, никакой догадки, априорных знаний нам не нужно.

По жизни распределения (с которыми обычно работаем) бывают двух типов: дискретные и абсолютно непрерывные. Поэтому введём в функцию, которую можно назвать плотностью для обоих типов распределения:
$f(x;\theta):=$
1) $P_\theta(\xi=x) \space if \space дискретное$
2) $p_\xi(x; \theta), \space if \space абс \space непрерыв$

И введём функция правдоподобия:
$L(x_1, ..., x_n, \theta)= \Pi_{i=1}^nf(x_i,\theta)$
Смысл функции такой: мы перемножаем либо вероятности (в дискретном случае), либо плотности (в абс. непрерывном), с условиями $\xi_i = x_i$ . То есть, это либо вероятность того, что $\xi_1=x_1$ и так далее до $\xi_n=x_n$ , либо совместная плотность для $p_{\xi_1}(x_1, \theta)$ и так далее до $p_{\xi_n}(x_n, \theta)$ .

В двух словах о методе.
Можно сказать, что эта совместная вероятность (функция правдоподобия) показывает следующее. Чем больше значение этой функции, тем больше вероятность того, что именно такая случ величина $\xi_i$ принимает такое значение x_i и так далее, при выбранных параметрах. И следовательно, тем правдоподобнее эти параметры, то есть тем вероятнее, что именно с этим параметром и задана функция распределения, которую используют высшие силы для описания нашей случайной величины.

Из абзаца выше следует, что нам нужна точка $\overline{\theta}_n$ максимума .
Находить максимум удобнее через экстремумы функции, то есть через приравненную к нулю производную функции. Но дифференцировать L тяжело, поэтому лучше взять логарифм от L. Точка максимума будет одна и та же, так как логарифм монотонная функция.
Следовательно, решив уравнение:

$\frac{\partial LnL}{\partial\theta} = 0$

мы найдём экстремум, а значит и нужную нам оценку $\overline{\theta}_n$ .

Эмпирическая функция распределения

Оценка функции распределения по данным выборки. Эмпирическая функция распределения имеет вид:

$\overline{F}_n(x) = \frac{1}{n} \sum_{i=1}^n I_{\{\xi_i \leq x\}}$

Данная функция является несмещенной и состоятельной оценкой истинной функции распределения для каждого . Но проблема в том, что мы смотрим только на точечные оценки функции распределения. А теорема ниже утверждает, что эта оценка также хорошо апроксимирует функцию распределения на всей прямой сразу.

Теорема Гливенко-Кантелли:
Если мы возьмём вероятность того, что супремум по всем x из R модуля разности оценки функции распределения и истинной функции распределения при $n \to \infty$ стремится к нулю, то это вероятность будет равна 1.

$P(sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)| \to_{n \to \infty} 0) = 1$

То есть теорема утверждает, что для почти любой выборки, которая может породиться в рамках эксперимента, не просто разность между оценкой и истинным распределением близка к нулю, а даже супремум этой разности на все прямой стремиться к нулю при увеличении выборки.

Проверка статистических гипотез

Поиск доказательства или опровержения предварительных предположений о распределении данных или о параметрах распределения.
Основные виды ошибок: ошибка 1-го рода (отказ от нашей гипотезы, хотя она верна) и ошибка 2-го рода (принятия нашей гипотезы, хотя она ложна). Ошибка 2-го рода самая страшная.

Допустим наша гипотеза в том, что выборочная функция распределения совпадает с известной нам функцией распределения, например с нормальной N(0,1) .
Как построить оценку функции распределения мы поняли, а так же убедились, что наша э.ф.р. апроксимирует истинную функцию распределения. (в пункте про эмпирическую функцию распределения).

А как узнать совпадает ли э.ф.р. с предполагаемой нами функцией распределения с такими-то вот параметрами? И с какой вероятностью мы можем ошибаться?
Отвечает Александр Друзь Андрей Колмогоров.

Критерий, названный в честь Колмогорова помогает ответить на эти вопросы. Существуют и другие критерии для работы с различными гипотезами, но мы рассмотрим для примера колмогоровский критерий.

Но сначала про теорему Колмогорова. Она утверждает, что выражение:
$\sqrt{n}D_n = \sqrt{n} \space sup_{x \in R}|\overline{F}_n(x, \xi_1, ..., \xi_n) - F_{\xi_i}(x)|$
можно привести к распределению, которое называется (сюрприз) Колмогоровским.

Связь теоремы Колмогорова и теоремы Гливенко-Кантелли можно сравнить со связью центральной предельной теоремы и закона больших чисел, формулы которых следующие:

$\frac{\xi_1 + ... + \xi_n - na}{n} \to 0$ — ЗБЧ
$\frac{\xi_1 + ... + \xi_n - na} {\sqrt{n}\sigma} \to^d N(0, 1)$ — ЦПТ

Как выражение из закона больших чисел можно преобразовать в случайную величину со стандартным нормальным распределением, так и преобразованное выражение из теоремы Гливенко-Кантелли подобным образом сходится по распределению к распределению Колмогорова.

Итак, суть теоремы:
$D_n(\xi_i,...,\xi_n) = sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)| \to_{n \to \infty} 0$
— это выражение из теор. Г-К обозначим как D_n

И при условии, что $F_{\xi_i}(x)$ — непрерывно (это важно) выполняется:
$\sqrt{n}D_n \to_{n \to \infty}^d \eta$
где $\eta$ — случайная величина с тем самым колмогоровским распределением:
$F_\eta(y) = K(y)$ =
1) $\space 0 \space при \space y \leq 0$
2) $\space \Sigma_{i=-\infty}^\infty(-1)^i e^{-2i^2y^2} \space при \space y > 0» src=«https://habrastorage.org/getpro/habr/upload_files/002/950/94a/00295094a60bf1a94688ca8a85b78e80.svg» /> Зачем нам вообще это надо, зачем приводить выражение <img alt=$ к случайной величине с колмогоровским распределением?
Сначала стоит вспомнить для чего мы здесь, что мы хотим от нашей выборки элементов.
А хотим мы понять как распределены эти числа, если вообще как-то распределены, по какому закону высшие силы спускают нам эти значения.
И связка теорем Гливенко-Кантелли и Колмогорова один из способов это сделать. Он называется критерием колмогорова.

Критерий колмогорова используется для проверки гипотез на согласованность выборки с какой-то известной функцией распределения.
Делается это так. Мы можем предположить, что в выражении $D_n = sup_{x \in R} |\overline{F}_n(x, \xi_1,...,\xi_n) - F_{\xi_i}(x)|$ истинная функция распределения $F_{\xi_i}(x)$ — это например ф.р. стандартного нормального распределения N(0,1) . И преобразуем его так:
$\sqrt{n}D_n = \sqrt{n}*sup_{x \in R}|\overline{F}_n(x, \xi_1, ..., \xi_n) - F_{\xi_i}(x)|$
Тогда логично предположить, что чем больше $\sqrt{n}D_n$ тем меньше наша э.ф.р. похожа на нормальную ф.р.

Но в математике любят, когда всё формализовано, поэтому отойдём чуть-чуть в сторону и введём понятие критического множества. Это такое множество $\Omega \subset R^n$ , что если $(x_1,...,x_n) \in \Omega$ (выборка в него попадает), то отвергаем гипотезу.

Вернёмся к $\sqrt{n}D_n$ . Мы ввели критическое множество, чтобы формализовать проверку насколько наше значение велико, то есть какой порог должно переступить значение $\sqrt{n}D_n$ , чтобы считать, что оно слишком большое, то есть наша э.ф.р. слишком не похожа на гипотетическую ф.р…

Тогда критическое множество можно записать так:
$\Omega_C = \{(x_1,...,x_n): \space \sqrt{n}D_n(x_1,...,x_n) > c \}» src=«https://habrastorage.org/getpro/habr/formulas/8/85/856/85610069e5c85bc36546afc325620087.svg» /> Получается от <img alt=$ зависит порог принятия решения (когда отвергаем гипотезу). И в зависимости от того как мы выберем эту константу будет зависеть вероятность ошибки 1-го рода (отвергаем нашу гипотезу, хотя она верна).
Распишем это:
$P_0((\xi_1,...,\xi_n) \in \Omega) \sim P(\eta > c)» src=«https://habrastorage.org/getpro/habr/formulas/5/52/527/527b972821a6bd140b5998adc550892b.svg» />, что равно <img alt=$
Эта точка:
$c_{1-\alpha}: \space K(c_{1-\alpha}) = 1 - \alpha$
будет $1 - \alpha$ квантиль колмогоровского распределения.
И если мы так выбираем c, то $\Omega$ переименуем в:
$\Omega_{\alpha} = \{(x_1,...,x_n): \space \sqrt{n}D_n(x_1,...,x_n) > c_{1-\alpha} \}» src=«https://habrastorage.org/getpro/habr/formulas/4/4f/4f7/4f7049f5e5a7766641615f11dec442be.svg» /> И эта точка <img alt=$ — критическая точка для $\alpha$ или же квантиль для $1 - \alpha$ .

Вывод.
Гипотеза тем разумнее (сильнее), чем выше для неё значение порога $\alpha$ .
То есть чем больше $\alpha$ , тем меньше $c_{1-\alpha}$ . Чем меньше $c_{1-\alpha}$ , тем больше критическое множество $\Omega_{\alpha}$ . Чем больше крит. множество $\Omega_{\alpha}$ и при этом наша гипотеза не отвергается, тем сильнее эта гипотеза.

И пару слов про p-value.
Часто при принятии решения по гипотезе сравниваются не критические точки ( $\sqrt{n}D_n$ и $c_{1-\alpha}$ ), а p-value и $\alpha$ .
Но по сути это то же самое, то есть как $c_{1-\alpha}$ является критической точкой для $\alpha$ , так и $\sqrt{n}D_n$ является критической точкой для p-value.
Соответственно, если $\sqrt{n}D_n > c_{1-\alpha}» src=«https://habrastorage.org/getpro/habr/formulas/7/71/710/710e308ea4de9f49c1d6b8f160fcf0af.svg» />, то <img alt=$

По такой же логике выбора уровня значимости $\alpha$ , критического множества $\Omega_{\alpha}$ и проверке гипотез работают и другие критерии, связанные как с проверкой выборок, так и с проверкой параметров выборок.