Тест Уилкоксона: золотая середина для практиков
В практике обработки результатов наблюдений распределение генеральной совокупности неизвестно либо (для непрерывных случайных величин) отличается от нормального распределения, так что применение классических статистических методов необоснованно и может привести к ошибкам. В этом случае применяют методы, не зависящие (или свободные) от распределения генеральной совокупности — непараметрические методы.
В статье с единой точки зрения обсуждаются три часто встречающихся на практике одновыборочных теста: тест знаков, t-тест и тест Уилкоксона (Signed-Rank Wilcoxon test) — непараметрической процедуры, мощность которой сравнима с мощностью t-теста в случае нормально распределенной выборки, и превышает мощность t-теста в случае, если распределение выборки имеет «более тяжелые хвосты» по сравнению с нормальным распределением.
1. Определим модель для параметра положения (location model) следующим образом. Пусть — обозначает случайную выборку, полученную по следующему закону
где предполагается, что случайные ошибки — это независимые и одинаково распределенные случайные величины с непрерывной плотностью распределения
, симметричной относительно нуля.
2. При условии симметрии любой параметр положения , включая среднее и медиану, равен
. Рассмотрим гипотезу
где для
0\}.» src=«https://habrastorage.org/getpro/habr/upload_files/880/4ff/783/8804ff783552092215bdc2e01fb0be74.svg» />
Тогда . Здесь предполагается, что ни одно из значений
не равно нулю (на практике, равные нулю значения из выборки исключают, а объем выборки
корректируют). При условии
, статистика
имеет биномиальное распределение с числом испытаний
и вероятностью успеха
. Пусть
— наблюдаемая величина
тогда p-value для теста знаков равно
, где
— функция биномиального распределения с параметрами
и
(R функция
pbinom возвращает значения cdf для биномиального распределения).
Заметим, что в тесте знаков распределение статистики при нулевой гипотезе
не зависит (свободно) от вида распределения
.
3.2. Следующий традиционный t-тест (t-test) основан на сумме наблюдений. По аналогии можно записать
Заметим, что распределение статистики зависит от плотности распределения
. Обычно t-тест записывают в форме t-отношения
где и
соответственно, выборочное среднее и стандартное отклонение. Если выборка получена из нормального распределения, то статистика
имеет t-распределение Стьюдента с
степенью свободы. Пусть
наблюдаемое по выборке значение
. Тогда p-value для t-теста равно
, где
— функция t-распределения Стьюдента c
степенью свободы (R функция
pt возвращает значения cdf для t-распределения). Это точное значение p-value в случае нормального распределения, в противном случае это аппроксимация.
3.3. Отличие t-теста от теста знаков состоит в том, что статистика t-теста является функцией расстояний элементов выборки относительно нуля в дополнение к их знакам.
Выбранная нами статистика теста Уилкоксона (signed-rank Wilcoxon test) хороша тем, что использует лишь ранги этих расстояний. Обозначим ранг
среди всех
, упорядоченных от меньшего значения к большему. Тогда статистика Уилкоксона имеет вид
В противоположность статистике t-теста, статистика , также как и рассмотренная ранее статистика
при условии нулевой гипотезы
не зависит от вида
.
Распределение статистики не может быть выведено в виде законченной формулы и при ее расчете используется итерационный алгоритм. Обычно, наряду со статистикой
, составляют сумму рангов положительных элементов выборки
, то есть
psignrank возвращает значения cdf распределения 4. Техника построения доверительных интервалов широко используется при решении практических задач. Каждый из рассмотренных выше тестов: тест знаков, t-тест и тест Уилкоксона имеет соответствующую оценку и доверительный интервал для параметра положения . Рассмотрим далее имеющиеся результаты.
4.1. Оценкой параметра положения , связанной с тестом знаков является выборочная медиана
Для соответствующий доверительный интервал для
с доверительной вероятностью
задается в виде
, где
—
-ая порядковая статистика выборки,
–
квантиль биномиального распределения с параметрами
и
. Этот доверительный интервал не зависит от вида распределения ошибок
. Отметим, что из-за дискретности биномиального распределения для каждого значения
существует ограниченный набор значений
.
4.2. Оценкой параметра положения , связанной с t-тестом является выборочное среднее
. Классический доверительный интервал в этом случае имеет вид
, где
—
квантиль t-распределения Стьюдента с
степенью свободы. Данный доверительный интервал зависит от вида распределения ошибок
.
4.3. Оценкой параметра положения , связанной с тестом Уилкоксона является оценка Ходжеса-Лемана (Hodges-Lehmann)
Парные средние ,
называются средними Уолша (Walsh averages) выборки. Пусть
упорядоченный набор средних Уолша. Тогда
доверительный интервал для
имеет вид
, где
—
квантиль signed-rank Wilcoxon распределения. Этот доверительный интервал не зависит от вида распределения ошибок
при условии их симметрии относительно нуля. Отметим, что размах значений
— множество
имеет порядок
. Поэтому, для умеренных по размеру выборок, тест Уилкоксона менее зависим от дискретного характера распределения статистики критерия, то есть выбранный уровень значимости
в этом случае ближе к найденному.
5. В качестве практического примера рассмотрим данные об объеме продаж (в штуках) для восьми товарных позиций в двух магазинах A и B за неделю. Ответим на вопрос, в каком магазине спрос на товары выше?
Составим выборку, каждый элемент которой представляет собой разницу в продажах соответствующей товарной позиции в магазинах A и B. Пусть характеризует центральное значение выборки. Следующая R сессия показывает результат применения теста Уилкоксона и t-теста для проверки правосторонней гипотезы
> Store_A <- c(82, 69, 73, 43, 58, 56, 76, 65)
> Store_B <- c(63, 42, 74, 37, 51, 43, 80, 62)
> response <- Store_A - Store_B
> wilcox.test(response, alternative = "greater", conf.int = TRUE)
Wilcoxon signed rank exact test
data: response
V = 32, p-value = 0.02734
alternative hypothesis: true location is greater than 0
95 percent confidence interval:
1 Inf
sample estimates:
(pseudo)median
7.75
> t.test(response, alternative = "greater", conf.int = TRUE)
One Sample t-test
data: response
t = 2.3791, df = 7, p-value = 0.02447
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
1.781971 Inf
sample estimates:
mean of x
8.75
Тест Уилкоксона wilcox.test() возвращает статистику , p-value теста, оценку Ходжеса-Лемана для
и
доверительный интервал для
. Т-тест
t.test() имеет аналогичный синтаксис и результаты. Как видно, обе процедуры отвергают нулевую гипотезу на уровне , то есть можно сказать, что спрос на продукцию в магазине A выше.
Подведем итог, из трёх рассмотренных в статье тестов для практического применения рекомендуется тест Уилкоксона. Он требует минимум предположений о характере распределения генеральной совокупности, сравним по мощности с t-тестом в случае нормального распределения и превышает мощность t-теста в случае симметричного непрерывного распределения с «более тяжелыми хвостами» по сравнению с нормальным распределением.
