Финансовые данные: об измерении автокорреляции, тяжелых хвостах и других статистиках (Vol 1)

*Be aware: впереди математика. **Первая часть дискуссии о распределениях финансовых данных, подводных камнях при работе с ними и возможных решениях при оценке сопутствующих статистик.

Данная статья представляет собой первую (из трех) часть дискуссии о распределении финансовых данных и работе с ними. В этой части мы подробно обсудим с математической точки зрения некоторые подводные камни, возникающие при работе с финансовыми данными, а также (не-)применимость классических статистических методов при работе с ними. Во второй части статьи мы поговорим о возможных решениях трудностей, описанных в данной части. Наконец, в третьей части мы представим возможные реализации подхода, описанного во второй части, на языке Python, а также поговорим о примерах и применениях описанной методологии.

Короткое введение

Предположим, вы работаете с финансовыми данными; чаще всего (когда говорят о работе с финансовыми данными) — это доходности некоторого актива. Воспользуемся классическим определением доходности актива R_tв момент времени t:

R_t = \frac{P_t - P_{t-1}}{P_{t-1}},

где P_t— цена актива момент времени t. В качестве актива может выступать золото, нефть, Bitcoin и др.

(1) Данные об изменении цены Bitcoin (2) Доходности , вычисленные по данным об изменении цены (3) Распределение доходностей

(1) Данные P_tоб изменении цены Bitcoin (2) Доходности R_t, вычисленные по данным об изменении цены (3) Распределение доходностей

Интересно, какими свойствами обладает временной ряд R_t? В литературе эмпирические свойства, характерные для доходностей финансовых активовR_tобычно называют ситилизованными фактами и выделяют следующие ключевые из них:

  1. [Гипотеза эффективного рынка] Отсутствие линейных зависимостей и автокорреляций: \text{Corr}(R_t, R_{t-h}) \approx 0;

  2. [Нелинейные зависимости] Присутствие нелинейных зависимостей и кластеризация волатильности, которая обычно описывается высокой корреляцией нелинейных функций R_t: \text{Corr}(R^2_t, R^2_{t-h}) \gg 0;

  3. [Тяжелохвостность] Тяжелые хвосты распределения: \mathbb{P}(R_t > x) \sim \ell (x) z^{-\zeta},» src=«https://habrastorage.org/getpro/habr/upload_files/dbd/72c/0ea/dbd72c0ea57c2d63b06280337b1b417f.svg» /> где <img alt=— слабо меняющаяся на бесконечности функция, а \zeta— хвостовой индекс.

Задача. Допустим, вы получаете выборку \{R_{t_i}\}^N_{i=1}доходностей некотрого актива за промежуток времни [t_{i_1}, t_{i_N}]. По этим данным вы хотите оценить, насколько эффективен рынок на данном временном интервале, а также «измерить» кластеризацию волатильности.

Если вы будете использовать классический подход, то вы, скорее всего, захотите вычислить выборочную корреляцию (для R_tи R^2_t), а затем, используя нормальность предельного распределения, построить статистическую оценку / протестировать гипотезу / построить доверительный интервал.

Однако надежен ли такой подход в условиях распределения с тяжелыми хвостами? В этой части статьи мы с вами подробно в этом разберемся!

Проблемы классических подходов при работе с «тяжелохвостными» данными

В данной секции мы увидим, что выборочные автоковариация и автокорреляция имеют нестандартные статистические свойства, которые делают классические подходы по выявлению и измерению зависимостей из пунктов 1. и 2. выше ненадежными и плохо применимыми

Проблема моментов распределения доходностей

Рассмотрим свойство 3. доходностей из стилизованных фактов (тяжелохвостность). Удобно считать, что есть некоторая нижняя граница x_m, начиная с которой выполняется степенной закон, тогда распределение R_t описывается законом Парето. Напомним, что распределения Парето имеют следующие функции распределения и плотности:

F_X(x) = \begin{cases} 1 - \left( \frac{x_m}{x} \right)^{\zeta}, \quad x \ge x_m \\         0, \qquad \qquad \; \; \; x < x_m     \end{cases},     \quad      f_X(x) =      \begin{cases}         \frac{\zeta x_m^{\zeta}}{x^{\zeta + 1}}, \quad x \ge x_m \\ 0, \quad \; \: \: \,    \; x < x_m     \end{cases}.

В таком случае моменты R_t задаются следующими равенствами:

\mathbb{E}(R^n_t) =      \begin{cases}         \infty, \quad \;\; \zeta \le n, \\         \frac{\zeta x_m^{n}}{\zeta - n}, \;\:\:\, \zeta > n \end{cases}» src=«https://habrastorage.org/getpro/habr/upload_files/82e/dcf/1b6/82edcf1b6ae7132dce52a6ad53b55a77.svg» /></p>

<p>Отсюда сразу же следует, что <img alt= определена только при \zeta > 2» src=«https://habrastorage.org/getpro/habr/upload_files/4de/cf0/f39/4decf0f39d57c743a3427040245f1e20.svg» />, а <img alt= определена при \zeta > 4» src=«https://habrastorage.org/getpro/habr/upload_files/a74/0b4/714/a740b4714feb660fece2c41d9f866d96.svg» />. Эмпирические исследования же показывают, что для большинства развитых рынков <img alt=, в то время как для развивающихся рынков \zeta < 2.

Вывод 1: Тяжелые хвосты распределения доходностей делают классические статистики ненадежными, поскольку многие моменты (а иногда даже и первый) не определены в данном случае.

Проблема сходимости выборочных автокорреляций

В работе Davis and Mikosh 1998 получены результаты о сходимости функций выборочных автоковариаций и автокорреляций для \zeta-правильно меняющихся случайных процессов. В данной секции мы рассмотрим несколько случаев сходимости выборочных автоковариаций и автокорреляций для процессаR_t(который, согласно третьему из стилизованных фактов, описывается уравнением \mathbb{P}(R_t > x) \sim \ell (x) z^{-\zeta}» src=«https://habrastorage.org/getpro/habr/upload_files/6e0/315/232/6e03152321c5c7d4c1a5ce808dacc1a8.svg» />) в зависимости от хвостового индекса <img alt=.

Прежде чем перейти непосредственно к описанию сходимостей, определим выборочные функции автоковариации и автокорреляции:

Определение: Для стационарного процесса X_tвыборочной функцией автоковариации называется функция:

\gamma_{n, X}(h) = \frac{1}{n} \sum^{n-h}{t = 1} X_t X{t + h}, \quad h \ge 0;

Определение: Для стационарного процесса X_tвыборочной функцией автокорреляции называется функция:

\rho_{n, X}(h) = \frac{\gamma_{n, X}(h)}{\gamma_{n, X}(0)}, \quad h \ge 1.

Рассмотрим сходимости данных функций для различных \zeta:

  1. \mathbf{\zeta \in (0, 2)}. Тогда имеют место следующие сходимости:

    \left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}

    \left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ \frac{V_h}{V_0} \right]{m=1,\dots,m}

    и случайный вектор \left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m) является \zeta/2-устойчивым.

  2. \mathbf{\zeta \in (2, 4)}. Тогда имеют место следующие сходимости:

    \left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}

    \left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ V_h \right]{m=1,\dots,m}

    и случайный вектор \left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m) является \zeta/2 устойчивым.

  3. \mathbf{\zeta \in (4, \infty)}. Тогда имеют место следующие сходимости:

    \left[ \sqrt{n} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ G_h \right]{m=1,\dots,m}

    \left[ \sqrt{n} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ G_h \right]{m=1,\dots,m}

    и случайный вектор \left[ G_h \right]_{m=1,\dots,m} = (G_1, \dots, G_m) имеет многомерное нормальное распределение.

Из соотношений выше видно, что предельное распределение выборочных автоковариаций имеет форму нормального только при \zeta > 4» src=«https://habrastorage.org/getpro/habr/upload_files/7c0/855/6aa/7c08556aaeb0cd9f60fae4d129756e8a.svg» />. При <img alt= же предельное распределение устойчиво с параметром \alpha < 2 (в первом случае с \alpha < 1), это же в свою очередь означает (по свойству устойчивых распределений), что у предельного распределения не определен второй момент (а значит и дисперсия), а в первом случае не определен даже первый момент. Это расширяет границы доверительного интервала. Также важно отметить, что в 1 и 2 случаях скорость сходимости существенно медленнее, чем \sqrt{n}.

Вывод 2: Выборочные автоковариации и автокорреляции не всегда сходятся к нормальному распределению, а также скорость сходимости часто (в зависимости от хвостового индекса \zeta) медленнее \sqrt{n}.

В первой части дискуссии мы убедились, что классические подходы оценки статистик распределения доходностей часто неприменимы из-за наличия тяжелых хвостов распределения. Этот факт наталкивает на дальнейшие размышления о поиске замены классического подхода на более устойчивый и эффективный. Такой подход существует и мы поговорим о нем в следующей части статьи. Во многом дальнейшая дискуссия будет опираться на результаты, полученные в работе Ibragimov et al. 2021.

Спасибо за прочтение!

© Habrahabr.ru