[Перевод] Байесовская иерархическая модель для прогнозирования футбольных результатов

0. Предисловие

Разбираем статью итальянских коллег 2014 г. Gianluca Baio & Marta Blangiardo «Bayesian hierarchical model for the prediction of football results».

Проблема моделирования футбольных данных становится все более популярной в последние несколько лет, и было предложено множество различных моделей с целью оценки характеристик, которые приводят команду к поражению или победе, или для прогнозирования счета конкретного матча. Рассмотрим байесовскую иерархическую модель для прогнозирования обоих таргетов и проверки ее прогнозирующей способности на основе данных о чемпионате Италии Серии А 1991–1992 годов. Чтобы преодолеть проблему чрезмерного усреднения, вызванную байесовской иерархической моделью, мы используем более сложную модель, которая лучше соответствует наблюдаемым данным. Мы тестируем ее эффективность на примере чемпионата Италии Серии А 2007–2008 годов.

Что можно взять из этой статьи:

  • Иерархический Байес по качеству сопоставим с двумерным Пуассоном соответственно можно выбрать с чем удобнее и понятнее работать.

  • Учет корреляции распределений внутри одного матча дает небольшой прирост точности.

  • При расчете распределений учет соотношений рейтингов команд тоже улучшает точность прогноза. Авторы используют три различных механизма генерации: один для команд-лидеров, один для команд, занимающих средние позиции, и один для команд, занимающих нижние позиции.

1. Введение

Статистическое моделирование спортивных данных — популярная тема, и с этой целью было проведено много исследований, в том числе в отношении футбола. Со статистической точки зрения эта задача является стимулирующей, поскольку поднимает ряд интересных вопросов. Один из таких вопросов связан с формой распределения, связанной с количеством голов, забитых двумя соперниками в одной игре.

Хотя биномиальное распределение или отрицательное биномиальное распределение были предложены ещё в конце 1970-х годов, распределение Пуассона получило широкое признание в качестве подходящей модели для этих величин; в частности, часто используется упрощающее допущение о независимости голов, забитых хозяевами поля и командой гостей. Например, в [J.M. Bernardo and A. Smith, Bayesian Theory, John Wiley and Sons, New York, NY, 1999.] использовалась модель с двумя независимыми пуассоновскими переменными, где соответствующие параметры строились как произведение силы в атаке у одной команды и слабости в обороне у другой.

Несмотря на это, некоторые авторы показали эмпирические, хотя и относительно низкие уровни корреляции между этими двумя величинами. Было предложено использование более сложных моделей, которые применили поправочный коэффициент к независимой модели Пуассона для улучшения производительности с точки зрения прогнозирования. D. Karlis and I. Ntzoufras выступали за использование двумерного распределения Пуассона, которое имеет более сложную формулировку для функции правдоподобия и включает дополнительный параметр, явно учитывающий ковариацию между голами, забитыми двумя конкурирующими командами. Они определяют модель в частотной структуре, и их основной целью является оценка эффектов, используемых для объяснения количества забитых голов.

Другие подходы например, используют довольно разные способы моделирования футбольных данных, где в центре внимания оценки находится разница в забитых голах двумя командами, а не фактический результат игры, или/и используют байесовскую сетевую модель для прогнозирования исхода матча.

В этой статье мы предлагаем байесовскую иерархическую модель для определения количества голов, забитых двумя командами в каждом матче. Иерархические модели широко используются во многих различных областях, поскольку они являются естественным способом учета взаимосвязей между переменными, предполагая общее распределение соответствующих параметров, которые, как считается, лежат в основе интересующих результатов.

В рамках байесовской модели, которая естественным образом поддерживает иерархические модели, использование более сложной двумерной структуры не является существенным для обеспечения корреляции. Фактически, предполагая наличие двух условно независимых переменных Пуассона для количества забитых голов, учитывается корреляция, поскольку наблюдаемые переменные смешиваются на верхнем уровне. Более того, предсказание новой игры в рамках модели естественным образом учитывается с помощью апостериорного прогнозирующего распределения.

Эта работа структурирована следующим образом: во-первых, в разделе 2 описывается модель и используемые данные; в разделе 3 описываются результаты с точки зрения оценки параметров, а также прогнозирования нового результата. В разделе 4 рассматривается проблема чрезмерной «усадки» и предлагается возможное решение с использованием смешанной модели. Наконец, в разделе 5 представлены некоторые проблемы и возможные дополнения, которые могут послужить материалом для будущей работы.

2. Модель

Чтобы провести прямое сравнение, мы сначала рассмотрим итальянскую серию А за сезон 1991–1992 годов. Лига состоит в общей сложности из T = 18 команд, которые играют друг с другом дважды за сезон (один раз дома и один раз в гостях). Мы указываем количество голов, забитых хозяевами поля и командой гостей в игре сезона (g = 1,...,G = 306), как y_{g1} и y_{g2} соответственно.

Элементы вектора наблюдаемых значений y = (y_{g1}, y_{g2}) моделируются как независимые пуассоновские:

y_{gj}|\theta_{gj} \sim Poisson(\theta_{gj})

условно по параметрам \theta = (\theta_{g1}, \theta_{g2}), которые представляют интенсивность подсчета очков в g-й игре для команды, играющей дома (j = 1) и в гостях (j = 2), соответственно.

Мы моделируем эти параметры в соответствии с формулировкой, которая широко используется в статистической литературе, предполагая логарифмически-линейную модель случайного эффекта:

\log \theta_{g1} = home + att_{h(g)} + def_{a(g)}, \\ \log \theta_{g2} = att_{a(g)} + def_{h(g)}.

Логарифмические нормальные модели Пуассона обсуждались и широко использовались в литературе.

Параметр home отражает преимущество команды, принимающей игру дома, и мы предполагаем, что этот эффект постоянен для всех команд на протяжении всего сезона. Кроме того, интенсивность подсчета очков определяется совместно способностью двух участвующих команд атаковать и защищаться, представленной параметрами att и def соответственно. Вложенные индексы h(g), a(g) = 1,...,T определяют команду, которая играет дома (в гостях) в g-й игре сезона.

Структура данных для модели представлена в таблице 1 и состоит из названия и кода команд, а также количества голов, забитых в каждой игре сезона.

Таблица 1. Данные для Серии А (1991-1992)

Таблица 1. Данные для Серии А (1991–1992)

Как можно видеть, индексы h (g) и a (g) однозначно связаны с одной из 18 команд. Например, в таблице 1 «Сампдория» всегда ассоциируется с индексом 16, независимо от того, играет ли она в гостях, как у а (4), или дома, как у h (303).

В соответствии с байесовским подходом, мы должны указать некоторые подходящие предварительные распределения для всех случайных параметров в нашей модели. Переменная home моделируется как фиксированный эффект, предполагающий стандартное минимально информативное нормальное предварительное распределение (обратите внимание, что здесь мы используем типичные обозначения для описания нормального распределения в терминах среднего значения и отклонения).:

home \sim Normal(0, 0.0001)

И наоборот, для каждого t = 1,...,T эффекты, характерные для конкретной команды, моделируются как взаимозаменяемые из общего распределения:

att_t \sim Normal(\mu_{att}, \tau_{att}),\ \ def_t \sim Normal(\mu_{def}, \tau_{def}).

Как предлагается в различных работах, нам необходимо наложить некоторые ограничения на идентифицируемость параметров, относящихся к конкретной команде. Мы используем ограничение «сумма равна нулю»:

\sum_{t=1}^T att_t = 0, \ \ \sum_{t=1}^T def_t = 0.

Мы оцениваем качество модели, используя диапазон командно-специфичных переменных, начинается с 0, например, att_1 := 0 и def_1 := 0. С ростом значений влияние этих коэффициентов увеличивается по отношению к статичной линии. Эффекты атаки и защиты моделируются независимо друг от друга с использованием минимально информативных нормальных распределений для параметров и гамма-распределений для отклонений:

Графическое представление модели показано на рисунке 1.

Рисунок 1. Направленный ациклический граф (DAG) - представление иерархической модели.

Рисунок 1. Направленный ациклический граф (DAG) — представление иерархической модели.

Врожденная иерархическая природа подразумевает определенную форму корреляции между наблюдаемыми переменными y_{g1} и y_{g2} посредством ненаблюдаемых гиперпараметров \eta = (\mu_{att}, \mu_{def}, \tau_{att}, \tau_{def}). Фактически, компоненты \eta представляют собой скрытую структуру, которая, как мы предполагаем, является общей для всех игр, сыгранных в сезоне, и которая определяет средний показатель результативности. Каждая игра вносит свой вклад в оценку этих параметров, которые, в свою очередь, порождают основные эффекты, объясняющие изменения параметров \theta, следовательно, подразумевающие определенную форму корреляции с наблюдаемыми значениями y.

3. Результаты

Согласно байесовскому подходу, цель нашего моделирования двоякая: во-первых, мы хотим оценить значение основных эффектов, которые мы использовали для объяснения результатов. Эта задача решается путем ввода данных, полученных в результате наблюдений (вектор y), и обновления априорных распределений с помощью теоремы Байеса с использованием метода Монте-Карло, основанной на цепях Маркова.

В таблице 2 приведены некоторые сводные статистические данные для апостериорных распределений коэффициентов для логарифмической линейной модели, описывающей интенсивность подсчета очков.

Таблица 2. Оценка основных эффектов для логарифмической линейной модели.

Таблица 2. Оценка основных эффектов для логарифмической линейной модели.

Аналогично результатам, полученным в других работах, домашний эффект является положительным (апостериорное среднее и 95% CI составляют 0,2124 и [0,1056; 0,3213] соответственно). «Милан», победитель чемпионата в том году, имел, безусловно, самую высокую вероятность забить (о чем свидетельствует среднее значение коэффициента att, равное 0,5226). Три лучших клуба («Милан», «Ювентус» и «Торино») показали лучшие результаты в плане обороны, у них лучшее значение параметра def, в то время как «Асколи» (который фактически вылетел из турнира), «Фоджа» и «Верона» продемонстрировали наибольшую склонность к пропущенным голам.

Вторая — и, вероятно, более интересная — цель модели — это предсказание. Мы можем использовать результаты, полученные в подразумеваемых апостериорных распределениях для вектора θ, чтобы предсказать будущее появление подобной (взаимозаменяемой) игры. После того, как была достигнута сходимость, мы получили векторный y^{pred} из 1000 повторений на основе апостериорного прогнозирующего распределения y, которое мы использовали для прямой проверки модели.

На рисунке 2 показано сравнение между совокупными баллами, полученными на основе результатов наблюдений в течение сезона (черная линия), и оценками, полученными как с помощью апостериорных прогнозов нашей модели (синяя линия), так и с помощью двумерной модели Пуассона (красная линия). (см. Analysis of sports data by using bivariate Poisson models).

Рисунок 2. Последующая проверка модели прогнозирования в сравнении с результатами Karlis and Ntzoufras (2003). Данные приведены для итальянской Серии А 1991-1992 годов. Для каждой команды темной линией обозначены наблюдаемые суммарные очки за сезон, в то время как синяя и красная линии представляют собой прогнозы для байесовской иерархической модели и двумерной модели Пуассона.

Рисунок 2. Последующая проверка модели прогнозирования в сравнении с результатами Karlis and Ntzoufras (2003). Данные приведены для итальянской Серии А 1991–1992 годов. Для каждой команды темной линией обозначены наблюдаемые суммарные очки за сезон, в то время как синяя и красная линии представляют собой прогнозы для байесовской иерархической модели и двумерной модели Пуассона.

Как можно заметить, для большинства команд («Аталанта», «Фоджа», «Дженоа», «Интер», «Ювентус», «Милан», «Наполи», «Парма», «Рома», «Сампдория», «Торино» и «Верона») байесовская иерархическая модель, по-видимому, лучше соответствует наблюдаемым результатам. Для нескольких команд красная линия ближе к черной («Кальяри», «Кремонезе» и, незначительно, «Лацио»), в то время как для «Асколи», «Бари» и «Фиорентины» обе оценки одинаково плохие (байесовская иерархическая модель, как правило, завышает конечный результат, а двумерная пуассоновская — занижает его). В целом, похоже, что байесовская иерархическая модель работает лучше, чем двумерная пуассоновская, с точки зрения адаптации к наблюдаемой динамике в течение сезона.

4. Уменьшение переобучения, вызванное применением иерархичной структуры.

Одним из возможных хорошо известных недостатков байесовских иерархических моделей является явление усреднение, при котором некоторые экстремальные явления, как правило, приближаются к среднему значению наблюдений. При применении иерархической модели для прогнозирования футбольных результатов это может быть особенно актуально, поскольку предположительно несколько команд будут показывать очень хорошие результаты (и, следовательно, бороться за итоговый титул или высшие позиции), в то время как у некоторых других команд будут очень плохие результаты (борьба за вылет).

Модель, описанная в разделе 2, предполагает, что все склонности к атаке и защите определяются общим процессом, характеризуемым общим вектором гиперпараметров (\mu_{att}, \tau_{att}, \mu_{def}, \tau_{def}); очевидно, что этого может быть недостаточно, чтобы отразить наличие различий в качестве в командах, что приводит к чрезмерному сокращению, в результате чего: (а) наказываются исключительно хорошие команды и (б) переоцениваются результаты слабых команд.

Один из возможных способов избежать этой проблемы — ввести более сложную структуру параметров модели, чтобы обеспечить три различных механизма генерации: один для команд-лидеров, один для команд, занимающих средние позиции, и один для команд, занимающих нижние позиции. Кроме того, усреднение может быть ограничено путем моделирования параметров атаки и защиты с использованием нецентрального распределения t (nct) при ν = 4 степенях свободы вместо нормали из раздела 2.

Следовательно, модель для наблюдаемых переменных и предварительная спецификация для \theta_{gj} и для гиперпараметра home остаются неизменными, в то время как другие гиперпараметры моделируются следующим образом. Сначала мы определяем для каждой команды t две латентные (ненаблюдаемые) переменные grp^{att}(t) и grp^{def}(t), которые принимают значения 1, 2 или 3, определяющие результаты в нижней, средней или верхней части турнирной таблицы с точки зрения атаки (защиты). Им даны подходящие категориальные распределения, каждое из которых зависит от вектора предшествующих вероятностей \pi^{att} = (\pi^{att}_{1t} , \pi^{att}_{2t}, \pi^{att}_{3t} ) и \pi^{def} = (\pi^{def}_{1t} , \pi^{def}_{2t}, \pi^{def}_{3t} ). Мы указываем минимально информативные модели как для \pi^{att}, так и для \pi^{def} в терминах распределения Дирихле с параметрами (1, 1, 1), но, очевидно, можно включить (возможно, субъективную) предварительную информацию о векторах \pi^{att} и \pi^{def} чтобы представить предварительную вероятность того, что каждая команда попадет в одну из трех категорий. Затем эффекты атаки и защиты моделируются для каждой команды t следующим образом:

att_t \sim nct(\mu_{grp(t)}^{att}, \tau_{grp(t)}^{att}, \nu), \ \ def_t \sim nct(\mu_{grp(t)}^{def}, \tau_{grp(t)}^{def}, \nu).

Поскольку значения grp^{att}(t) и grp^{def}(t) неизвестны, эта формулировка, по сути, сводится к определению смешанной модели эффектов атаки и защиты:

att_t = \sum_{k=1}^3 \pi^{att}_{kt} \times nct(\mu_{k}^{att}, \tau_{k}^{att}, \nu), \ \ def_t = \sum_{k=1}^3 \pi^{def}_{kt} \times nct(\mu_{k)}^{def}, \tau_{k}^{def}, \nu).

Расположение и масштаб распределений nct (как было предложено, мы используем \nu = 4) зависят от вероятности того, что каждая команда действительно относится к любой из трех категорий grp^{att}(t) и grp^{def}(t). Модель для определения местоположения и масштабных параметров распределений nct приведена ниже. Если у команды плохие результаты, то она, скорее всего, будет демонстрировать низкую (отрицательную) склонность забивать голы и высокую (положительную) склонность пропускать голы. Это может быть представлено с помощью подходящих усеченных нормальных распределений, таких как

\mu_1^{att} \sim trunc \ Normal(0., .001, -3.0 , 0.), \\ \mu_1^{def} \sim trunc \ Normal(0., .001, 0. , 3.)

Для топ-команд мы можем представить симметричную ситуацию, то есть

\mu_3^{att} \sim trunc \ Normal(0., .001, 0. , 3.), \\ \mu_1^{def} \sim trunc \ Normal(0., .001, -3. , 0.)

Наконец, для среднестатистических команд мы предполагаем, что среднее значение эффекта атаки и защиты имеет независимые дисперсионные нормальные распределения

\mu_2^{att} \sim Normal(0, \tau_2^{att}) \ \ \mu_2^{def} \sim Normal(0, \tau_2^{def})

(т.е. в среднем эффекты атаки и защиты равны 0, но могут принимать как отрицательные, так и положительные значения).

Для всех групп k = 1, 2, 3 точность моделирования определяется с использованием независимых минимально информативных гамма-распределений:

\tau_k^{att} \sim Gamma(.01, \ .01),  \ \tau_k^{def} \sim Gamma(.01, \ .01)

4.1 Результаты для итальянской Серии A сезон 2007–2008.

Для тестирования модели, описанной выше, мы использовали итальянскую серию А 2007–2008 годов. Следует отметить несколько существенных отличий этого сезона от сезона, описанного в разделе 2. Во-первых, начиная с сезона 1994–1995 годов, в Серии А победа стоит 3 очка (вместо всего лишь 2). Более того, в сезоне 2003–2004 годов количество команд в лиге было увеличено до 20 (и, следовательно, общее количество сыгранных игр теперь составляет G = 360). Эти два фактора, вероятно, увеличат разрыв между командами высшего и низшего звена и, следовательно, опровергнут предположение о том, что эффекты атаки (защиты) определяются общим распределением. Фактически, при использовании базовой модели раздела 2 для данных за 2007–2008 годы было получено значительное усреднение, в частности для «Интера» и «Ромы» (две лучшие команды). Эти клубы выступили очень хорошо, набрав более 80 очков в итоговой таблице, в то время как оценочные баллы составили всего 69 и 67 соответственно (см. таблицу 3).

Таблица 3. Апостериорная прогностическая проверка модели. Наблюдаемая и оценочная таблица рейтингов (2007/2008).

Таблица 3. Апостериорная прогностическая проверка модели. Наблюдаемая и оценочная таблица рейтингов (2007/2008).

Аналогичным образом, было предсказано, что команды, занявшие последнее место в таблице, наберут значительно больше очков, чем ожидалось. На рисунке 3 показано (среднее) соотношение атаки и защиты для каждой из 20 команд, используя модель из раздела 4.

Рисунок 3. Средний эффект атаки против защиты

Рисунок 3. Средний эффект атаки против защиты

Расположение команд на плоскости хорошо соответствует наблюдаемым значениям забитых и пропущенных мячей (которые, очевидно, являются основой для расчета эффектов атаки и защиты) — напомним, что хорошие команды ассоциируются с негативными эффектами защиты. Как можно заметить, на графике можно выделить несколько групп команд. Во-первых, «Интер» имеет наименьшее значение в плане эффективности обороны (в соответствии с тем фактом, что количество пропущенных мячей на сегодняшний день минимально); «Рома», «Ювентус» и «Милан» хорошо играют в обороне (хотя и не так хорошо, как «Интер»), все в схожей манере, демонстрируя при этом очень хорошую атаку. «Фиорентина» и «Сампдория» — лучшие команды «середины турнирной таблицы» (они немного лучше играют в обороне и атаке соответственно по сравнению с остальными командами). У «Эмполи» (который фактически вылетел в конце кампании) были самые низкие показатели в плане атаки. У «Пармы» и «Ливорно» самые высокие показатели в защите (т.е. худшие показатели в игре). На рисунке 4 показан предварительный прогноз на весь сезон. Как можно видеть, для многих команд динамика вполне соответствует наблюдаемым результатам (см., например, «Аталанту», «Дженоа», «Ювентус», «Милан», «Наполи», «Палермо» и «Сампдорию»).

Рисунок 4. Последующая проверка модели смешивания: черная линия представляет наблюдаемые суммарные очки за сезон, в то время как синяя линия представляет прогнозы для байесовской иерархической модели смешивания.

Рисунок 4. Последующая проверка модели смешивания: черная линия представляет наблюдаемые суммарные очки за сезон, в то время как синяя линия представляет прогнозы для байесовской иерархической модели смешивания.

«Экстремальные» наблюдения подвержены некоторому сокращению (но в гораздо меньшей степени, по сравнению с результатами стандартной модели). В частности, в то время как оценка команд, лидирующих в турнирной таблице (в частности, «Интера» и «Ромы»), относительно соответствует наблюдаемым результатам, показатели «Пармы», «Ливорно» и, возможно, «Реджины» несколько завышены. В таблице 3 представлена предполагаемая итоговая таблица в сравнении с фактически наблюдаемой. Как можно видеть, несмотря на некоторые различия в общем количестве набранных очков (особенно у экстремальных команд), оценки количества забитых и пропущенных мячей в целом во многом соответствуют наблюдаемым результатам. Распределение домашнего эффекта характеризуется средним и 95%-ным достоверным интервалом в 0,3578 и [0,2748; 0,4413] соответственно.

Наконец, на рисунке 5 показана апостериорная вероятность того, что каждая команда попадет в одну из трех групп (нижнюю, среднюю и верхнюю в таблице) соответственно для: (а) атаки и (б) защиты. Опять же, учитывая итоговое положение, показанное в таблице 3, результаты кажутся разумными.

Рисунок 5. Апостериорная вероятность того, что каждая команда принадлежит к одной из трех групп.

Рисунок 5. Апостериорная вероятность того, что каждая команда принадлежит к одной из трех групп.

5. Обсуждение

Модель, представленная в этой статье, представляет собой простое приложение байесовского иерархического моделирования. Базовая структура, представленная в разделе 2, может быть легко реализована и запущена с использованием стандартных алгоритмов MCMС. Производительность этой модели не уступает той, что используется в статье Analysis of sports data by using bivariate Poisson models, которая основана на двумерной пуассоновской структуре и требует специального алгоритма. Более того, иерархическую модель можно легко расширить, включив в нее смешанную структуру, учитывающую тот факт, что команды демонстрируют разную «склонность» забивать и пропускать голы, что проявляется в эффектах атаки и защиты. В этом случае модель становится более сложной и трудоемкой, но ее все еще можно приспособить к стандартным алгоритмам MCMC. Был проведен анализ чувствительности при выборе произвольных значений отсечения ±3 для усеченных нормальных распределений, используемых в смешанных моделях. Когда были выбраны большие значения, модель не смогла распределить команды по трем компонентам, поскольку почти все они были отнесены ко второй категории. Интуитивно это объясняется тем фактом, что когда усеченные нормальные распределения имеют большую поддержку, их плотность слишком мала по сравнению с центральным компонентом. С другой стороны, когда отсечка слишком мала, плотность экстремальных компонентов слишком высока, и, следовательно, ни одна из команд не попадает во вторую категорию. Альтернативным, более сложным подходом было бы динамическое прогнозирование новых событий в играх. Одной из возможностей было бы определить гиперпараметры \eta как зависящие от «времени», чтобы учесть периоды изменения силы команд (включая травмы, дисквалификации и т.д.). Более того, предварительная информация может быть включена в модель на различных уровнях, возможно, в виде экспертного заключения о силе каждой команды.

© Habrahabr.ru