Яндекс.Метеум – технология без технологии. Маркетинг с точностью до района01.11.2018 23:32

Прошло ровно 3 года с момента запуска сервиса «Яндекс.Метеум», который по заявлению разработчиков выдаёт самые качественные прогнозы среди всех прогностических сайтов. Пришло время подвести итоги. Действительно ли новый продукт Яндекса является революционным или всё это лишь маркетинговый пшик? И как команде ученых из Гидрометцентра России удалось обойти Яндекс и создать по-настоящему качественный прогноз.

Для начала представлюсь. Меня зовут Илья Винштейн, я синоптик-любитель из Кургана. Занимаюсь метеорологией 14 лет. Администрирую свой региональный проект «Погода 45», давал несколько лекций для научно-просветительского проекта «Курилка Гутенберга».
Метеум. Начало

Проблему качества прогнозов сервиса «Яндекс. Метеум» я обозначил ещё в начале 2016 года, но на тот момент я располагал очень маленьким объёмом данных, чтобы делать однозначные выводы. Главным образом я раскритиковал ту информационную кампанию, которую запустил Яндекс. Если в самом начале они использовали слоган «Прогноз с точностью до дома», то потом изменили его на «Прогноз с точностью до района».

В какой медиаформе происходило рождение Метеума? Было множество публикаций в СМИ, несколько публикаций на Хабре, потом пошли короткие научпоп ролики, объясняющие создание первого прогностического сервиса на базе нейросети. Создание Метеума пришлось на тот период, когда нейросети были очень популярны, а СМИ преподносили их как панацею, способную решить множество проблем человечества.

На волне общего нейроажиотажа в Яндексе приняли решение обновить свой основной метеораздел. Обычное обновление дизайна и добавление новых функций — не вариант, а ведь главная цель обновления — это привлечение новой аудитории от конкурентов. Единственным способом было изменение парадигмы восприятия сервиса. Не просто погодный раздел, а абсолютно новый сервис, способный прогнозировать погоду лучше всех остальных конкурентов. Не просто «Яндекс. Погода», а «Яндекс. Метеум» — система, способная выдавать прогноз с точностью до дома или района.

Проблема заключается в том, что конечный продукт сложен в плане оценки и получения обратной связи. Кто будет проверять качество прогнозов? Как будет происходит оценка фидбэка от пользователей? В нашем случае качество конечного продукта потребитель оценить не в состоянии, поэтому ему «впарить», можно всё что угодно. На эту уловку клюют юзеры всех прогностических сайтов.

Поэтому вся информационная кампанию по запуску Метеума смахивает на антинаучный фарс. За все 3 года Яндекс так и не предоставил нам никаких объективных цифр. Ни одного отчёта по оправдываемости мы не увидели.

Все цифры свелись к этому:

«По нашим собственных оценкам (увы, независимых измерителей в этой области пока нет), на сегодня наш прогноз погоды точнее всех известных нам конкурентов. Например, температурный прогноз на 24 часа у нас ошибается на 35% меньше ближайшего конкурента».

Это абсолютная ложь. Объясню почему. Если бы на дворе был 1960-й год, тогда это утверждение было абсолютно справедливым, но сейчас краткосрочные прогнозы уже достигли определенного потолка. Борьба идёт за проценты и даже десятые доли процентов. Например, по данным Гидрометцентра России точность прогноза температуры воздуха по России в 2017 году на сутки составила 93%. Речь идёт о тех прогнозах, которые выдавали синоптики местных гидрометцентров. У прогностических сайтов и компьютерных моделей точность варьируется от 85% до 95%. Никаких 35% тут нет и быть не может!

Как это происходит в мире науки?

Допустим, что Яндексу удалось создать революционный продукт, который действительно обходит всех конкурентов. Познакомьте мир с этой технологией. Пускай команда Яндекса покажет всему миру, что им удалось создать. Почему бы не начать со статьи в каком-нибудь научном журнале? Я понимаю, что может быть не стоит раскрывать всех карт, ведь продукт, по сути, имеет коммерческую составляющую, в этом нет ничего плохого, но только в том случае, если этот продукт действительно работает.

Любая научная методика прогнозирования проходит этап тестирования. Обычно подопытными зайцами выступают архивные данные. В некоторых случаях приходится собирать данные в течение года или нескольких лет, а уже затем публиковать статью. После этого прогноз сопоставляется с фактическими сводками метеостанции. Прогностические поля соотносятся с фактическими. Высчитывается масса параметров: средняя арифметическая ошибка температуры, средняя абсолютная ошибка температуры, относительная ошибка и оправдываемость в процентах. Затем на основе результатов оперативных испытаний специальная методическая комиссия принимает решение — рекомендовать использование данного метода прогноза или отказать.

А теперь вопрос к разработчикам Яндекса. Где эти данные? Где эти статьи и исследования? «У нас самые точные прогнозы, верьте нам», — заявляют в Яндексе. Нечего показывать. Нечем хвастаться.

Цифры у нас есть, но мы их вам не покажем. У вас документов нет.

Ансамблевые и мультимодельные прогнозы

В последнее время среди синоптиков большую популярность завоевали ансамблевые, мультимодельные и комплексные прогнозы. Что это значит? Для начала немного теории. Главным источником всех прогнозов являются компьютерные модели. Программы, которые моделируют всю атмосферу Земли начиная от почвы и заканчивая верхними слоями стратосферы. Главной пищей для моделей являются спутниковые данные во всех видимых и невидимых спектральных диапазонах. Данные наземных станций сейчас уже не имеют столь сильного влияния на качество прогноза. Если исключить из моделей слой метеостанций, то качество упадёт на 7%, а если исключить спутниковые данные, то на 35–40%. В мире насчитывается 11 глобальных моделей и ещё десяток региональных.

Компьютерные модели очень, очень сложны! Не каждое государство способно создать собственную качественную модель. Например, отечественная модель ПЛАВ занимает 8 позицию в рейтинге мировых моделей. Она существует, но практически нигде не используется.

По этой причине большинство сайтов и приложений используют всего 2–3 модели. Всё остальное, это вопрос внутренней обработки и интерпретации данных. Например, сейчас самой лучшей моделью является Европейская модель среднесрочного прогнозирования погоды (ECMWF). Эту модель использует Foreca, intellicast и Gismeteo. НО! Как я уже сказал, обработка прогнозов сводится к внутренним паттернам, которые занимаются «шлифовкой» сырых файлов модели. Gismeteo делает это хуже всех, а Intelicast — лучше. Дальше будут цифры подтверждающие это.

Ладно, с этим разобрались. Один прогон компьютерной модели — это в чистом виде детерминированный прогноз по принципу «как есть». Главной проблемой детерминированных прогнозов — являются ошибки в начальных данных, которые приводят к эффекту бабочки. Мельчайшие начальные возмущения приводят к огромным ошибкам в среднесрочной перспективе. Чтобы решить эту проблему учёные разработали ансамблевые прогнозы. Представьте себе обычный детерминированный прогноз. В этот прогноз с помощью генератора псевдослучайных чисел вносится искусственная ошибка.

Ансамблевый прогноз. Американская модель GFS. 20 членов.

И так делается ещё 20 или 50 раз. Затем выстраивается график, где видно, насколько прогноз чувствителен к ошибкам в начальных данных. Если детерминированный прогноз выдаёт потепление через 10 дней, а 20 ансамблевых членов уходят вниз, то есть выдают похолодание, значит, детерминированный прогноз на этот срок ошибочен.

Но учёные пошли ещё дальше. Они стали синхронизировать детерминированные прогнозы и создавать мультимодельные прогнозы, когда прогноз строится не на основе одной модели, а сразу десятка.

Мультимодельный прогноз для Москвы на сайте meteoblue. 11 моделей

Например, 7 моделей выдают осадки через 5 дней, а 3 прогнозируют сухую погоду. Следовательно, вероятность осадков составляет 70%. Вкупе рекомендуется смотреть ещё и ансамблевый прогноз.

А сейчас мы подобрались к самой сути. Как Гидрометцентру удалось обойти Яндекс?

Комплексный прогноз

В 2014 году руководитель отдела гидродинамических краткосрочных прогнозов Гидрометцентра России и заслуженный метеоролог Алексей Багров вместе со своей командой разработал простую, но принципиально новую статистическую схему обработки сырых прогностических данных. Она была опубликована в журнале «Метеорология и гидрология» в статье под названием «Комплексный прогноз приземных метеорологических величин».

Суть методики проста, но в этом её превосходство. Комплексный прогноз получен путём статистической обработки результатов включенных моделей. При этом для температуры воздуха, ветра и точки росы привлекается архив прогнозов за предшествующие 20 дней по соответствующим моделям и фактические данные на станции, а для осадков аналогичный архив за один год. Расчёт ведется отдельно для каждой станции и для каждой заблаговременности прогноза.

Если ещё проще, то Багров предлагает выполнять статистическую корректировку прогнозов лучших моделей на основе фактических данных местной метеостанции. Детально методика описана в самой статье. Здесь я остановлюсь на некоторых основных моментах. Расчёт максимальной и минимальной температуры выполняется с учетом погрешности за последние 5 или 3 суток. Например, за последние 5 суток наши модели занижали температуру в среднем на 2 градуса, поэтому нам надо включить эту погрешность в последний прогноз и стабилизировать прогноз до наиболее вероятного значения. Таким образом, прогноз сам себя автоматически корректирует, опираясь на предыдущие отклонения в сторону завышения или занижения.

4 года прогноз находился в стадии тестирования. В сентябре 2018 года результаты тестов были опубликованы в журнале «Russian Meteorology and Hydrology». Кратко результаты исследования анонсированы здесь. Отмечу, что все 4 года прогноз публиковался на сайте методического кабинета Гидрометцентра России. Он рассчитывался для 224 городов России. Каждый месяц публиковался отчёт оправдываемости. Они продолжают выходить и по сей день.

Скромно и тихо — создали лучший прогноз

В Гидрометцентре России сделали то, что не мог сделать никто другой. Они автоматически собирали прогнозы 7 различных прогностических сайтов и анализировали их точность. Ниже представлены данные за 1,5 года — с января 2016 по июнь 2017 года для Москвы, Санкт-Петербурга и Якутска.

Средняя абсолютная ошибка прогнозов минимальной (а) и максимальной (б) температуры по городам: Москва, Санкт-Петербург, Якутск за период 1 января 2016 г. — 30 июня 2017 г. Прогнозы сайтов: 1 — Meteoinfo.ru; 2 — Gismeteo.ru; 3 — Fobos (meteovesti.ru); 4 — Rp5.ru; 5 — Yandex.ru; 6 — Intellicast.com; 7 — Комплексный прогноз Багрова.

Подобрались к самой сути. Из данных видно, что на первые сутки по дневной температуре Яндекс обходит сразу 3 ресурса: meteoinfo, intellicast и комплексный прогноз Багрова. Последний показывает самую низкую погрешность на 1–2 сутки. На 3–4 сутки лидирует Intellicast и комплексный прогноз. Яндекс только на 3 позиции.

Обратите внимание, что самый популярный в Рунете Gismeteo не такой уж и точный. На первые сутки его средняя погрешность 2 градуса — это очень много. Антилидером рейтинга является сайт meteovesti.ru

Не стоит думать, что свежих данных больше нет. Ещё в начале 2018 года на сайте методического кабинета Гидрометцентра России появился раздел «Оценка прогнозов на различных интернет-сайтах». В разделе публикуются данные по 47 городам как по отдельности, так и вместе.

Многие могут сказать, что это устаревшие данные, но уже есть свежий отчёт оправдываемости за октябрь. Изучим его. Возьмём выборку из 27 городов для ЕТР.

Прогноз дневной температуры у Яндекса на одни сутки сопоставим в точностью intellicast и комплексным прогнозом. На последующие 2–5 сутки intellicast слегка обходит Яндекс. С прогнозом ночной температуры у Метеума всё несколько хуже. На первые сутки его обходит 3 сайта: meteoinfo, intellicast и комплексный прогноз. На последующие сутки тенденция сохраняется. На 6 сутки Яндекс обгоняет intellicast и meteoinfo.

Для азиатской территории распределение примерно схожее. Практически во всех случаях Яндекс обходит тройка meteoinfo, intellicast и комплекс. Многие заметили, что неплохую точность выдаёт официальный сайт Гидрометцентра meteoinfo. Да, это так. Сейчас на сайте применяется самостоятельная статистическая схема обработки модельных данных под названием РЭП (расчёт элементов погоды). Эта схема неплоха, но несколько хуже, чем комплексный прогноз. Зимой она плохо прогнозирует ночное выхолаживание. Обращаю внимание, что все эти схемы обработки данных были придуманы задолго до создания пропиаренного Яндекс. Метеума.

Проблемы вывода и отображения

Недостаточно создать качественный прогноз, необходимо ещё научиться его адекватно отображать для обывателей. Когда пользователь заходит на погодный сайт, он первым делом смотрит прогноз на 10 суток, получая общую картину изменения температуры. Но если копнуть глубже, посмотрев ход температуры, то откроется множество нюансов. Например, на сайте указано, что днём будет +15 градусов, но потом вы открываете график хода температуры и понимаете, что эти +15 будут ночью, а днём температура будет ниже! Такая ситуация называется обратным ходом температуры, когда ночью теплее, чем днём. Проблема вывода максимальной и минимальной температуры здесь заключается в том, что значение min и max захватываются со всего временного ряда, не разделяя день и ночь. С точки зрения обывателя — это обман. Этим грешат все сайты. Максимальная температура обычно фиксируется с 08 до 20 часов, в зависимости от времени года, синоптической ситуации и координат метеостанции. Минимальная отмечается с 20 до 08 часов, опять же, в зависимости от сезона и синоптической ситуации. Это называется метеорологические сутки. Например, главная метеостанция Москвы на ВДНХ отправляет максимальную температуру в 21 час, а минимальную в 9 часов.
Ниже я привёл ситуации нетипичного температурного хода, когда важно захватывать максимальную и минимальную температуру не со всего временного ряда, а в строго установленные промежутки. Если условия не выполняются, то пользователь будет обманут, даже несмотря на качественный прогноз.

Другая проблема заключается в том, что пару лет назад Яндекс стал выдавать климатические данные за долгосрочный прогноз, что не совсем правильно. В Яндексе решили использовать сырые файлы компьютерного реанализа CFSR (NCEP) за последние 7 лет, создавая малую климатическую выборку. Сейчас они перешли на период осреднения 10 лет, что не меняет ситуацию. Также на сайте появился параметр «Вероятность осадков», который аналогичным образом вычислялся за последние 10 лет на основе компьютерного реанализа, но здесь есть серьезная проблема. Компьютерный реанализ очень плохо моделирует конвективные ливневые осадки и слабые снегопады зимой, поэтому Яндекс мог выдавать 0% вероятность, а по данным метеостанции она была 50%, только лишь по той причине, что на метеостанции есть осадкомер, который фиксирует реальные осадки, а не виртуальные. Поэтому правильнее усреднять данные по метеостанции, а не по компьютерному реанализу. Я написал в Яндекс и получил ответ: «Мы добавили его (прим. совет) в список предложений наших пользователей. Наши специалисты всегда знакомятся с этими идеями, когда готовят какие-либо изменения на сервисе, и стараются, по возможности, учитывать их». Спустя 6 месяцев ничего не изменилось.

Также я предложил Яндексу вместо осреднения данных за 10 лет использовать прогнозы долгосрочной климатической модели CFSv2. Она обновляется 4 раза в сутки и считает прогноз на 9 месяцев вперёд. Разумеется, речь о получении среднедекадных или среднемесячных данных. Зато это реальный прогноз, а не исторические сведения. Например, сейчас модель выдаёт, что ноябрь на Европейской части России будет тёплым и сухим.

Особенно забавно было наблюдать за тем, как Яндекс эпично выкатывал прогностические карты, хотя на тот момент уже существовали earth.nullschool.net, windytv.com и ventusky.com. Эти сервисы предоставляют в разы больше информации по различным моделям. В Яндексе написали, что главное отличие от них в том, что у них выше точность. Ну-ну.

Проблема ночного выхолаживания

Сейчас в синоптической метеорологии по-прежнему остро стоит вопрос с прогнозированием ночной температуры в условиях антициклонального выхолаживания воздуха. В чём проблема? Проблема в том, что компьютерные модели практически всегда в такой синоптической ситуации завышают температуру. Например, в Кургане по большинству прогнозов ночью температура опустится до -30 градусов: будет ясно, давление повысится, над областью пройдёт ядро антициклона. Идеальные условия для выхолаживания. Но по факту минимальная может опуститься до -35…-37 градусов! Когда Яндекс запустил Метеум, я думал, что наконец-то удастся решить эту проблему. Но уже, которую зиму Яндекс продолжает завышать ночную температуру в условиях выхолаживания. На данный момент в мире есть лишь 2 модели, способные адекватно высчитывать эту температуру. Первая — канадская модель GEM. Вторая — североамериканская NAEFS. В остальных синоптических ситуациях эти модели не показывают ничего выдающегося, поэтому моя задача как синоптика заключается в том, чтобы в нужный момент включить эти модели в прогноз, а потом в нужный момент исключить их из прогноза. Ещё с выхолаживанием справляется комплексный прогноз Багрова, как раз за счёт статистической корректировки на основе местной метеостанции.

Вывод

Полученные данные позволяют достаточно уверенно сказать, что температурный прогноз Яндекса по технологии «Метеум» не показывает каких-то исключительных результатов по сравнению с уже зарекомендовавшими себя прогностическими сервисами. Напротив, Яндекс уступает по качеству таким ресурсам как intellicast, meteoinfo и комплексный прогноз Багрова, публикуемый на сайте методического кабинета Гидрометцентра России. Худшими метеосервисами можно назвать Gismeteo и meteovesti.ru

Есть наука, а есть маркетинг. У одного цель — это достижение результата, в нашем случае высокой точности. В другом — цель это выгода и получение мнимого и раздутого достижения не несущего никакой практической значимости для обывателей. Да, Гидрометцентр, это государственная организация, которая не обладает такими рекламными бюджетами и возможностями, как у Яндекса, но главное, что там ещё остались люди, способные создавать не деньги, а науку.