Ежики на колесах: как мы поддерживаем качество связи в Москве
Весной-летом 2017 года Роскомнадзор протестировал мобильных операторов и опубликовал результаты на качествосвязи.рф. В итоге по успешным голосовым соединениям и скорости мобильного интернета лучшим оказался МегаФон. При этом тестирование интернета проводилось терминалами Cat.4 (до 150 Мбит/с), а в начале августа мы первыми в России запустили Gigabit LTE (до 1 Гбит/с). Так что при тестировании устройствами Cat.6 и быстрее разрыв с конкурентами мог бы быть еще больше. В этом посте мы расскажем, как добиваемся таких результатов.
Хорошие показатели МегаФона — результат комплексной работы всех подразделений технического блока. Свой вклад вносят инженеры, отвечающие за строительство, планирование и оптимизацию сети, системы эксплуатации, мониторинга аварийности и контроля качества работы сети.
Основа грамотной системы эксплуатации и контроля качества — это мониторинг сети. Первый центр управления и мониторинга (ЦУМ) сети МегаФон был развернут в 2006 году на Вятской улице в Москве.
В мае 2015 года МегаФон, следуя мировым трендам, вывел мониторинг в единый центр управления сетью (ЕЦУС, он же GNOC — Global Network Operational Center), расположенный на двух площадках — в Самаре и Петербурге. Преимущество двух площадок в том, что при возникновении каких-то проблем в одном из ЦУС второй может оперативно подхватить его задачи.
Инженеры центра круглосуточно мониторят сетевые элементы всех подсистем и при необходимости инициируют оперативное устранение проблем, задействуя нужные профильные подразделения. К примеру, если выходит из строя базовая станция (БС), инженеры ЕЦУС оповещают об этом локальную команду инженеров, которые выезжают на БС и устраняют проблему. Про ЕЦУС и его особенности можно рассказывать интересно и много — это предмет для отдельного поста. Здесь мы сосредоточимся на описании принципов и подходов работы с качеством сети МегаФон.
«Вкалывают роботы, а не человек», или автоматическая система Self-Optimization Network (SON)
Для мониторинга бесчисленных элементов и параметров современной мобильной сети мы используем систему SON (Self-Optimization Network). В режиме 24/7 она автоматически собирает параметры оборудования, использует сетевую статистику и трейсы, поступающие от каждого элемента сети. На основе этих данных SON выполняет три основные функции:
- Оперативно реагирует на происходящие в сети изменения, например, на резкие всплески нагрузки. К примеру, если на БС внезапно возрастает количество абонентов, SON может изменить параметры соты либо углы наклона антенн, чтобы оптимизировать зону покрытия этой БС, перераспределив тем самым нагрузку на соседние БС.
- Поддерживает корректность настроек и взаимосвязей между БС. SON постоянно сверяет настройки сети, а также оптимизирует соседства (взаимосвязи) между БС. Это необходимо чтобы абоненты могли делать «хендовер» — без прерывания сервиса переходить между сотами на одной БС или соседними БС. SON добавляет потенциально полезные (по своей оценке) соседства, проверяет, как работают существующие и удаляет неиспользуемые.
- Автоматизирует рутинные задачи оптимизации сети. Поскольку мобильные сети сейчас имеют очень сложную структуру — три технологии (2G/3G/4G) на одной БС с несколькими диапазонами в каждой технологии (LTE-800/1800/2600 и т.д) — количество соседств только на одной БС составляет около тысячи. Чтобы охватить этот объем, не хватит штата инженеров ни одной компании. SON снимает эту нагрузку с инженеров, которым остается только контролировать работу системы. Таким образом человеческих ресурсы освобождаются для более сложных и творческих задач, например, внедрения новых технологий.
В среднем, система выполняет от 200 до 400 тысяч корректирующих операций в день. По нашим оценкам, это снижает нагрузку на инженеров на 40–60%.
Система SON имеет модульную структуру, в которой каждый модуль отвечает за выполнение определенного набора функций. Примеры базовых модулей:
- ANR (Automatic Neighbour Relations) — отвечает за правильную работу «хендовера». ANR анализирует статистику работы сети, добавляет новые либо изменяет существующие «соседства» между БС на наиболее оптимальные в каждой конкретной ситуации, поддерживает корректность их настроек
- SH (Self-Healing) — вступает в работу в случае аварийных ситуаций в сети. Например, если вышла из строя БС, модуль распознает проблему и закрывает «дырку» в покрытии, расширяя зону покрытия соседних БС за счет изменения электронных углов наклона антенн или увеличения их мощности.
- DLB (Dinamic Load Balancing) — реагирует на всплески нагрузки сети, перераспределяя ее между соседними базовыми станциями, оптимизируя зону покрытия с помощью изменения параметров соты или углов наклона ее антенн.
Чтобы механизмы SON работали эффективно, их логику необходимо регулярно адаптировать под изменчивые условия работы сети. В МегаФоне поддержкой данного направления занимается специальная команда инженеров. Их задача — постоянно расширять функциональные возможности SON за счет разработки и ввода в действие новых модулей и автоматических алгоритмов управления софтверными параметрами радиоподсистемы.
Отдел технического контроля
Возможности SON не безграничны, и в сложных ситуациях для устранения проблем требуется вмешательство человека. Для этого в МегаФоне существует отдел технического контроля (ОТК), который подключается, когда ЕЦУС не может определить причину деградации качества на оборудовании. Сюда стекается вся статистика, накапливаемая по работе сети. Используя широкий набор сетевых KPI собственной разработки и накопленный опыт, мы выявляем закономерности в ухудшениях на различных узлах, находим их причину и устраняем проблему.
В этом нам помогает ряд инструментов:
- Дэшборды по различным подсистемам с кастомизированными KPI.
- Абонентские трассировки. По ним можно детально проанализировать сигнальный обмен телефона с сетью и выявить причину проблемы абонента.
- Измерения штатных и crowd-source систем.
- Бенчмаркинг для сравнения с другими операторами — сервисы Speedtеst для скорости передачи данных и Vigo для качества видео.
- Система SQM, позволяющая использовать новейший подход к Е2Е анализу — не только на базе несетевых метрик, а на уровне конкретного сервиса целиком. Предположим, Вас устраивает общее качество сети, но плохо работает конкретно приложение Facebook. В этом случае система позволит детально посмотреть, на каком этапе возникают проблемы.
Останавливаться на дэшбордах и абонентских трассировках мы не будем, так как в том или ином виде это давно есть практически у каждого оператора сотовой связи. Различия проявляются только в нюансах анализа и отработки проблем. А вот об остальном расскажем подробнее.
Crowd-source данные: приложение «Моя сеть»
Приложение «Моя сеть», разработанное компанией Metricell и кастомизированное специально для МегаФона, позволяет собирать информацию о качестве связи у абонента и передавать ее техническим специалистам МегаФона для анализа. Приложение доступно для всех в Play Market. «Моя сеть» может работать в двух режимах — в пассивном и активном.
В пассивном режиме основная информация о покрытии сети (уровень сигнала, качество соединения и т.п.) и сбоях автоматически собирается и отправляется на сервера МегаФон. Там она аккумулируется и в дальнейшем используется во многих активностях: от планирования сети до маркетинговых акций. В активном режиме пользователь самостоятельно проверяет качество связи и в случае проблем через простую форму сообщает о них.
«Моя сеть» помогает выявить проблемы с сетью в сложных городских застройках или сельской местности, куда не добрались инженеры с переносными измерительными комплексами и не доехали автомобильные системы для радиоизмерений.
Полевые радиоизмерения
В одной популярной песне есть такие слова: «Потому что на десять девчонок по статистике девять ребят». В ней приводится информация о численном соотношении, но ничего не говорится о том, какие это девчонки и ребята, сколько им лет и где они проживают. Так и в мониторинге: «большие данные» сетевой статистики могут дать много пищи для размышлений, но за глобальными трендами можно легко пропустить частные проблемы. Большинство инструментов контроля качества опираются на сетевую статистику, которая, по сути, является огромным массивом информации по состоянию сети и работе сервисов. Как любая Big Data, сетевая статистика хорошо показывает тренды и не всегда позволяет выявить частные случаи проблем на сети. Кроме того, если в какой-то зоне совсем нет покрытия мобильной сети, в сетевой статистике также не будет информации об этой проблеме.
В таких случаях для выявления и устранения проблем, а также для реальных замеров сети мы используем полевые радиоизмерения: локальные драйв-тесты с участием инженера и контрольные автоматические с помощью машины с измерительным оборудованием.
Локальные измерения проводятся для конкретных мест, часто на основании жалобы абонента или же когда невозможно использовать автоматические комплексы (проехать на машине). Например, в закрытых дворах, торговых центрах, метро и т.п. А также для тестирования новых сервисов и технологий, их обкатки вживую.
Носимый измерительный комплекс помещается в обычном рюкзаке. Он состоит из сканирующего приемника, нескольких измерительных смартфонов, установленных на специальном шасси, и управляющего устройства. С помощью сканирующего приемника инженер оценивает покрытие сотовой сети, а также просматривает эфир на всех рабочих частотах в конкретном месте. Так, например, можно засечь слабый сигнал от удаленной базовой станции, создающей помеху, или оценить покрытие всех четырех операторов в этой зоне.
Специальная прошивка измерительных смартфонов позволяет управлять их функциями на самом глубоком уровне, вплоть до подключения только к определенному диапазону или базовой станции. В максимальном варианте допускается установка до 8 смартфонов, но, как правило, используется 4–5 устройств — по числу основных тестов. С помощью смартфонов инженер оценивает качество голосовых вызовов (в том числе так называемый MOS (Mean Opinion Score) или, по-простому, разборчивость речи), скорость передачи данных, качество просмотра видео, работу мессенджеров и другие параметры стандартных сервисов.
Полное управление смартфонами осуществляется по Bluetooth, не нужно каждый раз лезть в рюкзак. В качестве контроллера может быть использован смартфон, планшет или ноутбук. Через него инженер запускает прогон того или иного теста на одном или всех смартфонах одновременно, однократно или в циклическом режиме.
Логи всех тестов записываются в память смартфонов для последующего анализа в офисе. При необходимости тесты можно провести и через само управляющее устройство. В процессе радиоизмерений инженер может сам оценить выявленную проблему и попытаться в режиме онлайн устранить ее совместно со специалистами, находящимися в офисе.
Для масштабных контрольных измерений мы используем не инженеров с рюкзаками, а специальные автоматические радиоизмерительные комплексы, установленные на автомобилях.
Водитель такого автомобиля не принимает участия в управлении измерительными комплексами, а отвечает за перемещение по заданному маршруту. Впрочем, наши нынешние водители настолько опытны, что могут при необходимости и сами провернуть простые операции вроде проверки состояния комплекса или перезагрузки системы.
Наличие «ежика» на крыше автомобиля обусловлено большим количеством диапазонов, задействованных в сотовой сети МегаФона.
Как только поворачивается ключ в замке зажигания, комплекс запускается в работу. Он представляет собой стойку с 3–4 блоками, каждый из которых состоит из 4 устройств, эмулирующих смартфоны. Как и при ручном тестировании, количество устройств определяется числом проводимых тестов. На блоках имеются разъемы для подключения внешних антенн.
Все управление комплексом осуществляется удаленно. Инженер прямо из офиса может задать алгоритм его работы или поменять конфигурацию. По своим возможностям такой комплекс мало отличаются от варианта в рюкзаке, однако обладает повышенной надежностью, что позволяет выполнять тестирование хоть круглые сутки, собирая огромный объем данных. Здесь мы также можем проводить измерения покрытия сети, осуществлять голосовые вызовы и тестировать мобильные сервисы передачи данных. Все результаты измерений накапливаются в логи и в режиме онлайн передаются в офис по каналам сотовой связи.
С помощью контрольных радиоизмерений мы регулярно оцениваем и сети других сотовых операторов, сравнивая с нашей. А еще собираем и анализируем специфические настройки, используемые на их оборудовании. Такие бенчмарки позволяют оценить свое качество на фоне других операторов и перенять что-то полезное у конкурентов.
Система SQM (System Quality Management) для контроля качества сети
Развернутая в МегаФоне новейшая система SQM содержит несколько модулей:
- Модуль, используемый на первой линии траблшутинга. Он показывает агрегированную статистику по абоненту и проблемы, которые он испытывал.
- Модуль контроля качества сети на массовых мероприятиях, при скоплениях пользователей.
Ни одно массовое мероприятие в Москве и области не проходит незамеченным для МегаФона.
В соответствии с территорией проведения каждого мероприятия в системе создается локация (группировка сот, обслуживающих мероприятие).
В соответствии с локацией система каждые пять минут выдает инженерам характеристики качества работы сети на мероприятии, влияющие на клиентский опыт. В случае резкого изменения показателей мы тут же локализуем проблемные элементы сети и привлекаем профильные подразделения для оперативного устранения. Этот подход широко использовался во время проведения Кубка Конфедераций.
На массовых мероприятиях инженеры ОТК МегаФона применяют и нестандартные решения. Например, за концертом группы Ленинград сотрудники наблюдали через открытые публичные трансляции в Periscope и Instagram. Это позволяет в режиме онлайн определять качество конечного сервиса в конкретных точках на территории мероприятий и оперативно принимать меры в случае ухудшений.
- Модуль мониторинга и контроля качества по всей сети
Москва и Московская область разбиты на 470 кластеров, по которым осуществляется мониторинг KQI (Key Quality Indicator). При резких ухудшениях качества без видимых аварий на оборудовании настроена автоматическая генерация алармов. Чтобы ничего не пропустить. В случае проблемы список сот с деградацией конкретных KPI и основной ClearCode (причину проблемы) система выдает за 5 минут.
- Модуль анализа проблемных терминалов, некорректно работающих в сети. Благодаря ему специалисты видят, какие модели телефонов используются наиболее активно.
И могут оценить качество их работы.
МегаФон активно использует эти метрики, ведь клиент оценивает качество сети, исходя не только из объективных показателей, но также из показателей работы конкретно его терминала (смартфона). С помощью этих данных мы определяем проблемные устройства и проводим большую работу с их производителями, содействуем им в разработке новых прошивок для телефонов и оборудования. Эта информация также помогает понять, насколько абоненты используют возможности своей сети и оборудования — с учетом ее мы формируем новые предложения. Например, велика доля абонентов, которые могли бы пользоваться технологией VoLTE, но не делают это, потому что их терминал не обновлен до нужной версии прошивки.
Service Quality Management умеет собирать статистику по роумингу в зарубежных сотовых сетях и выстраивать их рейтинг по качественным показателям с выдачей рекомендаций по ручному подключению. Инженер видит данные по терминалам роуминговых абонентов, зарегистрированных в сети МегаФона, и отслеживает основные параметры их работы.
В качестве примера комплексного подхода МегаФона к качеству сети можно привести скоростной поезд «Сапсан», ежедневно курсирующий между двумя столицами. Мы обеспечиваем покрытие LTE по маршруту и при этом изучаем пользовательский опыт в каждом вагоне в любой момент времени. Для этих целей мы установили измерительные устройства Metricell Automobile в каждом вагоне «Сапсана». Они ежесекундно собирают статистику по важным для абонента сервисам и передают данные на сервер для последующего анализа.
Это позволяет находить проблемы в работе оборудования «Сапсана», которые невозможно локализовать из любой другой статистики или данных по авариям.
Инструменты для контроля качества популярных сервисов
По прогнозам, до 75% всего мобильного трафика в перспективе 5 лет будет составлять видеоконтент. Поэтому нам важно оценивать, насколько хорошо сеть позволяет просматривать видеоролики. В этом МегаФону помогает инструментарий Vigo.
Это российский SDK, который встраивается во многие популярные сервисы просмотра видео — Вконтакте, Ivi.ru, Megogo, STS, Дождь и т.п. — и собирает в них основные качественные метрики, такие как задержки, обрывы просмотра, время буферизации, скорость, разрешения видео и др. Кроме того, с помощью Vigo мы можем сравнивать себя с другими операторами по качеству этой услуги.
Ниже на карте показаны примеры данных из Vigo. В зеленых областях наилучшие показатели у МегаФона, в желтых — паритет с другими операторами.
- Показатель обрывов видео:
- Данные по скоростям при просмотре:
Вот так с помощью многочисленных онлайн- и оффлайн-инструментов МегаФон оценивает качество сети. Если по нашему рассказу у вас остались вопросы, оставляйте комментарии, и мы вам ответим.