Как работает Центр оперативного управления мобильной сетью МТС. Ответы на ваши вопросы
Когда мы вместе с Андреем Вячеславовичем стали готовить ответы на ваши вопросы, то поняли, что ответы получаются слишком развернутые — хватит на целый новый пост. Именно поэтому мы решили опубликовать ответы в форме нового поста.
Напомним, что речь в прошлый раз шла о нашем Центре оперативного управления мобильной сетью в Краснодаре, который мы открыли в 2012 году.
Итак, отвечаем на ваши вопросы:
Что делает человек, у которого 12 мониторов?
Человека, который сидит за 12-ю мониторами, конечно же, не занимается он-лайн мониторингом, так как на 12 мониторов смотреть одновременной нельзя. Он занимается экспертными задачами и ищет решение одновременно в нескольких системах. То есть когда есть проблема, она зафиксирована и сдана ему в работу, оператор начинает проверять гипотезы, поочередно заходя в разные системы. Можно, конечно, ему поставить один экран и он будет переключаться между свернутыми окнами, но пока найдешь нужное окно, потеряешь много времени. Гораздо удобнее, когда у тебя 12 экранов.
Операторы первой линии, которые работают в зонтичной системе мониторинга, также имеют несколько мониторов. На один монитор выводятся аварийные сообщения от основных вендеров радиоподсистем, коммутации, VAS-платформ и т.д. Это монитор зонтичной системы фолт мониторинга. Для работы с инцидентами есть второй экран. На третьем мониторе может быть открыта почта.
Сколько инженеров у вас в одной смене?
Сменные инженеры выполняют разные функции. Для примера, на первой линии, которая занимается мониторингом по радиоподсистеме, у нас работают 3 человека в смену. Также у нас есть экспертное звено, которое тоже работает в круглосуточном режиме. Есть смены на коммутационной подсистеме. Несколько смен по типам оборудования на транспортной сети. Есть смены главных оперативных дежурных и так далее. Так что инженеров в каждой смене достаточное количество.
По каким вопросам к вам обращается Роскомнадзор?
Роскомнадзор в основном обращается по вопросам работы сети во время различных ЧС, учений, во время подготовки и проведения больших мероприятий государственной важности (форумы, саммиты и т.д.). Еще одна тема обращений — это открытие межсетевого операторского роуминга. Как это работает: когда сеть одного оператора выходит из строя, оператор имеет право обратиться в Роскомнадзор и попросить, чтобы регулирующий орган обратился к другим операторам с просьбой об открытии роуминга. Для этого у нас отработана соответствующая процедура. Раз в квартал проходят учения. Так что в случае падения сети одного из операторов абоненты ничего не заметят. Они продолжат звонить в своей сети, но на самом деле будут пользоваться, например, нашей сетью.
Вы знаете, как сейчас заливает дождями Дальний Восток. Для того чтобы у жителей пострадавших регионов возникало как можно меньше проблем со связью, по распоряжению Роскомнадзора, открыт роуминг между всеми операторами мобильной связи. С гордостью сообщаю, что на заседаниях штаба по чрезвычайной ситуации отмечают нашу сеть, как наиболее стабильно работающую и принявшую на себя наибольшее количество абонентов других операторов.
Очень интересно было бы услышать про мониторинг сети на появление фейковых БС и вообще подозрительной активности в сети. Какие есть новые разработки в этой сфере у вас?
Я не сталкивался в своей практике с «фейковыми» БС. В сети МТС фейковая БС в принципе не может появиться. Практический смысл появления в сети такой БС, с точки зрения оказания слуг связи абонентам, мне не понятен.
Возможно, потенциальные мошенники могли бы найти применение таким БС, но существуют отдельные подразделения, занимающийся борьбой с фродом.
Кстати, сейчас есть мини-сотовые сети для ЧС. Там и коммутатор, контроллер, базовая станция, плюс телескопическая мачта с антеннами. Все в трех чемоданах. Ты приехал в зону ЧС, где нет сотовой связи, развернул свою сеть и создал свои сим-карты, зарегистрировал группу абонентов. Эти абоненты смогут друг другу звонить. Если ты немножко потрудишься, то можешь сделать выход и во внутренний мир, кинув линию привязки к сетям общего пользования. Но тут как раз понятен смысл такой сети, и легальность ее развертывания обеспечивает государство.
Инцидентов регистрируется порядка 800–900 за 12-часовую смену. Скажите, пожалуйста, сколько из них действительно аварийные ситуации или, возможно, часть отпадает как ошибочное сообщение?
800–900 — это уже реально инциденты. Самая значительная их часть связана с отключением внешнего электропитания на базовой станции. Инциденты первой категории решаются в срок не более 4-х часов. В целом на решение даже самого несущественного инцидента отводится не более 40 рабочих часов.
Какими средствами ведется мониторинг? Вижу заббикс, но, наверное, он там чутка допилен под свои нужды. Почему был выбран именно он, а не nagios\cacti?
Мониторинг основного оборудования ведется с помощью зонтичной системы. Хотя у нас есть некоторое оборудование (в основном на транспорте), которое ни с экономической, ни с технической точки зрения нецелесообразно подключать к «зонтику». Если оно выходит из строя, то это звено легко выявить благодаря мониторингу остального оборудования. Тем не менее, альтернативные системы мониторинга используются и приносят пользу.
Почему выбран именно заббикс? Средства мониторинга, находящиеся в открытом доступе, похожи по функционалу. Кому что нравится. Конкретному инженеру понравился заббикс, он с ним когда-то работал, он его знает. Так что это скорее вопрос вкуса.
Данные сливаются в один ЦОД или в несколько? Если в один, то не боитесь стать «слепыми», если ЦОД с мониторингом уйдет в оффлайн?
У нас Центр управления мобильной сетью, как вы знаете, в Краснодаре. Именно там сидят специалисты, занимающиеся мониторингом. Их рабочие места виртуализированы, т.е. физически сервера с программным обеспечением для мониторинга и инцидент-менеджмента находятся не только не в Краснодаре, но и находятся на двух географически разнесенных площадках. Если операторы по какой-то причине не смогут попасть в свой центр в Краснодаре, то они могут сесть в любое другое помещение и работать через интернет.
У нас на такой случай есть специальная программа DRP (disaster recovery plan). Операторы могут переместиться в любую гостиницу или, в конце концов, остаться дома, загрузить себе виртуальное рабочее место и работать. Мы даже проводили учения: во время ЧС люди едут в соседний регион, садятся в одном из учебных классов нашего филиала и работают — пока не появится возможность вернуться на рабочие места в Краснодаре.
Также у нас есть центр управления в Нижнем Новгороде. Если приостановится работа центра в Краснодаре, то Нижний Новгород частично возьмет на себя мониторинг. Несмотря на то, что специалисты в Нижнем занимаются «фиксой», мы их обучили так, чтобы они умели мониторить основные элементы и крупные аварии на мобильной сети. Кроме того, за основными элементами сети могут смотреть сами регионы — компетенция им это позволяет. Так что в любом случае коммутатор, контроллер и базовые станции будут под контролем. «Слепыми» мы не будем.
Комментарии (1)
12 сентября 2016 в 13:28 (комментарий был изменён)
0↑
↓
Вопрос с ЦОДами не раскрыт. Поспешил.