Как работает Центр оперативного управления мобильной сетью МТС
Привет, уважаемые хабровчане!
Наконец-то у меня дошли руки до собственного блога на Хабре. Я являюсь директором Департамента эксплуатации конвергентных сетей и сервисов МТС.
Хочу поделиться своим опытом с профессиональной и интересующейся публикой. 3,5 года назад мы в МТС первыми в стране открыли Единый Центр оперативного управления мобильной сетью, который расположился в Краснодаре. В ноябре этого года мы официально открыли Единый Центр управления фиксированной сетью в Нижнем Новгороде. Таким образом, мы завершили централизацию мониторинга и управления всеми сетями — мобильной и фиксированной. И это первый в России опыт централизации такого масштаба среди телеком-операторов.
Пару слов о себе. Я закончил факультет «Микроприборов и технической кибернетики» Московского института электронной техники. Моя специальность — радиотехнические устройства, и я с удовольствием работаю в этой сфере уже 27 лет, в том числе почти 21 год — в МТС, где побывал сотрудником аварийно-ремонтной бригады, оператором центра управления и со временем стал руководителем по эксплуатации. На работе приходилось «лазить» с паяльником в приемо-передатчики и компьютеры, программировать на разных языках, подниматься на 70-ти метровые башни связи и управлять большим коллективом, закончив парочку МВА-программ. Но я всегда гордился и горжусь тем, что я инженер-связист, и в любой момент с удовольствием погружаюсь в любые технические детали работы нашей сети.
В первом ознакомительном посте расскажу вам, как мы с помощью наших уникальных центров контролируем работу сетей и оперативно устраняем аварийные ситуации.
Как мы следим за работой сети
Как вы уже поняли, задача единого центра управления сетью — мониторинг работы сети, управление устранением аварийных ситуаций на сети и плановыми работами. Имея два центра, наш департамент теперь полностью отвечает, как за мобильную, так и фиксированную сеть. Хотя понятия «фиксированной» и «мобильной» сети стали условными (мы называем нашу единую сеть конвергентной и предоставляем абонентам конвергентные сервисы). К примеру, нам нужно подключить крупного корпоративного клиента к ШПД. А у него в офисе «светит» базовая станция 4G. В таком случае, мы зачастую доступ к сети прокидываем через базовую станцию. То есть в офисе стоит обычный модем, который берет сигнал с 4G-станции. Дальше идет внутренняя ШПД-сеть. Поэтому, с одной стороны, мы предоставляем фиксированный доступ, с другой — через мобильную сеть. И наоборот, бывает, новую базовую станцию на объекте, к которому когда-то мы построили оптическую линию для предоставления услуг фиксированного доступа, мы включаем через эту оптическую линию.
Именно поэтому сейчас мы воспринимаем два наших центра как один, используя географическое разнесение для повышения живучести. Для нас важно, чтобы управление мобильной и фиксированной сетью находилось в одних руках, а не в разных структурах и на разных уровнях, как это было раньше.
Как мы решаем проблемы с сетью
В Центре оперативного управления у нас установлена зонтичная система мониторинга. На монитор оперативного дежурного со всей страны приходят сообщения о сбоях в работе оборудования сети или об изменениях условий его работы. Оперативный дежурный, прочитав сообщение, в течение 15 минут должен устранить неисправность самостоятельно, используя удаленный доступ к оборудованию, или назначить инцидент на решение инженерам на месте. Ход решения назначенного инцидента строго контролируется.
По статистике, самая частая причина проблем на базовых станциях — отключение внешнего электроснабжения. Когда отключается внешнее электроснабжение, станция автоматически переходит на работу от аккумуляторов, которые рассчитаны на несколько часов работы. При этом, как правило, внешнее электроснабжение восстанавливается достаточно быстро. То есть аварийная ситуация разрешается сама собой и не требует реагирования на нее. Поэтому не всегда оправданно торопиться реагировать на такие сообщения. Стоит подождать и оценить возможности базовой станции «противостоять» отсутствию внешнего электропитания и не вытаскивать из теплой постели дежурного инженера, и направлять его с генератором на базовую станцию. Более того, наш опыт показал, что можно эту работу поручить роботу, и он безошибочно решит, нужно ли подключать человека.
Часто дежурному приходится оперативно анализировать сразу несколько аварийных сообщений и группировать их в одно. К примеру, в конкретном месте у нас построены три базовые станции. Между собой они соединены радиорелейными линиями (две тарелки, как спутниковые, смотрят друг на друга и связывают базовые станции). Если одна «релейка» выходит из строя, то вся цепочка базовых станций за ней, если нет никакого резерва, не работает, и дежурному оператору приходят сообщения о сбое в работе нескольких базовых станций. Глупо заводить инциденты по всем станциям, когда чинить нужно отдельный «пролет». Такие аварийные сообщения могут автоматически «схлопываться» в одно сообщение, но там, где это невозможно программно настроить — это приходится делать дежурному. Все это называется корреляция аварийных сообщений.
90% аварий устраняются удаленно, из центра управления, так как почти вся инфраструктура у нас построена на компьютерах. Но если надо что-то исправить руками, поменять физически плату, починить антенну, то направляется полевая бригада. За организацию их работы тоже отвечаю я. В каждом регионе обязательно есть свои две-три бригады, чтобы у нас была возможность за короткий срок добраться до объекта. Радиус действия бригады доходит до 400 км.
Много ли аварийных сообщений в день?
В день на монитор оперативного дежурного поступают тысячи аварийных сообщений. Инцидентов регистрируется порядка 800–900 за 12-часовую смену. 3,5 года назад сообщения поступали к оператору каждые пять секунд, регистрировалось 1200 инцидентов в смену. Сейчас мы автоматизировали многие вещи, усовершенствовали анализ сообщений и частично автоматизировали процесс создания «инцидентов». Это позволяет нам контролировать гораздо больший объем оборудования.
Влияют ли аварийные ситуации на клиентов?
Нарушение клиентского сервиса при возникновении «инцидента» напрямую оценить сложно. И вот почему. Представьте, в Москве базовые станции стоят практически каждые 200 метров. И если включить телефон в режиме мониторинга, то можно увидеть, что в одном конкретном месте он ловит сигнал сразу нескольких базовых станций. Если одна базовая станция выключится, то ты все равно спокойно сможешь звонить, отправлять SMS, пользоваться интернетом. Но для нас это все равно инцидент. И мы его оперативно решаем. Ведь чисто теоретически один из клиентов может находиться в офисе с какими-нибудь экранированными окнами, где до него «добивает» только одна конкретная ближайшая станция (так как сигнал при проникновении в эту «железную коробку» может ослабнуть в тысячу раз).
Но если в целом смотреть на общий трафик фрагмента сети при выключении одной базовой станции, то он не изменится. Он перераспределится между другими станциями. Говорить о нарушении клиентского сервиса в такой ситуации, как минимум, неправильно. Я не знаю в мире ни одной компании, которая умела бы строго рассчитать, насколько пострадал и пострадал ли вообще сервис в такой ситуации.
Вот так в общих словах выглядит то, чем я занимаюсь профессионально. О чем бы вы хотели, чтобы я рассказал в следующих своих постах?