24 часа с дежурными инженерами КРОК: выживаем, как можем
Привет, Хабр! Меня зовут Владислав Балакин. Я тимлид группы дежурных инженеров в департаменте инфраструктурных решений и сервисов. Работаю с первого дня создания этой группы и знаю про нее абсолютно все. В круглосуточном режиме мы мониторим состояние и поддерживаем работоспособность ИТ-инфраструктуры наших заказчиков.
В предыдущих постах коллеги много и обстоятельно рассказывали о том, как отреагировал ИТ-рынок на уход зарубежных вендоров. И как кратный рост спроса на сервис и поддержку повлиял на наполнение нашего склада ЗИП. И т.д. И т.п. Но как все это реально отразилось на нашей работе? Сегодня вас ждет крик души рассказ о том, как сейчас проходит 24-часовая смена дежурного инженера КРОК. И о том, как мы в условиях роста загрузки выстраиваем работу, чтобы не уронить ни SLA, ни себя. Подробности под катом!
Как же я люблю свою команду дежурных инженеров, вот они мы слева направо!
Идеальная смена
Заступаем мы на сутки в девять утра. Принимаем от предыдущего дежурного всю необходимую информацию и подключаемся к инструментам мониторинга. Быстренько разбираем входящие письма, за три выходных дня их обычно больше 1000. Дальше мы идем на завтрак, спокойно едим и приступаем к работе. В течение дня мы принимаем запросы от заказчиков — поставить новое оборудование на мониторинг, добавить его в обслуживание или внести информацию в документацию. Параллельно координируем действия полевых инженеров, которые в это время на ремонтных работах или ПНР в ЦОДах, — подсказываем расположение оборудования, управляем серверами, проверяем итоговую работоспособность и т.д.
В этом приятном темпе наступает обед, и мы, конечно, идем на него. Едим и потом дальше работаем. К вечеру вся основная работа уже сделана и начинается тихий мониторинг оборудования, которое в отличной форме и не планирует выходить из строя. В 19:00 заканчивают работу коллеги из группы клиентского сервиса, и мы принимаем еще и дежурство по регистрации заявок, которых очень мало приходит. Когда все полевые инженеры уходят из офиса, мы ставим раскладушку и в 21:00 уже ложимся спать до восьми утра. Потому что на горизонте очень тихо по всем фронтам. До девяти часов мы обрабатываем парочку новых заявок, передаем смену и едем отдохнувшие домой. Навстречу трем выходным дням…
Помечтали и хватит
Ведь такая смена у нас теперь практически невозможна. Сейчас на круглосуточном мониторинге у нас более 2000 единиц оборудования и порядка 300 ВМ. И мы, дежурные инженеры, должны молниеносно оповещать заказчика в случае возникновения проблем.
Например, SLA на реакцию для одного из заказчиков у нас 15 минут. Сначала можно подумать, что это очень много, но! За это время необходимо:
зайти на оборудование (а это каждый раз разное оборудование, разного вендора и с разными методами входа на него),
понять в логах, что за неисправность и каков уровень критичности данной проблемы,
завести заявку в Jira,
выбрать правильную ветку оповещения по проекту (в общей сложности их более 30 штук),
и оповестить уже наконец-то заказчика!
Вышеупомянутые работы в ЦОДах у нас с полевыми проходят практически каждый день. Плюс с появлением новых заказчиков количество заявок в ночное время стало намного больше — в среднем оно растет на 10% ежеквартально с прошлого года. И очень часто ночью приходят заявки, где по регламенту надо брать запчасть и мгновенно вылетать к заказчику. И здесь нам требуется:
корректно оформить заявку,
дозвониться до дежурного полевого инженера и разбудить его,
согласовать с заказчиком визит,
заказать запчасть,
забрать ее со склада
и максимально подготовить полевого, чтобы он не опоздал на самолет.
А так как заказчики у нас по всей России, то львиная доля заявок начинает приходить с семи утра, и это самые сложные два часа дежурных до передачи смены следующему.
Итак, 24 часа начинаются…
Типичный стул дежурных
Заступив на смену, мы уже за столом едим завтрак, который предусмотрительно взяли заранее. Потому что в это время измученный сутками сменщик уже выползает из офиса и о дежурстве думать [справедливо] не собирается. Во время завтрака начинают приходить первые алармы о неисправностях, которые необходимо в срочном порядке зафиксировать, — проанализировать, в чем проблема, завести заявку, заказать запчасти, ну вот это вот все. Параллельно начинают копиться запросы от заказчиков абсолютно разного формата. «Сделайте зонинг оборудования», «ой, что-то сервер завис», «а удалите, пожалуйста, хосты из мониторинга»… Обрабатывая поток запросов, мы регулярно отвечаем на звонки-«нетудашки», которые по ошибке поступают на дежурную трубку как от заказчиков, так и от коллег из разных департаментов.
Далее уже подходит время работ в ЦОДе, где необходимо полностью координировать действия полевого и все контролировать. И конечно, в этот момент коллеги сообщают о заведении заказчиком новой заявки, и начинается параллельный поиск инженера для ее выполнения. При этом мы все так же не забываем про мониторинг оборудования, и естественно, оно упорно не хочет работать без сбоев. В этот момент выясняется, что одна из запчастей поступила на склад и ее нужно срочно отвезти в ЦОД. Заказываем такси и отправляем деталь инженеру.
Наконец появляется возможность сбегать в столовую на обед!… И сразу вернуться с контейнером обратно, чтобы продолжить работу в том же темпе. После 18:00 становится намного спокойнее, и можно вспомнить про давно остывший обед. Так приходит время заранее запланированных ночных работ. Пока мы спокойно меняем сетевые карточки на сервере, снова начинают сыпаться заявки. И, как правило, это что-то вроде Новосибирска, на который надо реагировать молниеносно. Время для выполнения ночных работ начинает поджимать, и вместе с этим на другом оборудовании снова вылетает очередной диск или планка памяти. А отдавший нам сервер заказчик уже начинает нервничать и спрашивать, когда можно забирать его обратно…
И вот примерно к часу ночи становится максимально тихо и спокойно. Время от времени приходят разные алармы. С шести утра просыпаются «дальние» заказчики. И полумертвый дежурный уже просто молится, чтобы серийный номер как можно скорее пробился в системе. Это крайне важная штука, потому что именно по s/n мы можем найти всю информацию по нашим обязательствам перед клиентом и понять, как реагировать на заявку.
В 08:30 приходит свежий сменщик и дарит надежду на предстоящий отдых. Передав ему все по смене, мы наконец-то едем домой.
Конечно, я утрирую
И не каждая смена у нас настолько перегружена. Но тем не менее с февраля прошлого года это случается все чаще. И я, как тимлид, стараюсь делать все, чтобы и команда не перегрелась, и заказчики были довольны. Вот что нам помогает в условиях роста загрузки:
Ведение базы знаний
У нас накоплена огромная база знаний, в которую мы почти на все регулярно пишем инструкции. Это эффективный способ обмена опытом в команде, которая из-за графика дежурств сутки через трое практически не пересекается. Использование базы знаний помогает решать задачи самостоятельно, а главное максимально оперативно. Плюс это настоящее спасение при онбординге! C помощью статей в базе знаний новичок может самостоятельно решать какие-то [некритичные] задачи заказчиков, прокачиваться и доводить свои скиллы до совершенства.Перераспределение задач
Раньше мы параллельно с мониторингом оборудования занимались регистрацией заявок. Но в какой-то момент мы поняли, что стало очень тяжело, так как количество поступающих заявок возросло кратно, а инциденты и аварии у заказчиков все еще происходят. Поэтому мы поделили эту задачу с коллегами из группы клиентского сервиса. И теперь за регистрацию заявок в дневное время отвечают они, а мы подключаемся с 19:00 и до утра.Знание приоритетов назубок
Самое главное в нашей работе — это оперативность. А она достигается за счет четкого понимания своих приоритетов по задачам. Чаще всего бывает именно так, что все падает разом и в одну секунду. И в этот момент важно не потеряться. Пришла заявка? Сразу переводишь ее в статус «Registered», чтобы SLA на реагирование по ней остановился. Или если тебе позвонили «буквально на пять минут только спросить», а в этот момент произошла авария, — ты параллельно со звонком заходишь на оборудование, чтобы посмотреть, что случилось. А консультация может и подождать.Расширение команды по мере необходимости
За ресурсами нужно очень внимательно следить. И вот как раз сейчас мы поняли, что без еще одного человека на саппорте нам не обойтись. Теперь у нас четверо в режиме сутки-трое и один в пятидневку. Благодаря этому стало возможно отлучиться с рабочего места, пообедать, например, или немного отвлечься на написание поста на Хабр.Умение спать сидя
Есть такой непреложный закон. Ты можешь несколько часов просидеть на стуле в полной тишине и покое, но стоит только тебе разложить раскладушку, чтобы немножко вздремнуть… Сразу же грянет апокалипсис! И мы, аки атланты, на чьих плечах зиждется мироздание, сидим до последнего, чтобы у наших заказчиков не легло вообще все. Но это я шучу, конечно! Или нет…
Делитесь своими историями и лайфхаками в комментариях!
Подписывайтесь на уютный Telegram-канал КРОК и чувствуйте себя как дома!