«Follow the sun» как принцип поддержки
Меня зовут Максим Журавлев, я управляющий директор ДИТ «Занять и Сберегать», лидер сообщества инженеров сопровождения Сбера. В этой статье я хочу рассказать про надёжность высоконагруженных ИТ-систем и принципы, которым мы следуем.
Гаджеты, мобильные приложения и различные цифровые услуги стали неотъемлемой частью нашей жизни. И чем больше бизнес, тем дороже возможный простой системы и выше риск потери потенциального или текущего клиента на всё более увеличивающемся и конкурентном рынке в сфере услуг. Поэтому стабильно и качественно предоставленный ИТ-сервис для конечного пользователя имеет ту же ценность, что и полученная вовремя услуга, например, в розничной сети или корпоративном бизнесе. Чрезвычайно важно обеспечить стабильность и надёжность ИТ-ландшафта, созданного для Бизнеса. Однако не только инновационные или развивающиеся технологии способны обеспечить высокоуровневый сервис, но и сочетание чётко выстроенных процессов и нововведений.
Процессы
Предоставляя качественный сервис по высоконагруженным системам в режиме 24/7, необходимо опираться на комплексный подход, который включает в себя, в первую очередь, выстраивание процессов ITSM и непрерывное обучение инженеров. Классическая схема выглядит так:
Концепция ITSM
Набор методик ITSM обеспечивает применимость сервисного подхода в управлении ИТ. Сервисный подход — помощь заказчику (Бизнесу) в достижении его конечных результатов без специфических затрат и рисков, а также без прямого управления ресурсами Поставщика сервиса. То есть ITSM позволяет Бизнесу заниматься бизнесом, а не директивным управлением службами, отвечающими за информационные технологии.
Способы реализации сервисного подхода в ИТ сильно зависят от зрелости и финансовых ограничений поставщиков ИТ-услуг, но цели, выполнение которых обеспечивает ITSM, остаются неизменными:
обеспечение необходимого бизнесу качества ИТ‑услуг;
обеспечение требуемого уровня надёжности;
обеспечение скорости изменений.
Методология ITIL
ITIL — методология, которая с помощью процессного подхода позволяет реализовать концепцию ITSM. Она является самым распространённым в мире руководством по управлению ИТ-услугами и представляет собой набор принципов и специализированных процессов (практик), обеспечивающих полезность и надёжность предоставляемых ИТ-услуг. ITIL не внедряется, а «принимается», адаптируясь под специфику конкретной компании.
Все процессы ITIL сгруппированы по фазам жизненного цикла ИТ-услуги. Стратегия услуги помогает Поставщику понять, кто его целевая аудитория, какие у неё нужды и, следовательно, какие ИТ-услуги и в каком объёме ей необходимы.
Разберём основной набор сквозных процессов ITIL, которые формируют надёжность и безотказность систем.
Инцидент‑менеджмент. Технологический инцидент — это нарушение в работе ИТ‑системы, которое влияет как на работу отдельного пользователя, так и на работу бизнес‑сервиса в целом или его части. Минимизация влияния от инцидента, его предотвращение, а также быстрое восстановление услуг подразумевает под собой процесс жизненного цикла инцидент‑менеджмента.
Риск‑менеджмент. Процесс управления, связанный с минимизацией вероятности возникновения неблагоприятных событий, снижения возможных потерь, в том числе финансовых.
Управление мощностями. В рамках проектирования и выработки стратегии управления ИТ‑услугами, очень важно обеспечить управление техническими ресурсами, бюджетированием будущих мощностей, а также своевременным предоставлением технических средств с учётом экономической целесообразности.
Управление конфигурациями. В рамках предоставления ИТ‑услуг важно понимать, как соотносятся те или иные конфигурационные единицы с учётом взаимосвязей.
Управление запросами на обслуживание. В рамках управления услугами очень важно выстроить процесс управлениями внутренними запросами от клиентов, как внешних, так и внутренних.
Мониторинг
Система мониторинга — это глаза и уши всей команды сопровождения (руководства, инженеров, дежурных). Уровень критичности системы мониторинга при её должном развитии становится равен уровню критичности самой ИТ-услуги, для которой она создана.
Основные принципы построения системы мониторинга:
надёжность решения;
сбор всех типов метрик (построенных на классическом техстеке или cloud‑решениях);
автоматический сбор в телефонную конференцию и регистрация инцидентов;
принципы зонтичной системы мониторинга (включая мониторинг смежных ИТ‑услуг);
интеллектуальное подавление событий;
динамические пороговые значения;
доступность метрик и дашбордов из внешней сети, при наличии изолированного внутреннего сегмента;
Принципы организации мониторинга:
Моментальная реакция. Система должна быть построена так, чтобы основные метрики были доступны и видны для дежурной смены, а дублирование происходило с помощью СМС‑оповещения основных администраторов системы.
Максимальная автоматизация типовых действий. Это основа быстрой реакции на любого рода отклонения и минимизации времени простоя в случае проявления проблем.
Нахождение и решение проблем до того, как они приведут к инциденту. Прогнозирование, предиктивный мониторинг — ключевой фактор при организации современной группы поддержки ИТ‑систем.
Follow the sun — как это работает
Все описанные процессы подразумевают под собой поддержку промышленных решений в режиме 24 часа/7/365 таким образом, чтобы на любые вопросы, независимо от сложности и тематики (внедрение, разработка, тестирование, решение инцидентов или отклонений), практически беспрерывно и с оптимальными финансовыми затратами отвечали высокоуровневые специалисты. Такой подход к обслуживанию и поддержке информационных систем называется Follow the sun.
Он обычно используется в крупных компаниях, которые выполняют глобальные операции и требуют круглосуточной поддержки своих информационных систем. Это позволяет им обеспечить непрерывность бизнес-процессов и минимизировать время простоя.
Это относится и к Сберу, который, прежде всего, про надёжность и скорость предоставления клиентских сервисов. Мало кто догадывается, что за стабильной работой услуг организации стоит слаженная работа инженеров, каждый из которых отвечает за определённый сервис и инфраструктурный элемент. Всё это работает как единый живой организм в том числе благодаря использованию принципа Follow the sun.
Мгновенная реакция на нештатное поведение системы сильно увеличивает производительность службы поддержки, а также подразумевает под собой достаточно сложный процесс мониторинга критичных точек отказа системы как на прикладном, так и на инфраструктурном уровне.
Далее с менеджером услуги составляется карта точек отказа с согласованными параметрами реагирования.
По инициативе дежурного в любое время суток может быть собрана конференц-встреча с адресными группами поддержки инфраструктуры, на которой работает та или иная ИТ-услуга. Это помогает оперативно установить уровень, на котором произошёл сбой, и устранить его с минимальными последствиями для бизнеса.
Одно из ключевых направлений по линии поддержки — дежурная смена. Основная обязанность дежурных инженеров — наблюдение за штатной работой системы и мгновенная реакция на отклонения. Причём местонахождение дежурной смены не имеет значения, но есть лучшие практики, которые заключаются в двух простых правилах:
Локация должна быть недорогой (в регионе).
Желательно, чтобы дежурная смена работала в дневное время, то есть передача смен проходила между двумя площадками, которые находятся в разных часовых поясах (разница во времени 7–8 часов).
Второе правило подразумевает под собой работу эксперта дежурной смены в дневное время, в часы бодрствования. Ночью организм должен отдыхать, потому что у человека замедляется реакция и внимание. В банке есть несколько ИТ-хабов в разных регионах страны, и в зависимости от движения светового дня эксперт в том или ином хабе перехватывает функции в своё дневное время.
Качественная работа дежурной смены достигается благодаря обучению и материалам, предоставляемым лучшими экспертами сопровождения.
Навыки — ключевая вещь
Знания без практики не принесут никакой пользы. В стремительно меняющемся мире обучение необходимо для выживания как инженеров, так и организаций в целом. Это требует высокой вовлечённости и обучающих, и обучаемых. Достигать требуемого уровня вовлеченности позволяют амбициозные цели, которые должны стоять перед обеими категориями сотрудников.
Комплексному обучению уделяется огромное внимание. Знания и навыки, используемые в работе с системами компании, очень специфичные, приобрести их «на улице» практически невозможно. Человек может быть суперпрофи в базах данных Oracle или Red Hat OpenShift, но без понимания базового процесса сопровождаемых систем или процессинга от него не будет никакой пользы.
В дополнение к индивидуальному плану обучения, сотруднику в Банке доступен внутренний курс «Сопровождение и развитие банковских систем», который обновляется и дополняется активистами профсообщества инженеров сопровождения Сбера. Этот курс даёт новичку методологию и инструменты для формирования практических навыков сопровождения автоматизированных систем, реализующих корневые сервисы. А знания, представленные на курсе, собраны ведущими специалистами сопровождения и разработки — это концентрированная выжимка самого нужного и полезного.
Безусловно, принцип Follow the sun не панацея и не «серебряная пуля». Многие области и процессы должны работать слаженно на основании принятых мировых практик и стандартов. Многое также зависит от укомплектованности персонала техническим оснащением, от зрелости процессов, надёжности инфраструктуры и прикладного программного обеспечения. Однако каждый блок из общего процесса «Надёжность и доступность» является неотъемлемой частью общего жизненного цикла, а принцип Follow the sun может позволить не только пересмотреть внутренние подходы к поддержке услуг, но и качественнее подойти к созданию внутренних процессов организации.