[Перевод] Аварии «часов не наблюдают»: статистическое обоснование для режима работы техподдержки 24/7

skz6ru8jkknn60dybc5dzdyz3rg.jpeg

По результатам проведения многочисленных эксплуатационных оценок ЦОДов по всему миру Uptime Institute отметил, что штатная укомплектованность персонала в дата-центрах сильно варьируется от места к месту. Это наблюдение несколько озадачивает, но это неудивительно. Хотя кадровое наполнение является важным аспектом деятельности для центров обработки данных, которые пытаются сохранить эксплуатационное превосходство, множество других факторов влияют на решение организаций о требуемом уровне укомплектования персоналом.

Среди факторов, которые могут повлиять на общую штатную численность можно выделить сложность центра обработки данных, текучесть кадров, количество требуемых рабочих часов техподдержки, количество контрактов с подрядчиками и бизнес-цели обеспечения доступности. Расходы также вызывают беспокойство, поскольку каждый сотрудник является для ЦОДа прямыми затратами. Из-за этих многочисленных факторов необходимо постоянно пересматривать уровень укомплектованности центров обработки данных персоналом, чтобы обеспечить эффективную поддержку по разумной цене.

Uptime Institute часто получают вопрос: «Каков надлежащий уровень укомплектованности персонала для моего ЦОДа?». К сожалению, нет лаконичного ответа, который был бы универсален для каждого дата-центра. Надлежащее кадровое обеспечение зависит от ряда переменных.

Время, требуемое для выполнения задач обслуживания, и обеспечение укомплектованности смен техподдержки, — это две основные переменные. Укомплектование персоналом для выполнения требований по техническому обслуживанию является относительно фиксированным фактором, но зависит от того, какие действия выполняются персоналом дата-центра, а какие функции отданы подрядчикам. Комплектование смен техподдержки определяется как укомплектование персоналом для мониторинга центра обработки данных и для реагирования на любые инциденты и события. Комплектование смены персоналом для технической поддержки может определяться различными способами. Каждый способ обеспечения укомплектованности имеет потенциальное влияние на операционную деятельность в зависимости от того, какие процессы покрыты технической поддержкой.

Тенденции в комплектовании смен


Основная цель постоянного нахождения квалифицированного персонала на месте — это минимизация риска сбоев, вызванных аномальными событиями путем предотвращения инцидента, сдерживания или изоляции, а также предотвращения его распространения или воздействия на другие системы. Многие центры обработки данных по-прежнему обеспечивают постоянное присутствие команды квалифицированных электриков, инженеров-механиков и других техников, которые обеспечивают режим работы в 24×7. Однако, технологии удаленного мониторинга, особое расположение зданий в виде комплекса, стремление к балансированию затрат и другие причины могут побудить организации комплектовать персонал по-разному.

Управление режимом оказания технической поддержки без наличия квалифицированного персонала на месте в любое время может повысить риски из-за отсроченной реакции на аномальные инциденты. В конечном счете, компания должна прийти к решению с приемлемым уровнем риска.

Другие модели оказания техподдержки с полным покрытием включают:

  • Обучение персонала службы безопасности реагированию на аварийные сигналы и выполнению процедур для решения проблем;
  • Мониторинг ЦОДа через локальную или региональную систему мониторинга за состоянием зданий (BMS) и привлечение техников по вызову;
  • Наличие персонала на месте в обычные рабочие часы и по вызову в ночное время и в выходные дни;
  • Работа нескольких центров обработки данных в виде особого комплекса зданий, команда которого обеспечивает поддержку несколько центров обработки данных без необходимости находиться на месте в каждом отдельном дата-центре в каждый момент времени.


Эти и другие методы должны оцениваться в плане эффективности индивидуально. Чтобы оценить модель оказания техподдержки, центр обработки данных должен определить потенциальные риски инцидентов в работе центра обработки данных и их потенциальное воздействие на бизнес.

В течение последних 20 лет Uptime Institute собрал базу данных об аномальных инцидентах (Abnormal Incident Reports, AIRs), используя информацию, полученную от членов сети Uptime Institute Network. Uptime Institute ежегодно анализирует данные и представляет свои результаты членам Сети. База данных AIRs содержит интересную информацию, касающуюся проблем с персоналом и эффективных моделей комплектования персонала ЦОДов.

Инциденты возникают и во внерабочее время


В 2013 году незначительное большинство инцидентов (из 277 случаев) произошло в рабочее время. Однако 44% инцидентов произошло между полуночью и 8:00 утра, что подчеркивает потенциальную потребность в режиме техподдержки 24×7 (см. Рис. 1).

lxs1ambfe9iw3b9bllrabsekvkm.jpeg


Рисунок 1. Примерно половина аномальных инцидентов, которая произошла в 2013 году, имела место между 8 часами утра и до полудня, другая половина — с полуночи и до 8 часов утра.

Инциденты могут произойти и в любое время года. Фокусировка активности персонала в течение определенного времени года в приоритете над другими не была бы продуктивной (например, запрет на отпуск). Появление инцидентов довольно равномерно распределено в течение года.

Рисунок 2 показывает распределение инцидентов по дню недели. На диаграмме показано, что каждый день недели имеет почти равную долю, что говорит о том, что укомплектованность персоналом должна быть одинаковой для смен каждого дня недели. Это важный вывод, потому что некоторые центры обработки данных сосредоточили трудовые ресурсы своей техподдержки на период с понедельника по пятницу и оставляют выходные дни на удаленный мониторинг (см. Рис. 2).

8j5xkeudilql3jq77slj6atc8xo.jpeg


Рисунок 2. Персонал центра обработки данных должен быть готов каждый день недели.

Инциденты в разрезе по отраслям


Рисунок 3 далее иллюстрирует инциденты по отраслям и не показывает существенной разницы в тенденциях между отраслями. Диаграмма показывает, что индустрия финансовых услуг сообщила о гораздо большем количестве инцидентов, чем в других отраслях, но это скорее отражает состав выборки.

n-wmyc_0518by5f3pgreoqq8osu.jpeg
Рисунок 3. Инциденты в центрах обработки данных проходят круглый год.

Причины сбоев и способы обнаружения


Зная, когда происходят инциденты, мало что можно сказать о том, какой персонал должен находиться на месте. Понимание того, какие инциденты происходят чаще всего, поможет сформировать состав смены, а также узнать, как чаще всего выявляются инциденты. Рисунок 4 показывает, что большинство инцидентов затрагивает электрические системы, за которыми следуют механические системы. Напротив, критическая IT-нагрузка вызывает относительно небольшое количество инцидентов.

a-hbigrw6twkcmm0wbo8niftw4k.jpeg
Рисунок 4. Более половины аномальных инцидентов, о которых сообщалось в 2013 году, связаны с электросистемой.

В результате, имеет смысл, чтобы команды всех смен обладали достаточным опытом для реагирования на наиболее распространенные инциденты в электросистемах. Команда техподдержки должна также реагировать и на другие типы инцидентов. Перекрестный тренинг инженеров-электриков по вопросам механических и строительных систем может обеспечить достаточный охват, а дежурные по вызову могут покрыть относительно редкие инциденты, связанные с IT.

База данных AIRs также проливает свет на то, как обнаружены инциденты. На рисунке 5 показано, что более половины первичных сведений о всех инцидентах, обнаруженных в 2013 году, были получены от систем сигнализации, еще более 40% инцидентов обнаруживаются техническими специалистами на месте, что в сумме составляет около 95% случаев. Самое большое изменение за годы, показанное на диаграмме, — медленный рост инцидентов, обнаруженных с помощью аварийной сигнализации.

mt99flipovw6xfthu6ss_inuwfy.jpeg
Рисунок 5. Сигналы тревоги теперь являются способом обнаружения большинства инцидентов; однако проблемы с доступностью чаще обнаруживаются техническими специалистами.

Однако аварийные сигналы не могут реагировать на инциденты или смягчить последствия. Uptime Institute стал свидетелем целого ряда методов, позволяющих ЦОДам избежать сбоев в работе и снизить их влияние. Эти методы требуют наличия персонала для реагирования на инцидент, создания избыточности в критических системах и эффективных программ прогностического обслуживания для прогнозирования потенциальных сбоев до их возникновения. На рисунке 6 показано, как часто каждый из этих методов «спасает» дата-центры.

jjsgjxza0ytxl8i0pmg-t6qshrw.jpeg
Рисунок 6. Резервирование оборудования в 2013 году способствовало большему, чем в предыдущие годы количеству «спасений».

На диаграмме также показано, что в последние годы избыточность оборудования и профилактическое техническое обслуживание становятся эффективнее и экономят ЦОДам всё больше денег. Существует несколько возможных объяснений этому, в том числе повышение надежности систем, более широкое использование упреждающего обслуживания и сокращение бюджета, которые приводит к сокращению количества персонала или его переезд за пределы ЦОДа.

Сбои в разрезе основной причины


Данные показывают, что все проблемы с доступностью в 2013 году были вызваны инцидентами с электросистемой. Большинство сбоев произошло, поскольку процедуры обслуживания не были произведены должным образом. Этот вывод подчеркивает важность наличия надлежащих процедур и хорошо подготовленного персонала.

qj5vxexdjcwd69migeokszlnbbg.jpeg
Рисунок 7. Почти половина сбоев, о которых сообщалось в 2013 году, были следствием проблем с обслуживанием.

На рис. 7 далее рассматриваются причины инцидентов в 2013 году. Примерно половина инцидентов была описана как «In Service», которая определяется как неадекватное техническое обслуживание, неправильная настройка оборудования, работа до отказа или отсутствие определенной первопричины. Случаи «preventive maintenance» фактически относятся к профилактическому обслуживанию, которое было выполнено ненадлежащим образом. Персонал центра обработки данных вызвал всего 2% инцидентов, показывая, что взаимодействие персонала и оборудования не является основной причиной инцидентов и сбоев.

Вывод


Возрастающая сложность управления инфраструктурой центров обработки данных (DCIM), систем управления зданиями (BMS) и систем автоматизации зданий (BAS) затрудняет поиск ответа на вопрос о том, можно ли сократить количество персонала в центрах обработки данных. Достижения в совершенствовании этих систем значительны. Они могут улучшить работу вашего центра обработки данных; однако, как показывают данные, для предотвращения инцидентов часто требуется персонал на месте. Вот почему по-прежнему постоянно иметь укомплектованность квалифицированным персоналом, эквивалентную полному рабочему времени (FTE), является директивой для сертифицированных центров обработки данных уровня Tier III и Tier IV.

Главная цель — обеспечить быстрое время отклика для смягчения последствий любых инцидентов и событий. Данные показывают, что при возникновении инцидентов не наблюдается никаких временных шаблонов. Их появление довольно хорошо распределено по всем 24 часам и всем 7 дням недели.

Основной задачей является предотвращение риска. Центры обработки данных продолжают развиваться, задействуя управление через удаленный доступ и наращивая избыточность оборудования. Каждый центр обработки данных уникален и обладает собственным набором неотъемлемых рисков. Режим техподдержки — всего лишь один фактор, но довольно важный. Решение о том, сколько задействовать персонала в каждую смену и с какой квалификацией может оказать серьезное влияние на предотвращение рисков и доступность центров обработки данных. Делайте разумный выбор.

Другие статьи блога Cloud4Y:

→ Какова истинная стоимость простоя IT-инфраструктуры для малых и средних предприятий? (внешняя ссылка)
→ Расцвет облачных вычислений в автоматизации процессов промышленных предприятий (внешняя ссылка)
→ Что происходит с ценами на облачные вычисления последние годы (Хабр)
→ Как создать образцы для Единой биометрической системы и почему это может быть опасно (Хабр)

© Habrahabr.ru