Аттестация сотрудников ЦОДа: как и зачем ее проводят в Linxdatacenter

2881c2990d46be34563fc49929beea43.jpg

Ранее мы уже рассказывали о том, как проходили аттестацию Uptime Institute Management & Operations Stamp of Approval в 2018 году и подтверждали уровень соответствия его требованиям в 2020. 

Сегодня поговорим о тренировке и проверке знаний инженеров ЦОДа — это опыт Linxdatacenter в Санкт-Петербурге, который сертифицирующая организация взяла на вооружение в своей работе. 

Напомним, о чем идет речь: стандарт Management & Operations отраслевого экспертного института Uptime Institute оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. 

Он появился в результате анализа 6000 эпизодов отказов ЦОДов за 20 лет наблюдений за отраслью и является частью (одной из трех) более емкого отраслевого стандарта Operational Sustainability.

Помимо M&O (управление и эксплуатация) туда входят также Building Characteristics (характеристики здания) и Site Location (расположение площадки). Вопросы управления и эксплуатации ЦОДа в этой иерархии играют главную роль в эксплуатационной устойчивости площадки. 

Более 75% всех сбоев обусловлено человеческим фактором: он включает как прямые ошибки оператора, так и принятие неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания, обучения и общего подхода к работе. 

Обучение персонала, инструкции по действиям в различных ситуациях и регламентное обслуживание сокращают количество отказов минимум в 3 раза.

Аттестация зрелости 

Одно из базовых положений стандарта, на котором мы и развернули программу аттестации персонала, гласит: «Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целей. Без надлежащего количества квалифицированных сотрудников и правильной организации их труда, у ЦОД не будет ресурсов для успешного функционирования». 

Обеспечить себя такими сотрудниками стандарт рекомендует через качественный подбор персонала и выработку комплексного подхода к обслуживанию ЦОДа. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

Чем выше уровень Tier дата-центра, чем быстрее растут целевые показатели его производительности, строже становятся требования к организации, поскольку сложность и детализация каждого из этих элементов увеличивается. 

Стандарт предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации. 

Только такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт еще раз: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события». 

Собственно, отсюда и берет начало наша система аттестации. 

Вторая ее «идеологическая опора» — стандарт ISO 22301 «Security and resilience — Business continuity management systems» — «Безопасность и устойчивость — Системы управления операционной непрерывностью бизнеса». 

Этот стандарт непосредственно регулирует шаги компаний (во всех сферах, не только ИТ) по обеспечению непрерывного характера своей деятельности вне зависимости от наступления экстренных ситуаций и неблагоприятных внешних условий. 

Один из его пунктов указывает, что организация должна определить необходимые компетенции лиц, выполняющих работу, которая влияет на обеспечение ее бесперебойного функционирования. И далее по тексту, на компании накладываются обязательства по обеспечению компетенций этих лиц на основе соответствующего образования, подготовки или практического опыта. 

Этот процесс нужно поддерживать, совершенствовать и оценивать его результаты, сохраняя соответствующую документально подтвержденную информацию в качестве доказательства компетентности.

Наконец, третий «столп» нашей программы — собственный опыт нескольких лет последовательной работы над повышением скоординированности и эффективности работы инженерных служб. Этот опыт нашел отражение в нашей документации по процедурам аварийной эксплуатации (EOP — Emergency Operations Procedures), в том числе в части аттестации персонала. 

Четко задокументированные и формализованные процедуры в структуре бизнес-процессов площадки в Санкт-Петербурге позволяют оценивать профессиональный уровень работника и выявлять соответствие его квалификации занимаемой должности или выполняемой им работы.

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и т. д. является обязанностью работников. 

Основные виды и главные задачи 

Зачем нам это нужно? С одной стороны — да, работали как-то без аттестации раньше, без нее также обходятся масса (да почти все) коллег по отрасли. 

С другой, следует понимать, что дата-центр — сложнейший инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания. 

Мы постоянно занимаемся апгрейдом инженерных подсистем и групп процессов управления дата-центром. Только за последнее время были внедрены процессы профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроль уровня давления и «подпора» воздуха в серверных в помещениях и комплекс мер по предотвращению загрязнения воздуха. Также была проведена серьезная модернизация системы управления зданием (BMS), внедрен в эксплуатацию широкий спектр компонентов системы LOTO.

В ходе этих работ мы неоднократно убеждались, что любые методики контроля качества приносят хороший результат, только если они формализованы и применяются на регулярной основе — это еще одна причина ввода обязательной аттестации.

Кроме того, такие проверки помогают стимулировать рост эффективности и качества труда, определить необходимость повышения квалификации и «подтягивания» уровня знаний конкретных специалистов, а также организовать правильную расстановку кадров с учетом уровня их профессиональных знаний и навыков.

Перед плановой аттестацией руководители проводят подготовительную консультационную работу, а именно — за две недели аттестуемому персоналу сообщаются критерии аттестации, вопросы для экзамена, проводят разъяснительные консультации.

Все вопросы сопровождаются подробно разобранными ответами со ссылками на нормативные документы и инструкции. 

Процедура по сути

Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов. 

На первом проводится тестирование аттестуемого работника в рамках опросников и тестов.  Общее количество вопросов — 60–70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.   Около 80% вопросов касаются непосредственно профессии, остальные 20% — смежных областей знаний и компетенций коллег по ЦОДу. 

Для проведения аттестации был разработан специальный внутренний портал, который позволил автоматизировать и сделать прохождение аттестации регистрируемым процессом

c76ee78a36fb607810a3c7ad3d0b4078.png

5cca89d6ae78394f0c64fafad8cc3766.png

Примеры вопросов для сотрудников различных департаментов  

Механики 

Раздел «Maintenance» (Обслуживание)

  1. Когда запланировано следующее ТО систем, за которые вы отвечаете?
  2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
  3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?  
  4. Что такое Предупредительное обслуживание? (Predictive maintenance)? Дайте ссылку на инструкцию по Predictive maintenance и график его проведения.
  5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP
  1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
  2. При каком давлении в системе ХС нужно начинать выполнение EOP?
  3. Укажите действия при неисправности фанкойла «Water loss alarm».

ИТ-инженеры 

Раздел «Оборудование»

  1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
  2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
  3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
  4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел «Работа в системе инцидент-менеджмента»
  1. Как определить, какой приоритет нужно поставить обращению?  
  2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
  3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
  4. Как правильно запросить дополнительную информацию от клиента?
  5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Инженеры-электрики 

Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»

  1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
  2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
  3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
  4. Каким документом регламентируются работы в действующих электроустановках?
  5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
  6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
  7. В каких инструкциях указаны меры по работе во время пандемии и какие они?

Как видно из приведенных примеров, мы учитываем текущие реалии, в которых работаем. В данном случае это вопросы по состоянию на декабрь 2020 года. 

Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. 

Основными критериями, исходя из которых оцениваются профессиональные компетенции работника, являются уровень его подготовки, в том числе профессиональные навыки, итоги работы за определенный период времени, а также соответствие требованиям к занимаемой должности.

Решение принимается открытым голосованием большинством голосов.

Вердикты 

По результатам аттестации выносится заключение:  

  • занимаемой должности соответствует;  
  • соответствует, но не полностью (рекомендуется повторная аттестация); или 
  • не соответствует занимаемой должности. 

В первом случае сотрудника могут включить в резерв на вышестоящую должность, условия трудовых соглашений с ним не меняются. В последнем же рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ. 

Неполное соответствие чревато переводом с согласия сотрудника на другую работу, а также направлением на курсы повышения квалификации (дополнительного обучения).

Тяжело в учении — легко в бою 

Большую роль в процессе обучения сотрудников служб эксплуатации дата-центра играет практический аспект — тренировки и учения. 

В качестве примера приведем выдержки из итогового протокола учений по отработке действий сотрудников дежурной смены и охраны ЦОДа в Санкт-Петербурге.  

«Хронология событий

1050 — Произошел пожар (имитация) помещении 107. Сработала пожарная сигнализация и система голосового оповещения. 

1050 — Руководитель смены охраны объекта связался с дежурной сменой ЦОДа, сообщив им о месте пожара и поставил задачу сотруднику охраны по организации эвакуации клиентов ЦОДа.

79e9706df1dffce1b7cfb876787bd0e5.jpg

1107 — Сотрудник охраны выдвинулся в ЦОД для проверки путей эвакуации, разблокировки калиток на путях эвакуации, проверки разблокировки полноростового турникета, организации эвакуации людей. Сотрудник охраны экипирован электрическим фонарем, изолирующим противогазом и рацией для связи.
8b4c11625bde12530b92eff3b061b337.jpg

1107 — Звонок сотрудника охраны ЦОДа старшему смены охраны ПСБ «СКАЙ-ТРЕЙД» с сообщением о происшествии в ЦОДе.

1108 — Начало эвакуации людей, не задействованных в обнаружении и локализации (ликвидации) пожара, из помещений ЦОДа.

1109 — Сотрудники дежурной смены ЦОДа выдвинулись для проверки причин срабатывания пожарной сигнализации и организации эвакуации людей из ЦОДа.

517a72a2214817ab0343a225964e9a79.jpg

1111 — Сотрудники дежурной смены ЦОДа подошли к месту предполагаемого пожара. Сотрудники экипированы электрическими фонарями и изолирующими противогазами.
bfa0d98f319acad6bcbe7204864e3a1a.jpg

1112 — Доклад сотрудника охраны о том, что все помещения свободны и люди из ЦОДа эвакуированы.

1112 — Эвакуация завершена.

eefcc12c5ae2b7610efefe598980d59c.jpg

1115 — Перевод системы пожарной сигнализации и голосового оповещения из режима «Пожар» в дежурный режим. Окончание пожарно-технической тренировки».

Это — отчет о событийной канве мероприятия, которая, как мы видим, укладывается во временной промежуток продолжительностью чуть более одного часа.  Далее лица, ответственные за проведение учений, указывают выявленные несоответствия и перечисляют решения, принятые в отношении команды. 

В данном конкретном случае не был сымитирован звонок сотрудника дежурной смены на пульт пожарной охраны — поэтому оценка только »4». 

Рекомендовано повторить порядок действий при сигнале о пожаре в соответствии с инструкцией и проводить подобные учения для каждой смены персонала не реже 1 раза в квартал. 

Выводы и планы развития 

Формализация и документирование процессов помогают обеспечить историчность (отслеживание динамики), а также объективность оценок. 

На данном этапе развития направления нам удалось реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа, от которых зависят такие показатели, как непрерывность работы площадки, и, в конечном итоге, SLA для клиентов. 

В целом, реализованная нами система подтверждения знаний и умений — это общий тренд развития направления в будущем. Все решения по обеспечению непрерывности бизнеса строятся на архитектуре тесно увязанных между собой специалистов, политик, процедур и процессов, а также организационной структуры и ресурсов компании. 

И люди в этом перечне — на первом месте.

© Habrahabr.ru