За парту в дата-центре, или Как мы строим распределенный центр подготовки инженеров

Привет, Хабр! Меня зовут Антон Турсунов, я руковожу центром подготовки дежурного персонала ЦОД и уже давно считаю день знаний своим праздником. До этого я был старшим инженером службы технической поддержки на площадке OST и занимался обучением дежурных дата-центра: помогал освоить особенности оборудования и ПО, рассказывал про специфику работы с клиентскими запросами и другие азы профессии инженера.

В прошлом году наша сеть дата-центров расширилась: команды «Ростелеком-ЦОД» и DataLine объединились, да еще и начали вместе строить новые ЦОДы. К московским площадкам добавились региональные: в Удомле, Санкт-Петербурге, Екатеринбурге, Новосибирске. Стало важно выстроить единую систему обучения дежурных, при этом сохранить гибкость и учесть особенности подготовки на местах.

Расскажу, как мы решаем эту задачу в центре подготовки инженеров ЦОД, как и почему сделали его распределенным, и какие изменения произошли в системе обучения в компании.

Один из этапов экзамена для дежурных инженеров в ЦОДе выглядит примерно так.Один из этапов экзамена для дежурных инженеров в ЦОДе выглядит примерно так.

В чем главная задача и челлендж

Сейчас в нашей сети 18 дата-центров, и все очень разные: от небольших площадок на сотню стоек — до мегаЦОДа с мощным энергоцентром. Какие-то площадки занимают пару залов, какие-то дата-центры насчитывают несколько зданий.

Это влияет на особенности эксплуатации, но не должно влиять на качество услуг на площадке. Вот примеры услуг, которые мы обеспечиваем вне зависимости от размещения оборудования клиента:

  • доставка и установка оборудования;

  • прокладка кроссировок;

  • замена деталей;

  • перезагрузка оборудования, первичная настройка и другие функции Smart hands.

Такие работы чаще всего выполняют дежурные инженеры, поэтому на их подготовку мы всегда обращали особое внимание. С объединением ЦОДов мы смогли проанализировать лучшие практики обучения во всех регионах и запланировать их унификацию в рамках общего стандарта.

Обучение по стандартам хорошо не только для клиента, который приезжает на любую площадку и везде встречает ожидаемый уровень обслуживания. Хорошо и команде, если происходят перемещения специалистов с места на места. В идеале инженер одного дата-центра может приехать на другую площадку, выйти в смену, сесть за рабочее место и начать работать — без долгого освоения «тайных знаний», которые передаются из уст в уста.

На словах единая система обучения звучит круто. Но на практике возникает куча вопросов, связанных с разницей в устройстве дата-центров (только кажется, что они все одинаковые).

  1. Разное оборудование на площадках. Где-то система холодоснабжения на гликоле, где-то — на фреоне. Где-то за гарантированное электроснабжение отвечают ДГУ, где-то — ДИБП. На ежедневном обходе дежурному нужно обращать внимание на мелочи, и у разных устройств могут быть свои «звоночки». Вдобавок, у нас строятся дата-центры уровня Tier IV со своими схемами резервирования и соответствующими требованиями к обслуживанию.

  2. Разное ПО. В ЦОДах дежурные пользуются софтом для учета оборудования, приложением для фиксации регулярных обходов, принимают запросы от клиентов через систему регистрации заявок, а также следят за состоянием оборудования при помощи систем мониторинга:

    Пост дежурных инженеров в дата-центре OST.Пост дежурных инженеров в дата-центре OST.

    После объединения дата-центров «Ростелеком-ЦОД» и DataLine нужно было решить, как собрать в работающую систему и разные приложения, и наработанные практики их использования.

  3. Разные составы команд и роли. На площадках NORD и OST у нас существует устоявшаяся иерархия: дежурный, старший смены, старший площадки.

    Кратко про их обязанности. Старший смены:

    • распределяет заявки на дежурных инженеров;

    • принимает решения в случае аварийных ситуаций и просто сложных задач;

    • следит за правильностью выполнения заявок, соблюдением регламентов и инструкций дежурной сменой;

    • проводит обучение дежурных инженеров в своих сменах и готовит их к сдаче экзамена на подтверждение квалификации. До сдачи экзамена старший смены проверяет работу каждого стажера и отвечает за ее качество и правильность выполнения.

    Старший площадки:

    • контролирует работу службы техподдержки на своем объекте;

    • отвечает за управление всеми сменами и старшими;

    • ведет график смен дежурных;

    • помогает решать технически сложные задачи;

    • отвечает за своевременное пополнение расходников для дежурных;

    • проводит контрольные мероприятия на проверку качества работы смен;

    • участвует в экзаменах на должность дежурных, отвечает за документацию смен, ее своевременное заполнение и порядок.

    В дата-центрах «Ростелеком-ЦОД» была должность, аналогичная старшему инженеру площадки, — технический администратор. На всех региональных площадках технический администратор совмещал обязанности старшего смены и старшего площадки. В ведении такого специалиста были обязанности по управлению дежурными эксплуатации.

    Это связано с тем, что в разных по размеру дата-центрах количество сотрудников изменяется в зависимости от объема задач. Обязанности распределяются в соответствии с имеющимися ролями. Главное — обеспечить необходимое число инженеров на сотню стоек и сделать команду взаимозаменяемой. На примере технических администраторов мы смотрели, как выстроить совмещение ролей для новых небольших дата-центров.

  4. Разный подход к отбору и подготовке дежурных. Без единой структуры обучения сложно говорить о равном уровне подготовки специалистов. Степень проработки обучения в таком случае зависит от интереса опытных инженеров к преподаванию. Вот пару ярких примеров:

    В Санкт-Петербурге у нас работает старший инженер холодоснабжения с большим опытом чтения лекций в университете (Михаил, привет!) В процессе обмена опытом мы увидели в дата-центре интересную систему обучения по направлению холодоснабжения. Например, для проверки знаний использовались тест-опросы, они расширили формат и базу нашего обучения.

    В московском дата-центре на пл. Академика Курчатова старший инженер по холодоснабжению Илья собрал в документ для коллег исчерпывающий список типовых алармов и аварийных ситуаций на оборудовании холодоснабжения. Теперь инженеров на этой площадке практически невозможно застать врасплох:

    Получилось 64 пункта на все случаи жизни.Получилось 64 пункта на все случаи жизни.

    Иногда система обучения собирается вокруг одного опытного и харизматичного наставника, который щедро делится опытом прямо в процессе работы. Но вот создать полноценный курс зачастую никак не доходят руки, многое держится на энергии этого специалиста.

К этому добавились трудности 2020–2021 года.

  • При объединении команда выросла и стала распределенной. Было необходимо налаживать совместную работу и придумывать, как управлять всеми процессами. Работать в распределенной команде непросто даже в мирное время.

  • А тут еще регулярно вмешивается пандемия. Если заболеваемость растет, становится невозможно проводить практические занятия, но без них в нашем деле никуда.

  • Для новых площадок нужно много новобранцев, так что способы набора и обучения должны быть массовыми. При этом нужно сохранять индивидуальный подход к каждому соискателю и учитывать карантинные ограничения.

  • В процессе роста компании обучение должно быстро адаптироваться под текущие задачи. Нужен аудит, регулярная проверка актуальности знаний.

  • Высокая занятость руководителей усложняет процесс подготовки. Нужно выделять дополнительных специалистов для обучения и распределения нагрузки. Сотрудников больше, мы много общаемся по видеоконференцсвязи, на взаимодействие уходит больше времени и сил.

  • Нам не хотелось делить площадки на центр и периферию. Мы стремились избежать «варяжничества»: когда приезжают люди из Москвы и начинают учить жизни опытных сотрудников. В регионах мы познакомились с крутыми специалистами, мастерами своего дела, и нам хотелось передать другим их компетенции и опыт.

Как меняли формат обучения для дежурных

К новой системе обучения у нас было несколько пожеланий:

  1. Сохранение ориентации на практику. Мало изучить инструкцию в теории, инженеры должны довести навыки до автоматизма уже при выполнении рабочих операций. У начинающих инженеров должно быть как можно больше возможностей «пощупать все руками» и потренироваться в реальных условиях.

  2. Использование онлайн-возможностей с умом. На первый взгляд, теоретические блоки обучения легко перевести в дистанционный формат. Можно записать лекцию на видео, сопроводить ее текстовыми материалами и разослать стажерам. Но без харизмы и подачи хорошего преподавателя даже отработанная годами лекция в онлайне может восприниматься не так хорошо. На дистанционке нужно вовлекать новичков в изучение другими способами.

  3. Вовлечение коллег в совершенствование системы обучения. На каждой площадке мы старались найти всех заинтересованных в обмене знаниями и создать им условия. Мы хотели, чтобы модель развития обучения напоминала не спущенный сверху стандарт, а экосистему с возможностью замечать и продвигать лучшие практики отовсюду.

  4. Показать новым инженерам перспективы для развития. Многие профильные инженеры вырастают именно из дежурных, и мы хотим сохранить максимум перспективных новичков. Система должна поддерживать желание развиваться и предлагать разные опции на выбор.

Вот с чего мы начали.

Адаптация материалов для распределенной команды. С началом пандемии мы перевели систему набора дежурных в удаленный формат. Подходящие онлайн-инструменты подбирали в несколько итераций, об этом процессе уже рассказывали вот тут.

Теперь нужно было адаптировать к каждой площадке все наработки: презентации, кейсы, экзаменационные билеты. Мы обратились к техническим администраторам: познакомили их с нашей методикой отбора, обсудили ее применимость на местах и совместно доработали материалы под площадку и оборудование.

Отдельный курс молодого бойца. Вводный теоретический модуль на отборочном туре мы преподаем и проверяем дистанционно. Следовательно, к началу стажировки инженеры-новички зачастую еще не успели обжать свою первую витую пару или что-то настроить. Поэтому стажировка начинается с двух-трехдневного курса молодого бойца на тестовом оборудовании.

Мы проводим новичкам экскурсию по площадке, обращаем внимание на маркировку и правила поведения, чтобы было легче ориентироваться на месте. Для первых опытов предоставляем тестовые стойки и тестовые версии ПО. Можно все пробовать и не бояться что-то сломать.

В дата-центре OST тестовая стойка установлена на посту дежурных инженеров.В дата-центре OST тестовая стойка установлена на посту дежурных инженеров.

После краткого курса новички уже готовы выходить в смену и делать первые шаги как дежурные инженеры.

Индивидуальный план обучения. За каждым стажером закрепляется наставник: старший смены или технический администратор. Вместе они создают план обучения с теоретическими и практическими блоками. Блоки легко менять местами: как только в дата-центре возникает подходящая задача, профильный специалист привлекает стажера на практику и затем отмечает пройденный материал в плане. Жесткого порядка изучения нет, план гибко подстраивается под реальную работу смены.

Первая страница типового плана.Первая страница типового плана.

Благодаря группировке материала в блоки стажеру проще увидеть структуру своего развития, понять требования для сдачи экзамена на дежурного инженера и узнать ближайшие перспективы.

Обычно мы ориентируем новичков на то, что на позиции дежурного инженера они будут набираться опыта около полугода. Но после сдачи экзамена и зачисления в штат инженер обычно сразу планирует следующий шаг — развитие внутри отдела диспетчеризации и технической поддержки или переход в профильный отдел.

Понятный переход к специализации. Когда наши дежурные инженеры набираются опыта, у них появляется перспектива перехода в отделы сети, виртуализации, Linux или Windows. На основе анализа перемещений сотрудников мы хотели выстроить понятную первую ступень обучения, необходимую для перехода.

Допустим, дежурный сдал экзамен для зачисления в штат, радостно подошел к наставнику и сказал: «Я хочу стать сетевиком, пусть меня научат». Раньше первым шагом для перехода было собеседование с начальником профильного отдела. Это создавало высокую нагрузку на руководителей.

Тогда мы разработали несколько вводных курсов по специализациям для самостоятельного изучения. Каждый претендент должен посмотреть этот материал до собеседования и в разговоре с руководителем уже показать определенный уровень знаний. Это небольшой входной фильтр: так мы отсеиваем людей, которые по разным причинам еще не готовы к профильному обучению.

Все курсы доступны на одной платформе обучения.Все курсы доступны на одной платформе обучения.

Курсы состоят из теории и практики. Например, для виртуализации могут быть такие практические задания:

  • развернуть виртуальную машину на домашнем компьютере;

  • задать базовые настройки для выхода ВМ в интернет;

  • развернуть вторую виртуальную машину, настроить ее подключение через шлюз первой, а потом все это выпустить в интернет.

Если дежурный инженер успешно справляется с курсом и проходит собеседование, он переходит на профильную стажировку параллельно с работой дежурным инженером. Теперь его график выглядит так: в качестве дежурного сотрудник работает сутки через трое, а в один из трех выходных стажируется в профильном отделе. Во время стажировки он учится заводить заявки, занимается типовыми задачами по администрированию, бок о бок с опытными коллегами.

Когда в этом отделе появляются вакансии, стажер сразу переводится на новую должность по специализации. После стажировки он может быстро выйти в смену и начать работу в боевом режиме. Вчерашние стажеры задают меньше вопросов старшим инженерам и не создают дополнительную нагрузку на вторую линию поддержки.

Какие материалы и форматы поддерживают процесс

ПО для работы инженера и его внедрение. Чтобы помочь инженерам освоить рабочие приложения, мы готовим отдельные блоки обучения. Для освоения типовой задачи в любом ПО создаем такие материалы:

  1. Видео с пошаговой инструкцией и практикой.

  2. Презентацию для преподавателей на местах.

  3. Регламенты и инструкции c описанием типовой задачи.

  4. Методичку для ответов на часто задаваемые сложные вопросы.

Перед внедрением такой типовой задачи мы проводим совещание, обсуждаем содержание материалов и при необходимости его корректируем. После внедряем и отрабатываем практику на площадках.

Для примера, как это работает с инвентаризацией оборудования. Для учета устройств мы используем специальную систему и наносим на устройства штрихкоды для считывания информации.

В первый день обучения по инвентаризации инженеры знакомятся с интерфейсом и проверяют корректность работы системы на площадке. На второй день заводят информацию о стойко-местах, на третий день проходят на практике учет оборудования. После этого барьер перед новой системой снимается и специалисты пользуются новым алгоритмом.

Платформа DataLearn. Большинство вводных курсов для перехода в профильные отделы хранится на платформе обучения iSpring. Это решение хорошо поддерживает онлайн-обучение: можно создавать текстовые лекции, видео с навигацией, тесты и опросы по результатам курса.

Для видеолекций указан тайминг. Во время просмотра стажер видит свой прогресс по курсу.Для видеолекций указан тайминг. Во время просмотра стажер видит свой прогресс по курсу.Для текстовых материалов тоже есть прогресс-бар.Для текстовых материалов тоже есть прогресс-бар.

Вики-система. Для серьезных и комплексных материалов мы используем базу знаний на confluence. Здесь хранятся материалы для подготовки к экзаменам, книги, инструкции. У каждого отдела есть свое пространство.

Рабочая документация. В работе дежурных инженеров есть немало инструкций, например:

  • регламенты для выполнения типовых операций: организация кроссировки, прокладка СКС, подпитка водяного контура;

  • аварийные инструкции на случай нештатных ситуаций.

Эту документацию мы унифицировали, чтобы даже на новой площадке в ней было легче ориентироваться. Инструкции доступны на учебной платформе и в базе знаний.

Такие разделы есть в инструкции по работе с ДГУ на площадке NORD. Пункты содержания кликабельные, один раздел — одна страница.Такие разделы есть в инструкции по работе с ДГУ на площадке NORD. Пункты содержания кликабельные, один раздел — одна страница.

На платформе iSpring по рабочим документам тоже есть тесты:

Тест по аварийным инструкциям ограничен по времени: в критической ситуации дежурному нужно будет сориентироваться быстро.Тест по аварийным инструкциям ограничен по времени: в критической ситуации дежурному нужно будет сориентироваться быстро.

Регулярные тренинги и проверка знаний на практике. Знание инструкций регулярно проверяем в бою, а также во время повторного обучения. Если дежурный инженер однажды сдал экзамен, это не значит, что можно все забыть. Мы повторяем проверку знаний на практике, чтобы подтвердить высокий уровень квалификации инженеров.

Процесс аудита учебных материалов. Не забываем время от времени проверять все наработки на актуальность и соотносить зафиксированное на бумаге с фактическим положением дел.

Сейчас какие-то материалы уже решают свою задачу. Но всегда хочется сделать их лучше: более наглядными и четкими, без воды. Так что доработка системы продолжается.

Обновленная система обучения для дежурных помогла по-другому взглянуть на работу профильных инженеров и инженеров эксплуатации. Такие специалисты — это уже не новички, а люди с объемом технических знаний. Им тоже важно делиться знаниями друг с другом и передавать опыт молодым инженерам. Мы дали им возможность подключиться к обучению дежурных, получили обратную связь по системе обучения и лучше наладили коммуникацию инженеров между собой и в рамках взаимодействия с другими отделами.

Дежурные инженеры, старшие смен и площадок видят возможность улучшить формат обучения и часто обращаются с предложениями. Их обратная связь помогает нам быть гибкими и адаптировать процедуры на практике.

Теперь для профильных инженеров и инженеров эксплуатации создаются узконаправленные центры компетенций на базе наших площадок:

  • Удомля — энергоснабжение;

  • Санкт-Петербург — холодоснабжение;

  • Москва — пожарная безопасность;

  • Екатеринбург — мониторинг.

Для обмена опытом планируем брать похожую структуру: платформу для обучения и ПО, сопровождающие документы, презентации, тесты и итоговый экзамен. Но об этом подробнее расскажем в другой раз.

© Habrahabr.ru