Жизнь ЦОДа после сдачи в эксплуатацию

Многие считают: построили ЦОД, и дело сделано. На самом деле только после этого и начинается каждодневное решение большой и сложной задачи — эксплуатации дата-центра.Основные проблемы, которые возникают при управлении эксплуатацией ЦОДа, — обеспечение безотказной работы и снижение расходов на эксплуатацию не в ущерб надежности.

Грамотное решение и первой, и второй задачи определяется рамками программы эксплуатации дата-центра. Периодически в отрасли ведутся разговоры о том, что для правильной эксплуатации должна быть принята единая программа эксплуатации. И она, безусловно, должна быть. Но вот что касается единой… На разных объектах начинка разная, поэтому и программы для разных ЦОДов будут отличаться. Во всяком случае, когда площадка проходит сертификацию Uptime Institute на операционную устойчивость, каждый объект рассматривается индивидуально. Инструкции для ИТ-специалистов будут везде одинаковые, а для персонала, обслуживающего инженерное оборудование, и технические, и аварийные регламенты будут разными.Кстати, наличие программы эксплуатации важно и с точки зрения репутации компании: по крайней мере, заказчики на это смотрят. И в этом есть резон: если инструкции проработаны, значит существует надежда, что их будут выполнять. Но если инструкций нет — их точно выполнять никто не будет.

Количество проблем на этапе эксплуатации можно существенно снизить, если концептуальный проект такой программы будет разрабатываться параллельно этапу проектирования, и при этом отделы проектирования и эксплуатации буду работать бок о бок. По меньшей мере это позволит избежать ошибок, связанных с неудобством обслуживания отдельных компонентов ЦОДа.

В теории уменьшить количество ошибок помогает независимая экспертиза, но для этого независимый эксперт должен быть Экспертом. К сожалению, экспертом сегодня себя называет кто угодно… На самом же деле настоящим Экспертом может быть лишь тот человек, который имеет собственный опыт строительства ЦОДа, и желательно не одного, а как минимум десяти. Но таких специалистов в России пока нет.

Многие уповают на сертификацию. Сертификация Uptime Institute действительно отфильтровывает в проектах ошибки, но в основном только грубые. Так что правила эксплуатации сначала разрабатываются, а потом дополняются с учетом тех ошибок, которые были выявлены и исправлены в ходе эксплуатации. Поэтому программа эксплуатации должна постоянно обновляться. Эти документы рождаются не на пустом месте — они аккумулируют опыт обслуживающего персонала на реальном объекте.

Ставим ЦОД «на крыло«В отрасли дата-центров сейчас активно идет поиск подходов и обсуждаются разнообразные варианты формирования стандартов эксплуатации, в том числе — разработка «с нуля», частичное заимствование из других областей деятельности, адаптация иностранных практик.На ключевых конференциях, посвященных тематике ЦОД, уже приводились примеры решения задачи управления эксплуатацией на основе заимствования из других отраслевых практик. В частности, из практики авиационной отрасли примером для отрасли дата-центров могут стать детально разработанные программы эксплуатации и технического обслуживания летательных аппаратов. Это хороший пример стандартизации процессов, где своими силами эксплуатацию и техническое обслуживание в полной мере обеспечить невозможно: требуется проработка процессов взаимодействия с огромным перечнем поставщиков…

Конечно, 100-процентную аналогию проводить нельзя: программа управления эксплуатацией в авиационной области отличается избыточностью. В авиации существует несколько тысяч отраслевых стандартов и предусмотрены разного рода методики, включая руководство по эксплуатации для отдельных видов техники. В ЦОДе масштаб процессов эксплуатации не столь велик.

Но в общем и целом задача управления эксплуатацией схожа для различных отраслей, поэтому методики регламентации деятельности ЦОДа можно не изобретать, а попытаться приспособить для нужд дата-центра подходы, применяемые в других отраслях.

Обслуживание по фактическому состоянию Одна из наиболее интересных тенденций сегодняшнего времени в области эксплуатации дата-центров — использование системы прогнозирования состояния. Связано это с тем, что традиционные системы обслуживания производственных объектов по плановым показателям становятся весьма неэффективны из-за своей дороговизны. Поэтому в последнее время наметилась тенденция к управлению надежностью и обслуживанию по фактическому состоянию, когда все ремонтные работы и работы по техническому обслуживанию производятся в зависимости от состояния системы.В традиционной практике регламентные работы проводятся независимо от того, в каком состоянии находится техника. В управлении по фактическому состоянию, если подошел срок технического обслуживания системы, но она находится в полном порядке, принимается разумное решение продолжить эксплуатацию.

Когда Rolls-Royce ставит свои турбины на реактивные самолеты, производится съём огромного объема информации с датчиков. Имея такой объем данных, можно с высокой точностью предсказать вероятность отказа двигателя. Такой метод позволяет предвосхитить наступление нежелательной ситуации за несколько десятков-сотен часов, поставив проблемные элементы на техобслуживание.

Конечно, для такого подхода важен всеобъемлющий и качественный мониторинг. При его наличии техобслуживание делают не тогда, когда положено, а когда это действительно требуется. Потому что любой инженер на производстве заинтересован перестраховаться и починить как можно больше, лишь бы ничего не вышло из строя. Такая же проблема, например, существует в электротехнической отрасли: огромные деньги «закапываются» в новые стройки, в техобслуживание — надежность растет, но, с другой стороны, огромные деньги выбрасываются, по сути, на ветер.

Система контроля за эксплуатацией по фактическому состоянию подразумевает большое количества систем мониторинга — в зависимости от того, как давно строился объект. Необходимость планового ремонта по фактическому состоянию позволяет сократить количество ремонтов в несколько раз. Это огромный потенциал для экономии, особенно в крупных ЦОДах.

Алексей Солдатов, генеральный директор компании DataPro

© Habrahabr.ru