Миссия выполнима, или как мы проходили сертификацию Tier III Facility в работающем ЦОДе [Часть 1]
Представьте себе квест, где вам нужно превратить обычный дата-центр в настоящую холодильную камеру, при этом не заморозив клиентское оборудование и не устроив тропический рай там, где должен быть технологический холод. Или, например, нагрузить ЦОД по максимуму, а потом отключать источники питания, да так, чтобы все продолжало работать. И всё это под пристальным взглядом аудиторов, готовых придраться к каждому градусу!
В сентябре ЦОД Nubes прошел этот квест, чтобы заслужить сертификат Tier III Facility от UpTime Institute. И двое наших ребят поведали, как войти в ~5% дата-центров в мире, которые прошли проверку с находящимися в нем клиентами.
В этой статье Алексей Сидоров, старший инженер холодоснабжения, поделился своей историей и рассказал, как выжить в условиях, когда тепловые пушки и серверные стойки играют в свою версию «кошки-мышки», а система мониторинга решила устроить День независимости. Запасайтесь попкорном (только не кладите его близко к серверам) — будет жарко! Точнее, холодно. В общем, читайте сами!
Кто сильнее: тепловые пушки или кондиционеры?
Генеральный директор и директор по эксплуатации ЦОД поставили команде задачу — пройти аудит и получить сертификат Tier III Facility. Это важный для компании документ, который открывает двери для сотрудничества с самыми требовательными клиентами. Так как мы молодой провайдер, получить этот сертификат крайне необходимо.
У меня и моей команды подобного опыта раньше не было, и, если честно, я нервничал. Нервничал и активно готовился к проверке.
Глобально задача у старшего инженера холодоснабжения одна — привести все системы кондиционирования в «боевую» готовность, выйти на максимальную тепловую нагрузку и «простоять» на ней всю неделю, отключая резервные узлы согласно схеме резервирования. Плюсом надо было довести до идеала систему мониторинга и оповещения.
Кажется, что не так уж все и сложно. Пушки по всему ЦОДу врубил, кондиционеры активировал и ждешь себе спокойно семь дней. И так бы, может, оно и было, только первая и самая большая сложность в том, что дата-центр уже функционирует и в нем стоят десятки клиентов. Одна ошибка – и последствия будут печальными для всех.
А давайте-ка включим все на полную мощь и посмотрим, как все будет работать
Подготовка к аудиту — чудесная возможность увидеть недочеты и исправить их. В процессе тестирования мы столкнулись с неочевидными проблемами, которые в штатном режиме вряд ли бы заметили. Вот на что стоит обращать внимание:
1. При запуске всех прецизионных кондиционеров на полную обнаружились недостатки, которые мы не увидели в процессе комплексных испытаний. Например, время выхода компрессора на полную мощность после имитации пропажи питания достигало порядка 10 минут и температура поднималась до пиковых значений по условиям SLA. Нам пришлось долго изучать параметры и экспериментировать с конфигурациями, чтобы найти оптимальные настройки. После внесения корректировок время выхода кондиционера в нужный режим сократилось с 10 до 3 минут.
2. На дашборде мониторинга не отображались некоторые незначительные алармы кондиционеров, местами не соответствовала цветовая индикация, а расположения двух датчиков не соответствовали мнемосхеме. Разумеется, это все мы поправили.
Дашборд во время нагрузки
3. На момент аудита в залах уже были клиентские стойки, что очень сильно ограничивало нас в плане размещения пушек. Их необходимо много, и размещать пушки важно так, чтобы поток горячего воздуха не перегревал клиентские стойки. Для этого мы решили изготовить «холодные» коридоры. Но так как количество времени было ограничено, мы могли использовать только те материалы, которые можно достать сверхбыстро. Армированная пленка, профиль и скотч — идеальные варианты!
Минусы, конечно, тоже были. Структура стоек оказалась слишком фактурной, скотч держался плохо, и приходилось постоянно подклеивать образовавшиеся отверстия. В целом такое решение себя полностью оправдало. Прибегнул бы я к нему в схожей ситуации? Однозначно да!
«Холодные» коридоры из пленки
4. Когда кондиционеры начали работать на полную мощность, обнаружилась проблема с LAC-клапанами. После долгого простоя, рабочий шток внутри клапана закисал, оставляя клапан в открытом положении. Кондиционеры с избыточным количеством хладагента вставали по высокому давлению. А так как времени у нас было немного, приходилось буквально «перекусывать» трубки клапана, чтобы принудительно его закрывать. Клапаны, естественно, поменяли на новые.
Хорош не тот, кто не делает ошибок, а тот, кто делает выводы!
В конечном итоге, как вы уже поняли, все у нас получилось, но определенные выводы мы сделали. И если вы, как и я, отвечаете за холод в дата-центрах, то дочитайте до конца.
Вывод №1. Проходить сертификацию Tier III Facility лучше до того, как в ЦОД заедут клиенты, чтобы не возникало опасности перегрева клиентского оборудования.
Вывод №2. Подготовку к аудиту нужно начинать за 3–4 месяца.
Вывод №3. Тестирование с последовательным отключением по уровню N+1 могло бы помочь выявить проблему со скоростью выхода компрессора на полную мощность раньше. Но из-за недостаточной нагрузки в дата-центре такой тест проводился в ограниченном режиме.
Вывод №4. Важно фиксировать все изменения конфигураций, следить за количеством заправленного фреона, мониторить систему на предмет утечек и требовать от подрядчика официально оформленных объяснений, в случае если есть вопросы и сомнения.
Вывод №5. При приемке оборудования необходимо сымитировать как можно больше ошибок в работе систем холодоснабжения, чтобы проверить их идентичность с системой мониторинга. Да и вообще, все оборудование нужно принимать строго по чек-листу.
Вывод №6. Во время пусконаладочных работ клапан необходимо тщательно осматривать. Например, скрип при его работе — явный признак некачественного монтажа, что в дальнейшем приведет к его поломке.
Вот такая «леденящая» душу история и только про часть с системами охлаждения. Все, что касается электричества, расскажет мой коллега в следующем материале. И его статья будет уже не «леденящей» душу, а электрошокирующей.
Habrahabr.ru прочитано 21025 раз