О ЦОДе начистоту: как мы решали проблему пыли в серверных помещениях дата-центра
Привет, Хабр! Я Тарас Чирков, директор ЦОД Linxdatacenter в Санкт-Петербурге. И сегодня в нашем блоге я расскажу о том, какую роль в нормальной работе современного дата-центра играет поддержание чистоты в помещении, как правильно ее измерять, достигать и поддерживать на нужном уровне.
Триггер чистоты
Однажды к нам обратился клиент дата-центра и в Санкт-Петербурге по поводу слоя пыли в нижней части стойки с оборудованием. Это и стало отправной точкой расследования, первые гипотезы которого предполагали следующее:
- пыль попадает в серверные залы с подошв обуви сотрудников и клиентов дата-центра,
- заносится через систему вентиляции,
- и то, и другое.
Синие бахилы — на свалку истории
Начали с обуви. На тот момент проблема чистоты решалась традиционным способом: контейнер с бахилами при входе. Эффективность подхода не достигала желаемого уровня: контролировать их использование гостями ЦОДа было тяжело, а сам формат — неудобен. Быстро отказались в пользу более продвинутых технологий в виде бахильной машины. Первая установленная у нас модель такого аппарата провалилась: машина слишком часто рвала бахилы при попытке надеть их на обувь, ее использование больше раздражало, чем облегчало жизнь.
Обращение к опыту коллег в Варшаве и Москве не решило задачу, и в итоге выбор был сделан в пользу технологии наплавления термопленки на обувь. С помощью термопленки можно надеть «бахилы» на обувь с любой подошвой — вплоть до тонкого женского каблука. Да, пленка тоже, бывает, соскальзывает, но куда реже, чем классические синие бахилы, а сама технология — в разы удобнее для посетителя и современнее. Еще важный (для меня) плюс — пленка легко покрывает самые большие размеры обуви, в отличии от традиционных бахил, рвущихся при попытке надеть их на 45-й размер. Для пущей современности процесса установили урны с автоматизированным открытием крышки по датчику движения.
Выглядит этот процесс так:
Гости сразу оценили новшество.
Пыль на ветру
Приведя в порядок наиболее очевидный канал возможного загрязнения пространства, мы взялись за более тонкие материи — за воздух. Вполне вероятно, что значительная часть пыли поступает в серверные через вентиляцию ввиду недостаточной фильтрации, или заносится с улицы. Или всё дело в низком качестве уборки? Расследование продолжилось.
Мы решили взять замеры содержания частиц в воздухе внутри дата-центра и пригласили для проведения этих работ лабораторию, специализирующуюся на контроле качества воздуха в чистых помещениях специального назначения.
Сотрудники лаборатории замерили количество контрольных точек (20), составили расписание забора проб для отслеживания динамики и создания максимально точной картины. Стоимость полного процесса замеров лабораторией составила около 1 млн. руб., что показалось нам совершенно нецелесообразным, однако дало ряд идей для самостоятельной реализации. Попутно стало понятно, что лаборатория — это хорошо, но анализы надо проводить в динамике и постоянно обращаться к их услугам крайне неудобно.
Посмотрев на планируемые действия лаборатории, решили посмотреть на более утилитарные устройства для самостоятельной работы. В итоге нам удалось найти необходимый для данной задачи инструмент — анализатор качества воздуха. Вот такой:
Прибор показывает содержание частиц разного диаметра (в микрометрах).
Пересматривая стандарты
Этот прибор анализирует количество частиц, температуры, влажности и показывает результаты в единицах измерения соответственно со стандартами ISO по данному параметру. На дисплее видны уровни содержания частиц с разными диаметрами в пробе воздуха.
Параллельно грешили на фильтры: на тот момент использовали внутри серверных помещений модели фильтров G4. Эта модель обеспечивает грубую очистку воздуха, поэтому допускали вероятность пропуска частиц, приводивших к загрязнению. Решили закупить на пробу фильтры тонкой очистки F5, применяемые в системах кондиционирования и вентиляции в качестве фильтров второй ступени очистки (доочистки).
Расследование провели — можно приступать к контрольным замерам. В качестве ориентира решили использовать требования стандарта ISO 14644–1 по количеству взвешенных частиц.
Классификация чистых помещений по количеству взвешенных частиц.
Казалось бы — измеряй и сравнивай по таблице. Но не все так просто: на практике оказалось достаточно затруднительно найти стандарты чистоты воздуха для серверных помещений ЦОДа. В явном виде это нигде не прописано, ни одной организацией или отраслевым институтом. И только на внутреннем форуме Uptime Inside Track (доступ к нему имеют лица, прошедшие обучение по программам Uptime Institute) нашлась отдельная дискуссия на эту тему. По итогам ее изучения склонились к ориентации на стандарт ISO 8 — предпоследний в классификации.
Первые же замеры показали, что мы себя недооценивали — результаты проверок внутреннего воздуха дали соответствие требованиям ISO 5 во внутренних помещениях, что значительно превышало желаемые участниками Uptime Inside Track нормативы. При этом — с большим запасом. У нас дата-центр, а не биологические лаборатория, конечно, но, чтобы концентрация частиц в воздухе была равна ISO 8 — это должен быть объект класса минимум «цементный завод». И как можно применять тот же стандарт к дата-центру — не очень понятно. При этом, результат на ISO 5 мы получили, делая замеры при фильтрации воздуха фильтрами G4. То есть, пыль в стойки через воздух попадать не может, фильтры F5 оказались избыточными, и их даже не стали применять.
Отрицательный результат — тоже результат: мы продолжили поиски причины загрязнения в других направлениях, а контроль качества воздуха включили в ежеквартальные проверки, совместив со проверками датчиков BMS поверенными устройствами (требования ISO 9000 и аудитов клиентов).
Ниже — пример отчета, который заполняется на основании данных, полученных при замере. Для большей точности замеры производятся двумя приборами — Testo 610 и датчиком БМС. В шапке таблицы указаны предельные значения для приборов. Отклонение указанных параметров автоматически выделяется цветом для облегчения идентификации проблемных участков или временных периодов.
У нас все четко: разница в показателях приборов минимальна, а концентрация частиц намного ниже предельной границы.
Через черный вход
Так как в чистые помещения имелись еще и другие входы помимо главного входа для клиентов, где мы установили бахильную машину, оставалась необходимость исключения попадания грязи в ЦОД через них.
Надевать/снимать бахилы во время процедур по разгрузке оборудования неудобно, поэтому нашли автомат для чистки подошв. Удобно, функционально, но сказывается человеческий фактор в виде необязательности подхода к этому аппарату. По сути, тоже самое, что с бахилами на главном входе.
Для решения задачи стали искать варианты очистки, от которых нельзя уклониться: с этим лучше всего справлялись липкие ковры с отделяемыми слоями. В процессе авторизации у входных дверей, посетитель обязательно встает на такой коврик, удаляя лишнюю пыль с подошв своей обуви.
Уборщицы отрывают верхний слой такого коврика каждый день, всего в нем 60 слоев — хватает примерно на 2 месяца.
Посетив ЦОД Ericsson в Стокгольме, в числе прочего я обратил внимание на то, как решают эти вопросы там: наряду с отрываемыми слоями в Швеции используют многоразовые антибактериальные ковры Dycem. Идея понравилась из-за принципа многоразовости использования и возможности обеспечить большую площадь покрытия.
Волшебный антибактериальный ковер. Жаль, не самолет, а мог бы — по такой-то цене!
С трудом нашли в России представителей компании и произвели оценку стоимости решения для нашего дата-центра. В итоге получили цифру почти в 100 раз дороже решения с многослойными коврами — примерно тот же самый 1 млн рублей, что и в проекте с замерами чистоты воздуха. Кроме того, выяснилась необходимость использования спецсредств для очистки, естественно, доступных только у этого производителя. Решение также отпало само собою, остановились на многослойном варианте.
Ручной труд
Особо хотелось бы обратить внимание, что все указанные меры не отменяли использования труда уборщиц. В рамках подготовке к аттестации ЦОДа Linxdatacenter по стандарту Uptime Institute Management & Operations требовалось четко регламентировать действия сотрудников службы клининга на территории ЦОДа. Были составлены подробные инструкции, предписывающие, где, что и каким образом им необходимо делать.
Пара выдержек из инструкции:
Как видно, прописывается всё, буквально каждый аспект работы в конкретном помещении, допустимые для использования чистящие средства, материалы и т.д. Без внимания не остается ни одна деталь, даже самая мелкая. Инструктаж — под подпись каждого сотрудника службы. В серверных помещениях, электро-помещениях и т.д. они убираются только в присутствии уполномоченных сотрудников ЦОДа, например, дежурного инженера.
Но и это еще не всё
Также в перечне мер, гарантирующих чистоту в ЦОДе: обходы с визуальным осмотром помещений, в том числе еженедельные осмотры стоек на предмет обнаружения оставленных внутри них обрезков проводов, остатков упаковок от оборудования и компонентов. По каждому такому эпизоду заводится инцидент, клиент получает уведомление о необходимости устранения нарушений в кратчайшие сроки.
Также, для распаковки и настройки оборудования нами создана отдельная комната — это тоже часть клининговой политики компании.
Еще одна мера, которую мы почерпнули из практики Ericsson — поддержание постоянного подпора воздуха в серверных помещениях: внутри помещений давление больше, чем снаружи, чтобы не было тяги внутрь — об этом решении подробнее расскажем в отдельном материале.
Наконец, мы завели себе роботов-помощников для помещений, которые исключены из перечня доступных для посещения клининговым персоналом.
Решетка сверху не только дает +10 к защите робота, но и позволяет ему не застревать под вертикальными кабельными лотками стоек.
Неожиданная находка как вывод
Чистота в ЦОДе важна для эксплуатации серверного и сетевого оборудования, которое тянет воздух через себя. Превышение допустимых показателей запыления приведет к скоплению пыли на компонентах и суммарному повышению температуры в пределах до 1 градуса по Цельсию. Пыль снижает эффективность охлаждения, что в пересчете на год может оборачиваться заметными косвенными издержками, а также влиять на отказоустойчивость объекта в целом.
Можно сказать, что это умозрительное допущение, но эксперты Uptime Institute, проводившие сертификацию ЦОДа Linxdatacenter по стандарту качества операционного управления (Management & Operations) уделяют самое серьезное внимание чистоте. И тем более приятно было получить по этому направлению самые лестные оценки: требования сертификации наш дата-центр в Петербурге серьезно превышает. Эксперт института назвал нас «самым чистым ЦОДом, который он видел», более того, наш ЦОД используется Uptime в качестве примера решения вопроса с чистотой серверных помещений. Также, мы с легкостью проходим любой клиентский аудит по этому параметру — самые серьезные требования самых капризных клиентов удовлетворяются с превышением.
Вернемся к началу истории. Откуда же взялись загрязнения по той самой жалобе из начала статьи? Та часть стойки клиента, которая стала причиной запуска всего проекта «чистота в ЦОДе», была загрязнена с момента ввоза и установки стойки в дата-центр. Клиент не очистил стойку к моменту ввоза в серверное помещение — при проверке соседних стоек, установленных в то же время, выяснилось, что там с пылью та же самая ситуация. Эта ситуация послужила поводом для добавления пункта контроля очистки в клиентский чек-лист по установке стойки. О вероятности подобных вещей также никогда нельзя забывать = предупрежден, значит, вооружен. Это всё о «чистоте и диктатуре» в нашем ЦОД, в следующей статье расскажу о датчиках давления, а пока задавайте вопросы в комментариях.