Будни дата-центра: неочевидные мелочи за 7 лет эксплуатации. И продолжение про крысу
Сразу скажу: та крыса в привезённом сервере, которую мы пару лет назад отпоили чаем после удара током, скорее всего, сбежала. Потому что мы увидели как-то на обходе её подругу. И сразу решили поставить ультразвуковые отпугиватели.
Теперь вокруг дата-центра проклятая земля: на здание не садятся птицы, и, наверное, сбежали все кроты и черви. Беспокоились, что звук может вызвать выход из строя HDD, но проверили, частоты не те.
Следующая история гораздо веселее. Мы как-то получили железку за пару миллионов рублей в коробке с датчиками наклона, вибрации и влажности. Всё целое. Аккуратно сняли упаковку, а железяка гнутая. Мистика.
Корпус прямо дугой. Красиво так.
Детектив
Мы бы не придали этому значения, потому что выгнут металлический корпус был почти дизайнерским образом. Красиво так, без сколов. И если бы не другие такие же железки рядом, мы бы на распаковке даже не подумали, что что-то не так. Но рядом были такие же, только более правильной геометрической формы.
К счастью, распаковка такого железа снимается на видео (рекомендую всем завести такую привычку), поэтому удалось доказать производителю, что она такой приехала. Целая упаковка и аккуратно согнутый корпус — это не удар от грузчиков. Скорее всего, это она повредилась ещё до выезда в Россию.
Вендор говорит: «Эээ, парни, а давайте-ка мы её вам сразу по гарантии поменяем». И тут нас ждала эпическая засада.
Дело в том, что таможня разрешает ввозить нам такое оборудование по документам без права экспорта. То есть можно привезти, но перепродавать кому-то за пределы России нельзя. Когда мы отправляем назад сгоревший блок питания, например, всё понятно. Это запчасть, блок питания.
А тут понадобилось отправить назад всё:
— Парни, смотрите, мы железку назад производителю отправляем.
— Оборудование целиком?
— Да.
— Модель такая-то?
— Да.
— Может работать?
— Не знаем, не включали.
— Значит, это целое оборудование.
— Ну она ж не работает.
— Ну смотрите, целое оборудование вот такой модели. Без права реэкспорта. Не пустим.
В общем, было много приседаний, прежде чем разобрались, что мы его не экспортируем, а отдаём обратно. В итоге удалось всё сделать.
Ещё были бахильницы
У нас сначала много лет назад была первая автоматическая, мечта админа. Загружаешь туда бахилы пачкой, она их сама распаковывает, открывает и ставит в положение, где надо только наступить. Чпок-чпок и готово.
Примерно через полгода она пережевала около ста пачек бахил и подавилась. Оказалось, там столько подвижных частей, что надо либо ремонтировать её раз в месяц на нашей нагрузке (у нас очень много инженеров-заказчиков по объекту ходит, потому что мы коммерческий ЦОД), либо же надо покупать новую.
Вторая проблема в том, что потом на одной из регулярных уборок мы как-то нашли «синенькую тряпочку», болтающуюся на решетке одной из стоек своего тестинга. Судмедэксперт в лице инженера икс-команды опознал фрагмент тела бахилы. Оказалось, что это в поликлинике с бахилами удобно: полчаса походил — и всё. А некоторые инженеры могут целый день работать с железом. Шаркая ногами. Сильно шаркая. И бахилы при этом истираются в эти вот маленькие лоскутки, которые летают по машзалу.
Мы почти сразу купили новую бахильницу. Взяли термобахильницу: это машина, в которую заряжается плёнка, и она эту плёнку аккуратно термоусаживает поверх ботинка. Красиво, эффективно, прочно. Меньше разлетается. Довольно долго она у нас стояла, но надо было примерно раз в 1–2 часа менять термоусадочную плёнку, потому что подошва имела свойство отваливаться сама.
Мы сначала думали, что это нам не везёт, а у людей как-то эта проблема решается. Но нет. Спросили западных коллег — та же история. В итоге стали думать, как же сделать нормально. Возвращаться из машзала за новыми бахилами — идея, прямо скажем, так себе. Нашли промышленные очистители для стройплощадок и производств. Это что-то вроде дорожек, по которым в цех заходит смена. Дорожки с кучей роликов чистят всё, и сделаны так, что хочешь или нет — поймает и почистит. Они стоят по полмиллиона-миллиону рублей. Мы поковырялись и нашли такую же за 200 тысяч, но ногу в неё надо совать самому. По габаритам похожа на машинку для чистки обуви. Подходишь, пихаешь туда ногу, она её жуёт и отдаёт обратно чистой. Поставили на входе в ЦОД.
Работает отлично за исключением двух нюансов. Первый — довольно быстро выяснилось, что это она нам, инженерам нормально. А на практике в ЦОД приходят посмотреть самые разные люди, среди которых — топы крупных компаний. С обувью из кожи с жопы дракона. А у них даже для нанесения крема на обувь щётка стоит дороже, чем мои тренировочные кроссовки, они там специально ворс подбирают. Они-то и отказывались пихать ноги в наш чудо-девайс. Вторая проблема возникла зимой: когда обувь прям вот очень в месиве, она из глубокого протектора может достать не всё. Потом ходишь по залу, оставляешь следы эктоплазмы.
Решили просто. Поставили рядом рулонную бахильницу. Всё равно у нас всё надо дублировать по стандарту.
Возникла новая проблема. Наблюдая за поведением инженеров-заказчиков, мы видели такую картину: они сначала совали ногу в машину для очистки, а потом цепляли бахилы из рулонной бахильницы. Сейчас повесили табличку, что либо то, либо другое, и лучше очиститься, но если жизненные принципы запрещают чистить обувь, то надевайте бахилы. Вроде тикет, который был на пару дней, а растянулся надолго, закрылся. Вот устройство:
Два раза «ку»
По требованиям PCI DSS, нужно иметь возможность визуально отличать роли людей, находящихся в ЦОД. Не присматриваясь к пропуску и читая там что-то, а прям визуально, как военные друг друга отличают по погонам, только ещё ярче. Мы решили не выпендриваться и использовали старый добрый чатланский метод — цветовую дифференциацию штанов. Конкретно — стали делать ленты пропусков разного цвета. Зелёный как свой любимый сразу забрали наши админы.
Звучит просто, но это вызвало три неожиданных эффекта:
- Нужны были ретракторы для автоматического втягивания этих пропусков при ношении (это такие штуки, которые сами регулируют длину ленты). Мы написали ТЗ, где учли все пожелания всех департаментов. Это было стратегической ошибкой. Цвет, формат, материал, ретрактор не пластиковый, леска из металла, чтобы лого нанести, чтобы он был вшит в ленту. Штуки получились такими дорогими, что пришлось потом порезать требования и поменять формат.
- Когда дифференциация штанов заработала, стало очень удобно. У подрядчиков одни ленты, у внешних админов другие, у наших админов третьи. Видно, у кого какая роль. В электрике — только серые, в кондиционировании — синие. И тут понадобились ленточки для водителей (это отдельная роль, они могут заходить в зону разгрузки, но не могут её покидать кроме как наружу). При этом пропуска водителям не надо. Сначала мы им давали ленточки без пропусков. Потом безопасники решили, что это совсем странно и унижает человеческое достоинство водителей. У них своя военная логика, поэтому теперь водители приходят получать пропуск сразу с лентой, но этот пропуск никуда не пускает. С точки зрения охраны получается маркер, что охрана этого человека проверила.
- Один из наших инженеров предложил вместо ленты сделать форменные свитера зелёного цвета. И отправил рационализаторское предложение. Сделали наполовину: пропуска с лентой оставили, плюс ещё действительно пошили зелёные форменные свитера. Теперь у нас есть униформа админа. Безопасники поддержали шутку и внесли её в регламенты. Теперь она обязательная (штаны, рубашка, свитер, но свитер можно снимать).
Ещё наши заказчики часто жаловались на кривые маршруты в картах до въезда в наш дата-центр «Компрессор». Забиваешь адрес, а дорога показывается неверно. Посетители в итоге заруливали не туда, потому что там железная дорога, а за ней пробка, и там не развернуться. Сначала мы хотели повесить указатели над дорогой. Есть такая услуга у города — под обычными указателями разместить жёлтые дополнительные, они считаются рекламой. И цена на них как на рекламу: на шоссе Энтузиастов одна табличка обходится в миллион рублей в год. Параллельно мы написали в Яндекс, и они даже внезапно ответили. И перестали безобразничать. Даже можно указать диоды ворот: въезд через одни, выезд через другие.
Гугл, если вы нас читаете, то знайте: у вас проблема всё ещё есть, и мы не знаем, кому об этом сказать, чтобы нас услышали.
В письма-приглашения вставили ссылки не просто на адрес, а на адрес с прокладываемым маршрутом от геопозиции пользователя. В итоге промахиваться стали меньше.
Гобо-проекторы и другие мелочи
Вот вы знаете, что такое гобо-проекторы? Мы тоже не знали. Как-то думали, как маркировать ряды стоек. Сами стойки, естественно, промаркированы специальными быстросъёмными маркировками, но их видно с расстояния 1–2 метра. Сам зал 500 кв.м, поэтому заблудиться там есть где. Поэтому всё-таки подступились к маркировке рядов. Начался брэйншторм. Как маркировать, чем и куда? На полу, на стене, указатели на потолке и тд. И тут наш коллега увидел, что в «Икее» на полу раньше были истирающиеся наклейки, а потом появились световые стрелочки. Ну мы решили отреверсить простым способом: пойти в «Икею» и вывернуть один из проекторов посмотреть. Достать его не удалось: пока мы носили стулья, продавец спросил, что мы делаем. И сразу помог, сказав, что это гобо. Оказывается, это не сам проектор, а пластина или линза для цветного изображения. Вот этот светофильтр и есть гобо. Один проектор стоит от 40 тысяч рублей (там мощная лампа для дневного использования), а у нас 14 рядов в каждом из четырёх машзалов. Поэтому поклеили наклейки.
Ещё у нас схемы на стенах с годами выцветают. Мы их поменяли на ламинированные, с «вшитыми» специальными кармашками для ревизорро. Ревизорро в нашем случае — это главный инженер, в обязанности которого входит проверка на актуальность всех схем, размещённых в ЦОД. Так вот, все схемы должны ежегодно проверяться и подписываться таким ревизорро. А наличие специального маленького журнала в кармашке схемы делает эту процедуру проще и не требует замены самой схемы каждые три года. Профит!
Делали роторную чистку фальшпола снаружи. У нас есть уборки регулярные, есть методики и время проведения уборок. Но от колёс тяжёлых стоек остаются следы. Сделали чистку. Теперь нервничаем: сильно аккуратнее на вид не стало, зато появились блики под определёнными ракурсами у определённых людей, ну у которых свои фломастеры на свой вкус. Сейчас задумались и ищем какую-то химию, которая выбелит пол и придаст лоска. Чтобы даже у избранных вопросов не было.
Видели консольные стойки? Это которые разъездные фуршетные столики, только вместо напитков там терминал для подключения в стойку. Так вот у этих консольных стоек колёски отваливаются и клинят, как у тележек в супермаркете. Достало нас неимоверно. В итоге единственный возможный способ реанимировать — купить новое колесо. А колёса достать конкретно к нашим моделям уже не вышло, мы всех подрядчиков опросили. В итоге сами спроектировали стойку под себя, делая акцент на удобство передвижения по машзалу и ремонтопригодность. Очень хорошо получилось.
Была история с синтетическими носками. Есть такая штука — антистатические браслеты. Это когда ты подходишь к стойке, подключаешь браслет к земле на стойке, и он связывается с системой уравнивания потенциалов. Так вот, стойка-то заземлена, но может оказаться, что инженер не заземлён. Коллеги с прошлых мест работы рассказывали, как пару раз видели искры на видеонаблюдении, и мы у себя решили от греха обязать всех прямо по регламенту пользоваться.
Критичные инциденты
Из серьёзного — была ситуация, когда разом отрубились все чиллеры. Чиллеры у нас не защищены ИБП, потому что мы верим в физику, и в качестве резерва по температуре у нас бассейн с захоложенной водой. Если что-то отключается, нужны не батареи для питания чиллеров, охлаждающих воду, а просто сама холодная вода, уже готовая. Удобно и просто, но есть нюанс. На чиллерах стоит защитная автоматика, которая при опасных параметрах электрической сети их отключает. Если ввод отключается, мы включаем ДГУ, и дальше чиллеры питаются от них. Всё бы хорошо, если бы мы жили не в России. У нас много раз были просадки сети, но всё было хорошо. А вот однажды скачок был резкий сначала вниз, потом резко вверх, потом опять вниз — за несколько секунд параметры ввода менялись примерно в 4 раза. Чиллеры отключились, естественно. Мы их сначала попробовали включить удалённо, но они защитили себя очень надёжно, по-аварийному. Пришлось смене идти ножками на крышу и включать их вручную. Что важно, по TierIII-стандарту, такая ситуация — это легитимная причина остановки ЦОДа. У нас остановки не было, потому что люди на местах с головой, и есть муштра с учениями. За это нас UI сношал просто регулярно, чтобы быть уверенными про TIII Operational. Если что, мы прошли ресертификацию UI на TIII Gold — Operational Sustainability. На российском коммерческом рынке дата-центров ничего круче нет, кроме нашего такой же ачивкой обладает всего один ЦОД. Отмечу, что ресертифицироваться тяжелее, чем получить сертификат с нуля, поскольку они проверяют ещё прошлый период как не в себе, и доказательств требуется куда больше.
Был интересный инцидент с камерами. Решили пересчитать слепые зоны на всякий случай, нарисовали пересечения, построили диагонали углов обзора на плане, и вдруг нашли мёртвую зону примерно 30 сантиметров на 15 метров прямо в центре одного из залов. Узкая и длинная. В соседнем зале такой нет. Оказалось, что поворотная камера медленно сдвинулась за годы так, что стала показывать примерно на полтора градуса левее, чем надо в крайнем положении.
Ещё большой случай был в посте про ремонтную замену ДДИБП.