Как мы упоролись по энергоэффективности машзала
Посвящаю этот пост тем людям, которые врали в сертификатах, из-за чего мы чуть было не установили у нас в залах бенгальские огни.
Истории больше четырёх лет, но публикую сейчас, потому что закончился NDA. Тогда мы поняли, что загрузили дата-центр (который сдаём в аренду) почти полностью, а энергоэффективность у него что-то не очень улучшилась. Раньше гипотеза была в том, что чем сильнее мы его заполняем, тем лучше, потому что инженерка распределяется на всех. Но оказалось, что мы себя в этом плане обманывали, и при хорошей загрузке где-то были потери. Работали мы по многим направлениям, но наша отважная команда занялась охлаждением.
Реальная жизнь дата-центра — это немного не то, что в проекте. Постоянные докручивания от службы эксплуатации для повышения эффективности и оптимизация настроек под новые задачи. Вот взять мифическую среднюю стойку. На практике её не бывает, по нагрузке распределение неравномерное, где-то густо, где-то пусто. Вот и пришлось кое-что перенастроить для лучшей энергоэффективности.
Наш дата-центр Компрессор нужен для самых разных заказчиков. Поэтому там посреди обычных двух–четырёхкиловаттных стоек может оказаться вполне себе 23-киловаттная или больше. Соответственно кондиционеры были настроены на то, чтобы охлаждать их, и через менее мощные стойки воздух просто проносился мимо.
Вторая гипотеза была в том, что тёплый и холодный коридоры не смешиваются. После замеров могу сказать, что это иллюзия, и настоящая аэродинамика отличается от модели примерно всем.
Обследование
Сначала мы начали смотреть воздушные потоки в залах. Почему туда полезли? Так как понимали, что ЦОД рассчитан на пять-шесть КВт на стойку, но знали, что они по факту от 0 до 25 КВт. Регулировать всё это плитками почти невозможно: первые же замеры показали, что они почти одинаково пропускают. А плиток на 25 КВт вообще не бывает, они должны быть не просто пустыми, а с жидким вакуумом.
Купили анемометр и начали мерить потоки между стойками и над стойками. Вообще с ним надо работать по ГОСТу и куче стандартов, трудно выполнимых без остановки машзала. Нас интересовала не точность, а принципиальная картина. То есть замерили примерно.
По замеру из 100 процентов того воздуха, который выходит из плиток, в стойки попадает 60 процентов, остальное пролетает мимо. Это из-за того, что есть тяжёлые стойки на 15–25 КВт, по которым выстроено охлаждение.
Взять и притушить кондиционеры мы не можем, потому что на тёплых стойках в районе верхних серверов будет совсем тепло. В этот момент мы понимаем, что надо что-то от чего-то изолировать, чтобы воздух не прыгал из ряда в ряд и чтобы термообмен в блоке всё же происходил.
Параллельно с этим задаёмся вопросом, целесообразно ли это финансово.
С удивлением обнаруживаем, что энергопотребление ЦОДа в целом у нас есть, а вот посчитать фанкойлы по конкретному залу мы просто не можем. То есть аналитически можем, а по факту — нет. И оценить экономию мы не в состоянии. Задача становится интереснее и интереснее. Если мы сэкономим 10% мощности кондиционеров — сколько можно денег отложить на изоляцию? Как считать?
Пошли к автоматизаторам, которые допиливали систему мониторинга. Спасибо парням: все датчики у них были, надо было только дописать код. Они стали выводить отдельно чиллеры, ИБП, освещение. С новой приблудой появилась возможность смотреть, как меняется ситуация по элементам системы.
Опыты со шторками
Параллельно начинаем опыты со шторками (загородками). Решаем крепить их на штыри кабельных лотков (больше всё равно не к чему), благо они должны быть лёгкими. С навесами или гребёнками определились быстро.
Засада в том, что мы до этого работали с кучей вендоров. У всех есть решения для собственных ЦОДов компаний, но для коммерческого ЦОДа готовых решений нет по сути. У нас заказчики заезжают и выезжают постоянно. Мы один из немногих «тяжёлых» ЦОДов без ограничения по ширине стойки с возможностью принимать вот эти сервера-молотилки до 25 КВт. Никакого планирования инфраструктуры заранее. То есть если мы будем брать модульные системы кейджинга вендоров — всегда будут дыры на два месяца. То есть никогда машзал не будет энергоэффективным в принципе.
Решили делать сами, благо у нас есть свои инженеры.
Первое, что взяли, — ленты от промышленных холодильников. Это такие гибкие полиэтиленовые сопли, которыми можно ушатать. Вы их наверняка видели где-нибудь на входе в мясной отдел самых крупных продуктовых. Стали искать нетоксичные и негорючие материалы. Нашли, купили на два ряда. Завесили, стали смотреть, что получается.
Понимали, что будет не очень. Но получилось вообще очень прямо очень не очень. Они начинают, как макароны, развиваться на потоках. Нашли магнитные ленты типа как магниты на холодильник. Наклеили их на эти полосы, приклеили друг к другу, стена получилась в меру монолитная.
Начали прикидывать, что будет на зал.
Пошли к строителям, показываем свой проект. Те смотрят, говорят: шторки ваши что-то очень тяжёлые. 700 килограммов по всему машзалу. Идите, говорят, добрые люди, к чёрту. Точнее, к команде СКС. Пусть считают, сколько у них там лапши в лотках, потому что 120 кг на квадратный метр — максимум.
СКС говорят: помните, к нам приехал один крупный заказчик? У него десятки тысяч портов в одном зале. По краям машзала ещё нормально, но ближе к кроссовой крепиться уже не выйдет: лотки отвалятся.
Ещё строители попросили сертификат на материал. Отмечу, что мы до этого работали на честном слове поставщика, поскольку это был всего лишь тест-прогон. Обратились к этому поставщику, говорим: ОК, готовы выйти в бету, давайте все бумажки. Они присылают нечто не очень установленного образца.
Мы говорим: слушайте, а где вы эту бумажку взяли? Они: это нам наш китайский производитель в ответ на запросы прислал. По бумажке эта штука не горит вообще.
В этот момент мы поняли, что пора останавливаться и проверять факты. Идём к девчонкам из пожбезопасности ЦОДа, они называют нам лабораторию, которая проверяет горючесть. Вполне земные деньги и сроки (правда, мы прокляли всё, пока составляли нужное количество бумажек). Там учёные говорят: привозите материал, будем делать тесты.
В заключении было написано, что из килограмма вещества остаётся пепла примерно на 50 граммов. Остальное ярко горит, стекает и очень хорошо поддерживает горение в лужице.
Понимаем — хорошо, что не стали покупать. Начали искать другой материал.
Нашли поликарбонат. Он оказался более жёстким. Прозрачный лист — два мм, двери — из четырёхмиллиметрового. По сути, это оргстекло. Вместе с производителем начинаем разговор с пожаробезопасностью: давайте сертификат. Они присылают. Подписан тем же институтом. Мы звоним туда, говорим: ну чего, мужики, у вас такое проверяли?
Они говорят: да, проверяли. Сначала у себя пожгли, потом только на тесты принесли. Там из килограмма материала остаётся (если горелкой его жечь) примерно 930 граммов пепла. Он плавится и капает, но лужа гореть не будет.
Сразу же проверяем наши магниты (они на полимерной подкладке). На удивление горят плохо.
Сборка
Из этого начинаем собирать. Поликарбонат прекрасен, потому что он легче полиэтилена, куда хуже не гнётся. Правда, привозят листы 2,5 на 3 метра, и поставщику плевать, что с этим делать. А нам надо 2,8 шириной 20–25 сантиметров. Двери отправляли на конторы, которые режут лист как надо. А ламели порезали сами. Сам процесс реза стоит раза в два дороже, чем лист.
Вот что получилось:
Итог — система кейджинга окупается меньше чем за год. Это мы сэкономили по 200–250 КВт постоянно на мощности фанкойлов. Сколько-то ещё на чиллерах, сколько точно — не знаем. Серваки всасывают с постоянной скоростью, фанкойлы дуют. А чиллера включаются и выключаются гребёнкой: из неё данные сложно вытащить. Останавливать машзал нельзя для тестов.
Радуемся, что в своё время было правило ставить в модулях 5×5 стоек так, чтобы их среднее потребление было шесть КВт максимум. То есть тёплое не сосредоточено островом, а распределено по машзалу. Но есть ситуация, где 10 штук 15-киловаттных стоек рядом, но там напротив — сторадж. Он холодный. Балансируется.
Где нет стойки — нужна загородка до пола.
А ещё у нас некоторые заказчики изолированы решётками. С ними тоже было несколько особенностей.
На ламели резали, потому что ширина стоек нефиксированная, а периодичность гребёнки креплений определена: три-четыре см или вправо, или влево всегда будет. Если у тебя блок 600 под стойкоместо, то он с вероятностью 85 процентов не встанет. А короткие и длинные ламели сосуществуют и склеиваются. Иногда режем ламель буквой Г по контурам стоек.
Датчики
До того как уменьшать мощность фанкойлов, надо было настроить очень точный мониторинг температуры в разных точках зала, чтобы не словить сюрпризов. Так возникли беспроводные датчики. Проводные — на каждый ряд надо вешать свою штуку для кроссировки этих датчиков и иногда на неё — удлинители. Это превращается в гирлянду. Очень плохо. И когда эти провода заходят в клетки заказчикам, безопасники сразу возбуждаются и просят объяснить с сертификатом, что там по этим проводам снимается. Нервы безопасников надо беречь. Беспроводных датчиков они почему-то не трогают.
И ещё стойки приезжают-уезжают. Датчик на магните проще перемонтировать, потому что его каждый раз надо вешать выше или ниже. Если серверы в нижней трети стойки — надо вешать вниз, а не по стандарту на полтора метра от пола на двери стойки в холодном коридоре. Там мерить бесполезно, надо мерить то, что в железе.
Один датчик на три стойки — чаще можно не вешать. Температура не отличается. Опасались, что будет перетягивание воздуха сквозь сами стойки, — не случилось. Но мы всё равно даём чуть больше холодного воздуха, чем расчётные значения. Сделали окошечки в ламелях 3, 7 и 12, над стойкой делаем отверстие. В него при обходе ставим анемометр: смотрим, что поток идёт куда надо.
Потом повесили яркие ниточки: старая практика для снайперов. Выглядит странно, но позволяет сдетектировать возможную проблему быстрее.
Забавное
Пока мы всё это молча делали, приезжал вендор, который производит инженерку для ЦОДов. Говорит: давайте мы приедем и про энергоэффективность расскажем. Приезжают, начинают рассказывать про неоптимальный зал, воздушные потоки. Мы понимающе киваем. Потому что у нас три года как установлено.
Они на каждую стойку вешают по три датчика. Картинки мониторинга зашибенные, красивые. Больше половины этого решения в цене — софт. На уровне «алерт в Заббиксе», но проприетарный и очень дорогой. Засада ещё в том, что у них есть датчики, софт, и дальше они ищут подрядчика на месте: нет своих вендоров на кейджинги.
Выясняется, что их руками стоит в пять–семь раз дороже, чем мы сделали.