Тестируем космические технологии: насколько эффективно пассивное охлаждение серверов?
Чем больше вычислительных ресурсов мы установим в единицу объема машинного зала, тем рентабельнее будет весь комплекс и тем сильнее он будет греться. Системы охлаждения совершенствуются, однако отвод тепла от электронных компонентов по-прежнему основан на использовании вентиляторов и массивных радиаторов. Можно изолировать холодные или горячие коридоры, устанавливать продвинутые системы мониторинга и управлять воздушными потоками в реальном времени, но технологический предел эффективности таких решений уже достигнут. И где разумная тому альтернатива?
Специалисты HOSTKEY завершили пилотное внедрение альтернативной разработки компании «Теркон» — создателя систем охлаждения для космических аппаратов. Ниже — подробности внедрения, нюансы самой технологии и результаты тестов.
Центры обработки данных потребляют большое количество электроэнергии, около 60% которой расходуется на работу серверов и выделение ими тепла, 30% на охлаждение и 10% — на обеспечение бесперебойного питания. У старых ЦОД показатели могут быть хуже (40/50/10).
Почему «Теркон»?
Существуют различные способы охлаждения ИТ-оборудования, вплоть до погружения серверов в электрически нейтральный жидкий теплоноситель. Их выбор ограничен в первую очередь техническими условиями дата-центра, поэтому перспективную экзотику пришлось отмести. Нам требовалось более приземленное решение, совместимое с выпускающимися серийно серверами и, что самое главное, с инженерной инфраструктурой площадки.
В более эффективном отведении тепла от оборудования заинтересован в первую очередь оператор ЦОД, который делится с нами некоторыми бенефитами: уменьшается стоимость аренды в пересчете на единицу вычислительной мощности, а значит наши услуги становятся более конкурентными.
Одним из экспериментов HOSTKEY в этом направлении стало тестовое внедрение двухфазной системы теплоотвода «Теркон». Решение российского производителя имеет ряд преимуществ:
снижение прямых энергозатрат на охлаждение серверов за счет уменьшения потребления воздуха;
более высокая безопасность оборудования по сравнению с жидкостными системами;
возможность адаптировать систему охлаждения под нестандартные решения;
поддержка отечественного производителя — их и так мало;
система не требовательна к обслуживанию и работает по принципу «поставил и забыл» — уменьшается нагрузка на персонал.
Помимо плюсов, у системы «Теркон» есть и минусы, главный из которых — недостаточная проработанность технологии. «Из коробки» ничего не заводится. Точнее, во время пуско-наладочных работ возникают решаемые проблемы.
Что такое «Теркон»?
Ключевой элемент систем охлаждения компании «Теркон» — контурные тепловые трубки (КТТ) для передачи тепла, охлаждения и термостабилизации. Они монтируются к процессору и другим тепловыделяющим элементам сервера, а конденсатор терконов — к теплообменной шине охлаждения. Шина охлаждается гликолем из контура кондиционирования ЦОД, а в трубках отсутствуют механические подвижные части, что увеличивает срок службы и стабильность работы системы охлаждения.
У нас в качестве теплоносителя используется аммиак марки А, но производитель предлагает решения на этаноле, метаноле, ацетоне, фреонах и даже на воде. Система обходится без компрессоров благодаря фазовому переходу «жидкость-пар» — в этом, к слову, заключается ее принципиальное отличие от жидкостного охлаждения, требующего установки циркуляционных насосов. Пар под воздействием сил капиллярного давления движется по паропроводу — это изотермический процесс — и поступает в зону конденсации, где постепенно происходит обратный фазовый переход. Из зоны конденсации выходит переохлажденная жидкость.
Движение по конденсатопроводу также считается изотермическим, и в нем идет потеря давления. Жидкость доходит до компенсационной полости, где подогревается до температуры линии насыщения. Далее через центральный канал или запорный слой она пропитывает капиллярную структуру, где в пароотводных каналах снова происходит фазовый переход.
Схема работы контурных тепловых трубок:
Система охлаждения на основе контурных тепловых трубок позволяет увеличить мощность ИТ-нагрузки до 25 кВт и разместить в стойках большее количество серверов за счет отказа от громоздких радиаторов и теплоотвода за периметр машинного зала. В отличие от традиционных тепловых трубок, КТТ обеспечивают теплоперенос на расстояние до 22 метров.
Процесс монтажа
В сборке системы охлаждения «Теркон» нам помогал Александр — специалист компании-производителя. Он дважды выезжал в 14-й машинный зал DataPro, куда предварительно доставили радиаторы.
В первую командировку Александр показал команде наших инженеров, как собирать и ставить систему охлаждения. Совместно с ним мы установили первый сервер, остальные два собрали и поставили самостоятельно. Отметим, что сервер с трубками в стойку устанавливать лучше вдвоем, поскольку в одиночку есть риск повредить оборудование.
Процесс установки делится на два этапа. Сначала готовится сервер, снимаются штатные радиаторы и монтируется система охлаждения «Теркон» (это занимает примерно 30 минут).
Затем готовый сервер ставится в стойку: если салазки в ней уже смонтированы, это может занять до 15 минут: в отверстия охлаждающей шины бывает трудно попасть с первого раза (необходимо регулировать контакт винтовым зажимом).
Процедура несложная, но требует определенной сноровки, а эффективность охлаждения с применением КТТ зависит от используемых термопаст и посадки испарителя: чем плотнее, тем лучше.
Отметим также, что мы не снимали вентиляторы: установка дополнительной пассивной системы охлаждения должна была снизить нагрев электронных компонентов и кардинально уменьшить потребление воздуха. Можно ли обойтись вообще без кулеров, сказать сложно. В сервере нагреваются не только процессоры или другие устройства с радиаторами, к которым подводятся тепловые трубки. К тому же отсутствие принудительной вентиляции может нарушить направление воздушного потока из холодного коридора в горячий. В любом случае при низких оборотах кулеры потребляют мало электроэнергии.
45 минут, и первый сервер готов: видеозапись монтажа
Мы собрали три сервера, а затем приступили к тестам, результаты которых привели Александра на площадку HOSTKEY во второй раз.
Подключение к теплосъемнику выглядит следующим образом:
Положение зажима «открыто» необходимо для ослабления фиксации пластин, чтобы извлечь сервер.
Положение зажимов «закрыто» позволяет обеспечить плотное прилегание пластин к шине, что повышает эффективность охлаждения.
Комплекс соединительных трубок для системы охлаждения занимает два нижних юнита (они становятся недоступными для монтажа серверов). Трубы подведены в фальшполу дата-центра прямо под серверную стойку: в итоге тепло от процессоров по КТТ выводится из объема сервера на внешний жидкостный теплообменник и далее на уличные системы охлаждения ЦОД.
Шина посередине стойки
Шина в сборке расположена посередине стойки. В дальнейшем мы планируем сдвинуть ее, поскольку в нынешней конфигурации неудобно подключать патчи и видеокабель.
Пластины со стороны сервера и слоты в шине под эти пластины:
Пластины со стороны сервера и слоты в шине под эти пластины
Тестирование
Для пилотного внедрения мы взяли серийные серверы Supermicro такой конфигурации:
Платформа | 1 x SM 1U CSE-815TQ-563CB |
Материнская плата | 1 x SM H11DSi |
CPU | 2 x AMD EPYC 7451 2.3GHz (24 cores) |
RAM: | 2×16 Gb DDR4 REG |
HDD: | 1×240Gb SSD |
Потребовалось также ПО LinX 0.7.0 для AMD — GUI для тестового приложения Intel Linpack. Серверы были подключены к модулю удаленного управления питанием RPCM 1502, что повысило стабильность характеристик тока и позволило снимать показатели потребления электроэнергии. Этот модуль — еще одна российская разработка.
Для дополнительной проверки корректности данных по энергопотреблению мы использовали ваттметр и данные с модуля IPMI.
Всего пришлось провести три цикла тестов. Результаты первого не соответствовали нашим ожиданиям и заявленным производителем показателям системы охлаждения. Мы предположили наличие дефекта радиаторов.
Во время второй командировки дефект был подтвержден специалистом ООО «Теркон-КТТ», который сделал сортировку радиаторов на складе. На этом этапе мы добавили еще несколько тестовых серверов: в итоге у нас осталось 20% радиаторов, а 80% было отправлено на доработку в Екатеринбург. Третий цикл тестов был проведен для сравнения воздушной системы охлаждения и КТТ.
Результаты неудачных тестов
Для начала приведем результаты тестов, которые нас не устроили.
Сервер 1
Сервер 2
Сервер 3
Особое внимание следует обратить на результаты тестирования первого сервера: температура CPU в +94°C явно угрожает стабильной работе оборудования. Причина такого результата — дефект радиатора, который был подтвержден Александром во время второй командировки.
Позже, во время визита к нам, генеральный директор ООО «Теркон-КТТ» Аркадий Иванов показал еще ряд нюансов, повышающих качество и стабильность работы системы охлаждения. На контактную поверхность процессора и термоинтерфейса трубки следует наносить термопасту MX-4, а на контактную поверхность конденсаторной пластины трубки, которая крепится к шине — КПТ 19. Такое сочетание термопаст имеет важное значение, поскольку MX-4 обеспечивает лучшую теплопередачу, а КПТ 19 не сохнет.
Успешные тесты
После замены радиаторов и использования правильного сочетания термопаст мы смогли получить приемлемые результаты. Отметим, что если в серии неудачных тестов разброс температур был большим, то после исправления ошибок результаты на различных серверах оказались практически идентичными.
Температура
Сервер 1
Points scored
Сервер 2
Points scored
Энергопотребление
Охлаждение на базе КТТ снижает энергопотребление за счет уменьшения объема потребляемого системой воздуха и снижения затрат на кондиционирование. Энергопотребление непосредственно сервера и системы охлаждения на базе КТТ в целом не отличаются от показателей стандартных систем охлаждения. При проведении тестирования мы получили следующие средние показатели энергопотребления серверов (Вт):
Points scored
Экономия от использования системы «Теркон» более наглядно проявляется при рассмотрении работы вентиляторов: в зависимости от температуры охлаждения процессора автоматика снижает количество оборотов на 10–40% по сравнению с работой стандартных систем.
Потребление мощности сервера на вентиляторах и на КТТ
КТТ
Points scored
Воздух
Points scored
Скоростью вентиляторов можно управлять через IPMI. Разница в потреблении питания между минимальным и максимальным показателем скорости (8400 — 12600) составила 30 — 50 Вт, а разница в температурах между максимальной и минимальной скоростью вращения вентиляторов — примерно 5°C. Производительность не зависит от скорости вращения вентиляторов, при этом сравнительно низкая производительность отдельных серверов (менее 100 GFLOPS) объясняется одноканальной памятью.
Выводы
Использование контурных тепловых трубок позволяет обеспечить стабильное и равномерное охлаждение двух процессоров, а также снизить энергопотребление (в среднем до 383,4 Вт для КТТ против 406 Вт для воздушного охлаждения). Лучшее охлаждение дальнего процессора повышает и производительность работы оборудования.
С «Теркон» мы можем использовать одноюнитовые сервера с потреблением в 400 Вт. С низкопрофильными радиаторами такие машины обычно перегреваются, поэтому приходится ставить корпуса на 2U и активные радиаторы. Повысив плотность размещения примерно вдвое, можно существенно сэкономить на аренде площадей в ЦОД: если принять среднюю стойку на 42U без расходов на электроэнергию за 50 000 рублей в месяц, то в год мы можем потратить меньше на 600 000 рублей (1250 рублей в пересчете на сервер в месяц).
Несмотря на ряд сложностей с настройкой оборудования и браком в первой поставке радиаторов, следует признать опыт работы с решением «Теркон» успешным. Довольно быстро нам удалось собрать действующую систему пассивного охлаждения, которая соответствует заявленным характеристикам. Отдельно стоит отметить клиентоориентированность производителя: ввод оборудования в эксплуатацию и решение проблем с ним проходили с участием представителей компании-разработчика.
TL; DR: Решения «Теркон» упрощают работу с серверным оборудованием и позволяют ощутимо снизить стоимость эксплуатации ИТ-инфраструктуры.
Применение альтернативных решений позволит HOSTKEY предлагать клиентам высокопроизводительные выделенные серверы дешевле без потери качества.
А специальный промокод »Я С ХАБРА» откроет врата щедрости: назовите его консультанту на сайте при размещении заказа — и получите дополнительную скидку.
Платить можно как всегда в рублях с НДС российской компании или в евро — компании в Нидерландах.