Тестируем космические технологии: насколько эффективно пассивное охлаждение серверов?

Чем больше вычислительных ресурсов мы установим в единицу объема машинного зала, тем рентабельнее будет весь комплекс и тем сильнее он будет греться. Системы охлаждения совершенствуются, однако отвод тепла от электронных компонентов по-прежнему основан на использовании вентиляторов и массивных радиаторов. Можно изолировать холодные или горячие коридоры, устанавливать продвинутые системы мониторинга и управлять воздушными потоками в реальном времени, но технологический предел эффективности таких решений уже достигнут. И где разумная тому альтернатива?

Специалисты HOSTKEY завершили пилотное внедрение альтернативной разработки компании «Теркон» — создателя систем охлаждения для космических аппаратов. Ниже — подробности внедрения, нюансы самой технологии и результаты тестов.

Центры обработки данных потребляют большое количество электроэнергии, около 60% которой расходуется на работу серверов и выделение ими тепла, 30% на охлаждение и 10% — на обеспечение бесперебойного питания. У старых ЦОД показатели могут быть хуже (40/50/10).

Почему «Теркон»?

Существуют различные способы охлаждения ИТ-оборудования, вплоть до погружения серверов в электрически нейтральный жидкий теплоноситель. Их выбор ограничен в первую очередь техническими условиями дата-центра, поэтому перспективную экзотику пришлось отмести. Нам требовалось более приземленное решение, совместимое с выпускающимися серийно серверами и, что самое главное, с инженерной инфраструктурой площадки. 

В более эффективном отведении тепла от оборудования заинтересован в первую очередь оператор ЦОД, который делится с нами некоторыми бенефитами: уменьшается стоимость аренды в пересчете на единицу вычислительной мощности, а значит наши услуги становятся более конкурентными.

Одним из экспериментов HOSTKEY в этом направлении стало тестовое внедрение двухфазной системы теплоотвода «Теркон». Решение российского производителя имеет ряд преимуществ:

  • снижение прямых энергозатрат на охлаждение серверов за счет уменьшения потребления воздуха;

  • более высокая безопасность оборудования по сравнению с жидкостными системами;

  • возможность адаптировать систему охлаждения под нестандартные решения;

  • поддержка отечественного производителя — их и так мало;

  • система не требовательна к обслуживанию и работает по принципу «поставил и забыл» — уменьшается нагрузка на персонал.

Помимо плюсов, у системы «Теркон» есть и минусы, главный из которых — недостаточная проработанность технологии. «Из коробки» ничего не заводится. Точнее, во время пуско-наладочных работ возникают решаемые проблемы.

Что такое «Теркон»?

Ключевой элемент систем охлаждения компании «Теркон» — контурные тепловые трубки (КТТ) для передачи тепла, охлаждения и термостабилизации. Они монтируются к процессору и другим тепловыделяющим элементам сервера, а конденсатор терконов — к теплообменной шине охлаждения. Шина охлаждается гликолем из контура кондиционирования ЦОД, а в трубках отсутствуют механические подвижные части, что увеличивает срок службы и стабильность работы системы охлаждения.

У нас в качестве теплоносителя используется аммиак марки А, но производитель предлагает решения на этаноле, метаноле, ацетоне, фреонах и даже на воде. Система обходится без компрессоров благодаря фазовому переходу «жидкость-пар» — в этом, к слову, заключается ее принципиальное отличие от жидкостного охлаждения, требующего установки циркуляционных насосов. Пар под воздействием сил капиллярного давления движется по паропроводу — это изотермический процесс — и поступает в зону конденсации, где постепенно происходит обратный фазовый переход. Из зоны конденсации выходит переохлажденная жидкость.

Движение по конденсатопроводу также считается изотермическим, и в нем идет потеря давления. Жидкость доходит до компенсационной полости, где подогревается до температуры линии насыщения. Далее через центральный канал или запорный слой она пропитывает капиллярную структуру, где в пароотводных каналах снова происходит фазовый переход.

Схема работы контурных тепловых трубок:

d987318fc3a49277b38041ea64794cae.png

Система охлаждения на основе контурных тепловых трубок позволяет увеличить мощность ИТ-нагрузки до 25 кВт и разместить в стойках большее количество серверов за счет отказа от громоздких радиаторов и теплоотвода за периметр машинного зала. В отличие от традиционных тепловых трубок, КТТ обеспечивают теплоперенос на расстояние до 22 метров.

Процесс монтажа

В сборке системы охлаждения «Теркон» нам помогал Александр — специалист компании-производителя. Он дважды выезжал в 14-й машинный зал DataPro, куда предварительно доставили радиаторы.

903f64d3371bb8f01ad84f1273803411.jpeg

В первую командировку Александр показал команде наших инженеров, как собирать и ставить систему охлаждения. Совместно с ним мы установили первый сервер, остальные два собрали и поставили самостоятельно. Отметим, что сервер с трубками в стойку устанавливать лучше вдвоем, поскольку в одиночку есть риск повредить оборудование.

038a4d2e200f7027b7f29c05734e103b.jpeg

Процесс установки делится на два этапа. Сначала готовится сервер, снимаются штатные радиаторы и монтируется система охлаждения «Теркон» (это занимает примерно 30 минут).

Затем готовый сервер ставится в стойку: если салазки в ней уже смонтированы, это может занять до 15 минут: в отверстия охлаждающей шины бывает трудно попасть с первого раза (необходимо регулировать контакт винтовым зажимом). 

3814a33cccdc81102d352589935e1d18.jpeg

Процедура несложная, но требует определенной сноровки, а эффективность охлаждения с применением КТТ зависит от используемых термопаст и посадки испарителя: чем плотнее, тем лучше. 

Отметим также, что мы не снимали вентиляторы: установка дополнительной пассивной системы охлаждения должна была снизить нагрев электронных компонентов и кардинально уменьшить потребление воздуха. Можно ли обойтись вообще без кулеров, сказать сложно. В сервере нагреваются не только процессоры или другие устройства с радиаторами, к которым подводятся тепловые трубки. К тому же отсутствие принудительной вентиляции может нарушить направление воздушного потока из холодного коридора в горячий. В любом случае при низких оборотах кулеры потребляют мало электроэнергии.

45 минут, и первый сервер готов: видеозапись монтажа 

Мы собрали три сервера, а затем приступили к тестам, результаты которых привели Александра на площадку HOSTKEY во второй раз.

3dc0ed83b1e867a2be39dd6ae990560b.jpeg1d941789fc712481e4a39e886989e88b.jpeg

Подключение к теплосъемнику выглядит следующим образом:

d635a11252b9aae28ceba485bed6420d.jpeg

Положение зажима «открыто» необходимо для ослабления фиксации пластин, чтобы извлечь сервер.

f5b43ec88b0667f94a09034c6aa66f34.jpeg

Положение зажимов «закрыто» позволяет обеспечить плотное прилегание пластин к шине, что повышает эффективность охлаждения.

2bd70aa2ad65f1518122b13bd7c17d01.jpeg

Комплекс соединительных трубок для системы охлаждения занимает два нижних юнита (они становятся недоступными для монтажа серверов). Трубы подведены в фальшполу дата-центра прямо под серверную стойку: в итоге тепло от процессоров по КТТ выводится из объема сервера на внешний жидкостный теплообменник и далее на уличные системы охлаждения ЦОД.

Шина посередине стойкиШина посередине стойки

Шина в сборке расположена посередине стойки. В дальнейшем мы планируем сдвинуть ее, поскольку в нынешней конфигурации неудобно подключать патчи и видеокабель.

Пластины со стороны сервера и слоты в шине под эти пластины:

Пластины со стороны сервера и слоты в шине под эти пластиныПластины со стороны сервера и слоты в шине под эти пластины

Тестирование

Для пилотного внедрения мы взяли серийные серверы Supermicro такой конфигурации:

Платформа

1 x SM 1U CSE-815TQ-563CB

Материнская плата

1 x SM H11DSi

CPU

2 x AMD EPYC 7451 2.3GHz (24 cores)

RAM:

2×16 Gb DDR4 REG

HDD:

1×240Gb SSD

Потребовалось также ПО LinX 0.7.0 для AMD — GUI для тестового приложения Intel Linpack. Серверы были подключены к модулю удаленного управления питанием RPCM 1502, что повысило стабильность характеристик тока и позволило снимать показатели потребления электроэнергии. Этот модуль — еще одна российская разработка.

6a497d0c3faaa5686a85be40063f30c7.png

Для дополнительной проверки корректности данных по энергопотреблению мы использовали ваттметр и данные с модуля IPMI.

Всего пришлось провести три цикла тестов. Результаты первого не соответствовали нашим ожиданиям и заявленным производителем показателям системы охлаждения. Мы предположили наличие дефекта радиаторов.

Во время второй командировки дефект был подтвержден специалистом ООО «Теркон-КТТ», который сделал сортировку радиаторов на складе. На этом этапе мы добавили еще несколько тестовых серверов: в итоге у нас осталось 20% радиаторов, а 80% было отправлено на доработку в Екатеринбург. Третий цикл тестов был проведен для сравнения воздушной системы охлаждения и КТТ.

Результаты неудачных тестов

Для начала приведем результаты тестов, которые нас не устроили.

Сервер 1

1fa6a135227ae971156fb312891ad2f6.png

Сервер 2

d88b1e7c88a8065157fb6c289b12abb4.png


Сервер 3

7ec25fa9e1c9cb94e4279753fcefa1d9.png

Особое внимание следует обратить на результаты тестирования первого сервера: температура CPU в +94°C явно угрожает стабильной работе оборудования. Причина такого результата — дефект радиатора, который был подтвержден Александром во время второй командировки.

Позже, во время визита к нам, генеральный директор ООО «Теркон-КТТ» Аркадий Иванов показал еще ряд нюансов, повышающих качество и стабильность работы системы охлаждения. На контактную поверхность процессора и термоинтерфейса трубки следует наносить термопасту MX-4, а на контактную поверхность конденсаторной пластины трубки, которая крепится к шине — КПТ 19. Такое сочетание термопаст имеет важное значение, поскольку MX-4 обеспечивает лучшую теплопередачу, а КПТ 19 не сохнет.

492e4f0ff08697042cc127d4787a133b.jpeg

Успешные тесты

После замены радиаторов и использования правильного сочетания термопаст мы смогли получить приемлемые результаты. Отметим, что если в серии неудачных тестов разброс температур был большим, то после исправления ошибок результаты на различных серверах оказались практически идентичными.

Температура

Сервер 1

Points scoredPoints scored

Сервер 2

Points scoredPoints scored

Энергопотребление

Охлаждение на базе КТТ снижает энергопотребление за счет уменьшения объема потребляемого системой воздуха и снижения затрат на кондиционирование. Энергопотребление непосредственно сервера и системы охлаждения на базе КТТ в целом не отличаются от показателей стандартных систем охлаждения. При проведении тестирования мы получили следующие средние показатели энергопотребления серверов (Вт):

Points scoredPoints scored

Экономия от использования системы «Теркон» более наглядно проявляется при рассмотрении работы вентиляторов: в зависимости от температуры охлаждения процессора автоматика снижает количество оборотов на 10–40% по сравнению с работой стандартных систем.

Потребление мощности сервера на вентиляторах и на КТТ

КТТ

Points scoredPoints scored

Воздух

Points scoredPoints scored

Скоростью вентиляторов можно управлять через IPMI. Разница в потреблении питания между минимальным и максимальным показателем скорости (8400 — 12600) составила 30 — 50 Вт, а разница в температурах между максимальной и минимальной скоростью вращения вентиляторов — примерно 5°C. Производительность не зависит от скорости вращения вентиляторов, при этом сравнительно низкая производительность отдельных серверов (менее 100 GFLOPS) объясняется одноканальной памятью.

Выводы

Использование контурных тепловых трубок позволяет обеспечить стабильное и равномерное охлаждение двух процессоров, а также снизить энергопотребление (в среднем до 383,4 Вт для КТТ против 406 Вт для воздушного охлаждения). Лучшее охлаждение дальнего процессора повышает и производительность работы оборудования. 

С «Теркон» мы можем использовать одноюнитовые сервера с потреблением в 400 Вт. С низкопрофильными радиаторами такие машины обычно перегреваются, поэтому приходится ставить корпуса на 2U и активные радиаторы. Повысив плотность размещения примерно вдвое, можно существенно сэкономить на аренде площадей в ЦОД: если принять среднюю стойку на 42U без расходов на электроэнергию за 50 000 рублей в месяц, то в год мы можем потратить меньше на 600 000 рублей (1250 рублей в пересчете на сервер в месяц). 

Несмотря на ряд сложностей с настройкой оборудования и браком в первой поставке радиаторов, следует признать опыт работы с решением «Теркон» успешным. Довольно быстро нам удалось собрать действующую систему пассивного охлаждения, которая соответствует заявленным характеристикам. Отдельно стоит отметить клиентоориентированность производителя: ввод оборудования в эксплуатацию и решение проблем с ним проходили с участием представителей компании-разработчика.

TL; DR: Решения «Теркон» упрощают работу с серверным оборудованием и позволяют ощутимо снизить стоимость эксплуатации ИТ-инфраструктуры.

Применение альтернативных решений позволит HOSTKEY предлагать клиентам высокопроизводительные выделенные серверы дешевле без потери качества.

А специальный промокод »Я С ХАБРА» откроет врата щедрости: назовите его консультанту на сайте при размещении заказа — и получите дополнительную скидку.
Платить можно как всегда в рублях с НДС российской компании или в евро — компании в Нидерландах.

© Habrahabr.ru