Мониторинг напряжения в ЦОД Физтеха: шесть лет, полет нормальный

3980e70333e002d6d0add75867a1828e.jpg

История ЦОД Физтеха начинается с 2007 года, когда в подвале корпуса прикладной математики установили кластер МФТИ-60, содержащий восемь стоек. Интересно, что он даже попал в TOP500 суперкомпьютеров в момент запуска. Кластер содержал 272 2-ядерных процессора Xeon 5160, то есть 544 ядра. Производительность в Linpack составила 4,53 TFlop/s.

В высокопроизводительных вычислениях оборудование устаревает стремительно и лет через 5 кластер стал неактуален. Решили на его базе создать небольшой ЦОД, добавили десяток стоек, ИБП помощнее, усилили охлаждение. В итоге ЦОД вырос до 18 стоек, мощность системы электропитания и охлаждения увеличилась до 160 кВт.

В ЦОДе установили систему мониторинга на основе контроллеров Delta, которая собирает информацию по емкости аккумуляторных батарей, температуре и влажности в ЦОД. Но мониторинга энергопотребления по стойкам не предусмотрели, поэтому было непонятно, какие стойки нагружены полностью, а какие недогружены по мощности. В случае перегрузки сложно понять, какая стойка виновата.

Контроллер Wiren Board 6 в щите

Контроллер Wiren Board 6 в щите

Скрытый текст

В 2018 году решили добавить решение, с помощью которого можно было бы в реальном времени отслеживать энергопотребление каждой стойки, причем система мониторинга не должна каким-либо образом влиять на работу ЦОД, в том числе это касалось и установки системы — выключать ЦОД нельзя.

В итоге выбрали контроллер Wiren Board, к нему добавили модули WB-MAP12H. В каждой стойке установлены два трехфазных блока розеток, с помощью разъемных трансформаторов модули WB-MAP12H теперь считывают параметры питания. Также добавили мониторинг питания чиллеров.

Еще одна задача — мониторинг состояния автоматических выключателей: на них установлены дополнительные контакты, которые подключили к модулям WBIO-DI-DR-16. Теперь видно, какие АВ включены, какие выключены вручную, а какие отключились аварийно.

В результате администратор видит потребляемую мощность каждой стойки в реальном времени. Когда приходит новый сервер, его устанавливают в одну из недогруженных стоек в зависимости от расчетной мощности.

Щиты в интерфейсе Wiren Board

Щиты в интерфейсе Wiren Board

Скрытый текст

Стойки в интерфейсе Wiren Board

Стойки в интерфейсе Wiren Board

Список устройств в интерфейсе Wiren Board

Список устройств в интерфейсе Wiren Board

Стойки в интерфейсе Wiren Board

Стойки в интерфейсе Wiren Board

Заключение

Когда в 2018 году устанавливали оборудование Wiren Board, то были сомнения по поводу надежности. Все же производитель молодой, опыт на рынке небольшой, примеров готовых решений с многолетней эксплуатацией не было. Но рабочие характеристики контроллеров и модулей соответствовали требованиям ЦОД Физтеха, поэтому выбор сделали.

К счастью, опасения не оправдались. Контроллеры Wiren Board 6 перегружали только при выполнении регламентных работ, в остальном они работали стабильно. Данные энергопотребления стоек ни разу не терялись, администраторы получали к ним доступ в любое время суток. Сбоев за шесть лет зафиксировано не было. Инженеры ЦОД даже шутят, что и забыли, где установили оборудование Wiren Board.

Решение мониторинга, вроде бы, и простое, но значительно облегчает жизнь администраторам ЦОД. А что вы думаете о подобном решении? Пишите в комментариях.

© Habrahabr.ru