Мониторинг напряжения в ЦОД Физтеха: шесть лет, полет нормальный
История ЦОД Физтеха начинается с 2007 года, когда в подвале корпуса прикладной математики установили кластер МФТИ-60, содержащий восемь стоек. Интересно, что он даже попал в TOP500 суперкомпьютеров в момент запуска. Кластер содержал 272 2-ядерных процессора Xeon 5160, то есть 544 ядра. Производительность в Linpack составила 4,53 TFlop/s.
В высокопроизводительных вычислениях оборудование устаревает стремительно и лет через 5 кластер стал неактуален. Решили на его базе создать небольшой ЦОД, добавили десяток стоек, ИБП помощнее, усилили охлаждение. В итоге ЦОД вырос до 18 стоек, мощность системы электропитания и охлаждения увеличилась до 160 кВт.
В ЦОДе установили систему мониторинга на основе контроллеров Delta, которая собирает информацию по емкости аккумуляторных батарей, температуре и влажности в ЦОД. Но мониторинга энергопотребления по стойкам не предусмотрели, поэтому было непонятно, какие стойки нагружены полностью, а какие недогружены по мощности. В случае перегрузки сложно понять, какая стойка виновата.
Контроллер Wiren Board 6 в щите
Скрытый текст
В 2018 году решили добавить решение, с помощью которого можно было бы в реальном времени отслеживать энергопотребление каждой стойки, причем система мониторинга не должна каким-либо образом влиять на работу ЦОД, в том числе это касалось и установки системы — выключать ЦОД нельзя.
В итоге выбрали контроллер Wiren Board, к нему добавили модули WB-MAP12H. В каждой стойке установлены два трехфазных блока розеток, с помощью разъемных трансформаторов модули WB-MAP12H теперь считывают параметры питания. Также добавили мониторинг питания чиллеров.
Еще одна задача — мониторинг состояния автоматических выключателей: на них установлены дополнительные контакты, которые подключили к модулям WBIO-DI-DR-16. Теперь видно, какие АВ включены, какие выключены вручную, а какие отключились аварийно.
В результате администратор видит потребляемую мощность каждой стойки в реальном времени. Когда приходит новый сервер, его устанавливают в одну из недогруженных стоек в зависимости от расчетной мощности.
Щиты в интерфейсе Wiren Board
Скрытый текст
Стойки в интерфейсе Wiren Board
Список устройств в интерфейсе Wiren Board
Стойки в интерфейсе Wiren Board
Заключение
Когда в 2018 году устанавливали оборудование Wiren Board, то были сомнения по поводу надежности. Все же производитель молодой, опыт на рынке небольшой, примеров готовых решений с многолетней эксплуатацией не было. Но рабочие характеристики контроллеров и модулей соответствовали требованиям ЦОД Физтеха, поэтому выбор сделали.
К счастью, опасения не оправдались. Контроллеры Wiren Board 6 перегружали только при выполнении регламентных работ, в остальном они работали стабильно. Данные энергопотребления стоек ни разу не терялись, администраторы получали к ним доступ в любое время суток. Сбоев за шесть лет зафиксировано не было. Инженеры ЦОД даже шутят, что и забыли, где установили оборудование Wiren Board.
Решение мониторинга, вроде бы, и простое, но значительно облегчает жизнь администраторам ЦОД. А что вы думаете о подобном решении? Пишите в комментариях.