АВР и все, все, все: автоматический ввод резерва в дата-центре

В прошлом посте про PDU мы говорили, что в некоторых стойках установлен АВР —  автоматический ввод резерва. Но на самом деле в ЦОДе АВР ставят не только в стойке, но и на всем пути электричества. В разных местах они решают разные задачи:

  • в главных распределительных щитах (ГРЩ) АВР переключает нагрузку между вводом от города и резервным питанием от дизель-генераторных установок (ДГУ);  
  • в источниках бесперебойного питания (ИБП) АВР переключает нагрузку с основного ввода на байпас (об этом чуть ниже);  
  • в стойках АВР переключает нагрузку с одного ввода на другой в случае возникновения проблем с одним из вводов. 


yithzw8xwfuznlvn3e1j5p3bddu.jpeg
АВР в стандартной схеме энергоснабжения дата-центров DataLine.

О том, какие АВР и где используются, и поговорим сегодня. 
Основных типа АВР два: ATS (automatic transfer switch) и STS (static transfer switch). Они отличаются принципами работы и элементной базой и используются для разных задач. Если вкратце, то STS — это более «умный» ATS. Он быстрее переключает нагрузку и чаще используется для больших нагрузок/токов. Он более гибок в настройке, зато «с капризами» к сети: может отказаться работать, если 2 ввода питаются от разных источников, например: от трансформатора и ДГУ.  

АВР в ГРЩ

 
Главная АВР дата-центра двадцать лет назад выглядела как сложная система контакторов и реле.

tbox7z-pt5kivhrralvjpy9aw_e.jpeg
АВР образца начала 2000-х.

Сейчас АВР — это компактное многофункциональное устройство.

cbyesbbdryixfm2nnp-63_dmsnk.jpeg

Система АВР в ГРЩ управляет вводными автоматами и дает команды на запуск и остановку ДГУ. При нагрузке более 2 МВт на уровне ГРЩ нецелесообразно гнаться за скоростью. Даже если переключится быстро, то пройдет время, пока запустится ДГУ. В этой системе используются более «медленные» ATS и выставляются задержки (уставки). Работает это так: когда питание дата-центра от трансформаторов пропадает, АВР командует устройствам: «Трансформатор, выключись. Теперь ждем 10 секунд (уставка), ДГУ, включись, ждем еще 10 секунд». 

АВР в ИБП  


На примере ИБП посмотрим, как работает второй тип АВР — STS или static transfer switch.

В ИБП переменный ток преобразуется в постоянный на выпрямителе. Затем на инверторе он превращается обратно в переменный ток, но уже со стабильными параметрами. Это устраняет помехи и повышает качество энергии. При отключении основного источника питания ИБП переключается на аккумуляторные батареи и питает дата-центр, пока в работу включаются ДГУ. 

Но что, если из строя выйдет какой-то из элементов: выпрямитель, инвертор или аккумуляторные батареи? На этот случай в каждом ИБП есть механизм обходного пути, или байпас. С ним устройство продолжает работу в обход основных элементов, сразу от входного напряжения. Также байпасом пользуются, когда нужно выключить ИБП и вывести его в ремонт. 

STS в ИБП нужен, чтобы безопасно перейти на байпасный ввод. Если коротко, то STS контролирует параметры сети на входе и на выходе, дожидается, когда они совпадут, и переключается в безопасных условиях. 

jkzxi5yspqasijzjtpja8czivne.jpeg

АВР в стойке 


Итак, к стойке подведены два ввода электропитания. Если у вашего оборудования два блока питания, вы спокойно подключаете его к разным PDU, и пропадание одного ввода вам не страшно. А если у вашего сервера один блок питания?  
В стойке АВР используют, чтобы профит от двух вводов не пропал даром. При проблемах с одним из вводов АВР переключает нагрузку на другой ввод.

Дисклеймер: Если можете, избегайте оборудования с одним блоком питания, чтобы не создавать точку отказа в системе. Дальше мы покажем, в чем недостатки такой схемы подключения. 

jkv-0jqc4wqe98i3dpwc40hpciw.jpeg

Задача АВР в стойке — переключить оборудование на рабочий ввод так быстро, чтобы в его работе не было перерыва. Нужную для этого скорость нашли опытным путем: не больше 20 мс. Посмотрим, как это обнаружили.

Сбои в работе серверного оборудования происходят из-за провалов напряжения (из-за работ на подстанциях, подключения мощных нагрузок или аварий). Чтобы проиллюстрировать, как оборудование выдерживает разную амплитуду и длительность перепадов напряжения, разработали кривые безопасной работы электрооборудования CBEMA (Computer and Business Equipment Manufacturers Association). Сейчас они известны как кривые ITIC (Information Technology Industry Council), их варианты включены в стандарты IEEE 446 ANSI (это аналог наших ГОСТов).

Сверимся с графиком. Наша задача, чтобы устройства работали в «зеленой зоне». На кривой ITIC мы видим, что оборудование готово «терпеть» провал максимум 20 мс. Поэтому мы ориентируемся, чтобы АВР в стойке отрабатывал за 20 мс, а лучше — еще быстрее.   

yfiqfj3oz6aosibejtqr5d6ifqy.jpeg
Источник: meandr.ru.

Устройство АВР. Типовой АВР (ATS) в стойке нашего ЦОДа занимает 1 юнит и выдерживает нагрузку 16 А. 

На дисплее видим, от какого ввода питается АВР,   сколько подключенные устройства потребляют в амперах. Отдельной кнопкой выбираем, отдать приоритет первому или второму вводу. Справа — порты для подключения к АВР:  

  • Ethernet port —  подключить мониторинг;
  • Serial port — зайти через ноутбук и посмотреть в логах, что происходит;  
  • USB — вставить флешку и обновить прошивку. 


Порты взаимозаменяемые: можно выполнить все эти операции, если есть доступ хотя бы к одному из них. 

fei4wojjmli8wjl9fpmnk45rnxg.png

На тыльной стороне — вилки для подключения основного и резервного вводов и розеточная группа для подключения ИТ-оборудования.

lfilzmnayvt9hqfj9kquiecg10a.jpeg

Подробные характеристики АВР мы смотрим через веб-интерфейс. Там настраивается чувствительность переключения и видны логи. 

ii8kut6edotv7gwte5qjvdp-rac.jpeg
Веб-интерфейс АВР.

Установка и подключение АВР. Устанавливать АВР по высоте лучше в середину стойки. Если мы заранее не знаем комплектацию стойки, то так оборудование с одним блоком питания сможет дотянуться проводами и с нижней, и с верхней части.  

А вот дальше есть нюансы: глубина стандартной стойки гораздо больше, чем глубина АВР.  Мы рекомендуем установить его как можно ближе к холодному коридору по двум причинам:

  1. Доступ к передней панели. Если установить АВР ближе к горячему коридору, мы увидим индикацию, но не сможем подключиться к нему через порты. А значит, не сможем посмотреть логи или перезагрузить устройство.

    gzvf8ot3ytqho3hlxtm7nn3r-vi.jpeg

    kpoei5o0dx5efobatddtqh4izp8.jpeg
    Где-то там, в глубине, мигает АВР — до порта уже не дотянуться.

  2. Холодоснабжение. АВР рекомендуют использовать при температуре не более 45°С. При этом у него нет своих вентиляторов для охлаждения, это просто металлическое устройство с электронной начинкой.  Поддерживают нужную температуру двумя способами:  


  • потоками воздуха, которые дуют на него извне;  
  • крепежами, которые уводят лишнее тепло.


Если установить АВР со стороны горячего коридора и вдобавок зажать его пирогом из серверов, то мы получим печку. В лучшем случае у АВР сгорят мозги и он потеряет связь с внешним миром, в худшем — начнет хаотично переключать нагрузку или бросит ее.

ya_kw1jc9wnxtw9yxrmts_lugcq.jpeg
АВР парится лицом к горячему коридору.

Был случай. Инженер на обходе услышал нехарактерные щелчки.
В недрах горячего коридора под грудой серверов обнаружился АВР, который постоянно переключался с основного ввода на резервный. 

АВР заменили. Логи показали, что целую неделю он переключался каждую секунду — итого более полумиллиона коммутаций. Вот как это было


Какие еще АВР бывают в стойке


Вводный ATS для стойки. В нашем ЦОДе такой АВР выступает единственным источником распределения питания в стойке: работает как АВР+PDU. Занимает несколько юнитов, выдерживает нагрузку 32 А, подключается промышленными разъемами и может питать до 6 КВт оборудования. Использовать его можно, когда нет возможности смонтировать стандартные PDU, а одноблочное оборудование в стойке не обслуживает критичные нагрузки. 

urgt9gsjnitxg5gbo4zda4blcbi.jpeg

Cтоечный STS. STS в стойке используется для оборудования, чувствительного к перепадам напряжения. Этот АВР переключается быстрее, чем ATS. 
 
pvlz-qri2ejfsg0k6qsuw1zgsrm.jpeg
Этот конкретный STS занимает 6 юнитов и у него немного «винтажный» интерфейс.

Мини-АВР. Бывают и такие малышки, но у нас в ЦОДе такого не водится. Это мини-АВР для одного сервера. 

14d2dsewvhhzha588tyakafu_ei.jpeg
Этот АВР подключается прямо в блок питания сервера.

Как мы ищем идеальный АВР


Мы тестируем много разных АВР и проверяем, как они ведут себя в условиях высоких температур.

Вот как издеваемся над АВР, чтобы это проверить:  

  • подключаем к нему регистратор качества сети, сервер и еще несколько устройств для нагрузки;
  • изолируем стойку заглушками или пленкой, чтобы достичь высокой температуры;
  • нагреваем до 50°С;
  • поочередно отключаем вводы по 20 раз;
  • смотрим, не было ли провалов питания, как себя чувствует сервер;
  • если АВР проходит тест — нагреваем до 70°С.


3yxyv1vtjq91jxmm4mbdsfddrgk.jpeg
Фото тепловизором с одного из испытаний.

b-qcxcjnvzsikw-ir8ncrrtemao.jpeg
Анализатор сети фиксирует напряжение с течением времени. На записи видим, сколько длилось переключение: на этот момент синусоида прервалась

Кстати, берем АВР на тест: проверим ваше устройство на прочность и расскажем, что получилось ;) 

АВР в стойке: скрытая угроза


Главная проблема с АВР в стойке в том, что он умеет только переключать нагрузку с основного на резервный ввод, но не защищает от короткого замыкания или перегрузки. Если на блоке питания происходит короткое замыкание, то по защите сработает автоматический выключатель уровнем выше: на PDU или в распределительном щите. В результате один ввод отключается, АВР это понимает и переключается на второй ввод. Если короткое замыкание еще остается, сработает автоматический выключатель второго ввода. В итоге из-за проблемы на одном оборудовании может обесточиться вся стойка.

Так что еще раз повторю: тысячу раз подумайте, прежде чем устанавливать АВР в стойку и использовать оборудование с одним блоком питания.

© Habrahabr.ru