Аварии на серверных фермах в Азербайджане и Великобритании02.12.2015 19:03

Простои ЦОД являются крайне дорогим удовольствие, даунтайм в несколько секунд может обернуться серьезными финансовыми и репутационными потерями. Аварии, произошедшие совсем недавно еще в который раз доказали это. Пострадали две крупные серверные фермы — одна в Великобритании, вторая в Азербайджане.

Почти все население Азербайджана лишилось доступа к интернету

В одном из дата-центров компании Delta Telecom вспыхнул огонь. Даунтайм длился в течение восьми часов. После этого инцидента получить доступ к интернет-услугам можно было лишь с использование каналов местных мобильных операторов Backcell и Azerfon.

Причиной отключения стал пожар в Баку на серверной ферме Delta Telecom. Согласно официальному заявлению представителей этой компании, загорелись несколько кабелей в старом ЦОД. К процессу ликвидации возгорания были привлечены пожарные и аварийные службы. Из-за происшествия оказалась практически парализована работа банков — не проводились операции, была остановлена работа банкоматов и платежных терминалов. Во многих регионах оказалась недоступна мобильная связь.
Отключение произошло 16 ноября в 16 часов по местному времени. Столь крупная авария, связанная с интернетом, произошла в Азербайджане впервые. На устранение ее последствий понадобилось 5 часов. Обслуживание пользователей было восстановлено только ближе к полуночи по местному времени.

По данным компании Renesys, которая занимается отслеживанием подключений к Интернету, 78% сетей Азербайджана ушли в даунтайм, что по количеству составляет 6 лишним сотен сетей. Данные сети использовали ключевое соединение Delta Telecom и Telecom Italia Sparkle. Эксперты Renesys утверждают, что Азербайджан является одним из государств с высоким риском отключения интернета из-за низкого количества сетей, которые связывают страну с внешними узлами обмена трафиком. Подобная ситуация в настоящее время характерна для многих соседних государств вроде Ирана, Грузии, Армении и Саудовской Аравии.

Хотя в последние годы Азербайджан активно развивает свою телекоммуникационную инфраструктуру благодаря поступлениям от продажи нефти и газа, а также принимает участие в создании Транс-евразийской информационной магистрали (Trans-Eurasian Information Highway; TASIM).

ЦОД колокейшн-провайдера Telecity и проблемы с ИБП
Согласно результатам ряда исследований, от 65 до 85% незапланированных простоев ЦОД вызываются неисправностям систем ИБП. Именно поэтому периодическому мониторингу этих элементов инфраструктуры дата-центра, а также своевременному обслуживанию и замене аккумуляторных батарей следует уделять повышенное внимание.

Возможно, инженеры европейского колокейшн-провайдера Telecity Group не слишком внимательны к своим источникам бесперебойного питания. Почти две недели назад компания дважды «расстроила» своих клиентов, арендовавших помещения внутри машзалов коммерческого дата-центра компании в Лондоне. Два перебоя в подаче электроэнергии в дата-центре Sovereign House, которые следовали один за другим, привели к недовольству многочисленных арендаторов, в число которых входят London Internet Exchange и AWS Direct Connect (сервис, позволяющий сторонним компания подключаться к облаку Amazon через частные сетевые соединения).

А всему виной коммунальщики. Проблемы в дата-центре, который расположен на территории района Доклэндс к востоку от центра Лондона и обслуживает примерно 10% интернет-трафика Великобритании, начались именно по их вине. После первого сбоя в работе центральной электросети инфраструктура ЦОД не смогла автоматически переключиться на резервные генераторы. Позже сетевое электроснабжение было восстановлено на некоторое время, после чего в утренние часы среды начался ремонт системы ИБП. Но затем электричество снова пропало, и инфраструктура дата-центра в очередной раз не переключилась автоматически на ДГУ. Проблемы в работе ЦОД не остались незамеченными британскими бизнесменами и обычными пользователями, которые жаловались на проблемы в работе VoIP-сервисов и веб-хостинга, а также платформы AWS.

Об авариях в серверных фермах
Многие специалисты среднего звена готовы рассказывать кулуарно, но руководством дата-центров на обсуждение случившегося, как правило, наложен строжайший запрет.

Дата-центр, проработавший на рынке от трех до пяти лет и не переживший хотя бы одну аварию — скорее всего уникален. Аварии происходят везде, разница только в последствиях. На западном рынке ценность руководителя серверной фермы, который пережил аварию, повышается, потому что он уже имеет опыт преодоления трудностей и будет более осторожен и мотивирован на предупреждение аварии в будущем. На нашем же рынке, чаще всего, руководители готовы стоять до последнего, не вынося на публику информацию о случившихся инцидентах, хотя последствия бывают тяжелыми и скрыть остановку сервисов для клиентов невозможно никак. Оказывается базы инцидентов в дата-центрах коллекционируются некоторыми международными организациями. Правда доступ к ним осуществляется только через членство в закрытых клубах, да и там не совсем готовы поделиться бесценной информацией.

Анализируя основные причины аварий на серверных фермах, «лидируют» два типа ошибок: связанные с человеческим фактором и отказ компонентов оборудования. Даже проект с учетом высоких требований к надежности, предполагающих использование резервных оборудования или инженерных систем на случай отказа не застрахован от аварии вызванной по причине человеческой ошибки или этапе проектирования, или эксплуатации в условиях отказавшего оборудования. Известно, что малейшая ошибка, короткая остановка работы, авария могут обойтись компании в миллиарды долларов. Поэтому многие уважающие себя и своих клиентов компании проводят независимые инженерные экспертизы документации еще до начала строительства, для того чтобы выявить критические точки отказа и выработать решения по их заблаговременному устранению. Также существует этап комплексных предэксплуатационных испытаний.

О причинах аварий (примером взят существующий ЦОД) рассказал И. Шварц — руководитель отдела системной интеграции ГК «Тринити»: (со статьи И. Шварц: Безопасность инфраструктуры ЦОД (журнал «Алгоритм Безопасности» № 3, 2015 год.)

80% случаев слышу жалобы на то, что тяжело охладить серверную, что-то перегревается или что-то происходит с электропитанием. Вот один из случаев:
Центр обработки данных режимного предприятия мощностью более 1 МВт, в ЦОД располагается вычислительный кластер, стоимость проекта более 10 млн $. Используется внутрирядное охлаждение, компоненты систем электропитания, системы охлаждения, газового пожаротушения зарезервированы, системы имеют надежность N+1, 2N. «Тринити» была приглашена в качестве независимого эксперта для анализа причин возникновения аварии в ЦОД.
Внешний характер повреждений оборудования (значительная деформация геометрии пластиковых элементов, вскипание и вздутие аккумуляторных элементов) свидетельствует о воздействии повышенной температуры длительное время — от десятков часов до нескольких суток.

Внешний характер повреждений
Исходя из длительности воздействия температуры, следует однозначный вывод, что комплекс продолжал активную работу в условиях остановки охлаждающей подсистемы. Анализ записей журналов ИБП, межрядных кондиционеров, чиллеров и стабилизатора внешнего электропитания показал следующие факты: до и во время аварии перебои с внешним электропитанием отсутствовали, перебоев питания по чистым линиям (питаемым от ИБП) не происходило, несмотря на отключение батарейного блока и многочисленные переходы на питание в режиме байпас (без стабилизации). При превышении порога давления клапана вследствие повышенной температуры воздуха более 50° С имел место аварийный сброс огнетушащего вещества из баллонов автоматической газовой системы пожаротушения, что привело к неработоспособности системы пожаротушения на фоне продолжающегося роста температуры. Как выяснилось, аварии предшествовала 20-часовая одновременная работа двух чиллеров, в штатном режиме такая работа продолжается не более 25 секунд, в период ротации чиллеров. Одновременная длительная работа двух внешних блоков системы охлаждения привела к чрезмерному переохлаждению теплоносителя, вследствие чего они отключились по ошибке «Защита от угрозы обмерзания» с остановкой основных циркуляционных насосов. Дополнительный циркуляционный насос, находящийся в машинном зале, не способен осуществлять самостоятельную циркуляцию теплоносителя.
Результатом отсутствия циркуляции явилась аварийная остановка межрядных кондиционеров и, как следствие, резкий рост температуры в «горячем коридоре». В результате исследования всех доступных журналируемых систем установили: первопричиной аварии явились проблемы с щитом силовой автоматики. К одновременному запуску и работе второго чиллера привела некорректная работа первого чиллера, вследствие пропадания первой фазы на питании чиллера номер 1.
Причиной, позволившей событиям развиваться далее и так долго, стало:
1) Отсутствие в техническом задании на проектирование требований к системе мониторинга и оповещения, связанных с режимом безопасности объекта, а именно — «Система автоматического отключения и оповещения (САОО)» при проектировании была рассчитана на работу с дежурным оператором путем оповещения по двум каналам: SMS (текстовое оповещения через сети GSM общего пользования) и email (электронное оповещение через internet-сети общего пользования). Оба канала оказались не подключенными из-за режима безопасности объекта.
2) При введении в эксплуатацию САОО не была переведена в автоматическое функционирование в режиме отсутствия каналов оповещения об аварии.
3) Была отключена сигнальная линия «авария», штатно предусмотренная производителем (APC), между аппаратным комплексом мониторинга среды NetBotz и ИБП.
4) Не был запроектирован и установлен дополнительный контур мониторинга параметров среды с выводом сигнализации на пост охраны.
5) Аварию удалось обнаружить, только когда сработали объемные датчики движения охранно-тревожной сигнализации, выведенные на пост охраны, зафиксировавшие падение оплавленных воздушных заглушек и боковых стенок шкафов.
Вывод по данному случаю применим при строительстве любой серверной: техническим заданием на проектирование должны быть установлены требования к системе мониторинга параметров среды, электропитания, требования к выводу сигнализации на пост охраны, требования к каналам связи для оповещения, требования к независимости контура мониторинга основных критически важных параметров от работоспособности ЛВС, серверов, АТС и др. оборудования, за которым производится наблюдение. Проектом должна быть разработана подробная программа методики испытаний на этапе сдачи комплекса в эксплуатацию, предусматривающая максимально возможные комбинации внештатных событий. Исполнительная документация должна содержать инструкции по действию во время нештатных ситуаций. Должно быть проведено обучение эксплуатирующего персонала. При питании трехфазной техники должны использоваться реле контроля фаз.

Есть еще ошибки из разряда «не верю своим глазам»:

простое незнание или невнимание персонала: два блока питания или распределительных устройства, подключенные к одной и той же линии электропитания вместо двух независимых линий; сервер, установленный в стойку задом наперед так, что его вентиляторы забирают воздух из «горячего», а не из «холодного» прохода; кнопка аварийного отключения электропитания без соответствующей маркировки и защиты, ведущая к отключению питания новым сотрудником, который думал, что просто выключает свет… Эти ошибки могли бы вызвать улыбку, если бы не обходились столь дорого и не отнимали много времени.