[recovery mode] Компания Delta потеряла $150 млн из-за желания производителя аварийных генераторов для ЦОД

ffd0fa8b6bd64e5e2ec9039112fdd400.jpg

В прошлом году авиакомпания Delta потеряла более $150 млн. Причина убытков — сбой в работе дата-центра Delta, о чем мы в свое время писали. Речь о компании Delta Air Lines, многие тысячи пассажиров которой не смогли никуда улететь из-за сбоя в ДЦ, расположенном в Атланте, США. Как и у практически любой компании, в дата-центрах Delta Air Lines есть дублирующие системы, которые начинают работать, если что-то идет не так. В резервные системы были вложены десятки миллионов долларов США, но в нужное время они просто не сработали должным образом.

Тогда не было произведено переключение с основной энергосистемы на вспомогательный генератор, и сервера просто отключились после разрядки UPS. Это происшествие повлияло на работоспособность ДЦ компании. Случившееся уже в этом месяце, почти год спустя, подверг анализу вице-президент Amazon Web Services Джон Хамильтон. В частности, он рассказал, что проблема возникла из-за нескольких идущих подряд друг за другом редких сбоев. Но, по его словам, подобное случается гораздо чаще, чем принято думать.

То самое редкое стечение обстоятельств в его карьере случалось уже дважды, а случай в Delta — уже третий. Причем именно этот случай — максимально показательный. Во-первых, его негативный эффект довольно высок. Во-вторых, случившееся уже проанализировано и разобрано по полочкам, в-третьих, все это действительно случается не так часто, так что мало кто успевает подготовиться к наступлению «часа икс».

Для начала стоит вспомнить, что Delta пришлось отменить сразу 1000 полетов в один день, 775 — на следующий день и 90 — еще через день. Как уже говорилось выше, компания потеряла около $150 млн, хотя авиакомпании и так имеют не слишком высокую прибыльность, так что восполнить убыток можно будет только в течение нескольких лет.

Кстати, проблемы в дата-центрах случаются гораздо чаще, чем о них говорят. Просто в этом конкретном случае все вышло наружу, авиакомпания при всем желании ничего не могла утаить.

Но что вообще случилось? В отчете говорилось, что «механизм переключения основного питания на аварийное дал сбой, в результате чего резервная система так и не включилась». Для того, чтобы лучше понять природу проблемы, стоит вспомнить, какое оборудование обычно используется для переключения.

В обычной ситуации электричество поступает в ДЦ через трансформаторы среднего напряжения и автоматику к бесперебойникам, которые и являются конечным источником питания для критического оборудования вроде серверов, хранилищ данных и сетевого оборудования. В той же обычной ситуации автоматика обычно лишь отслеживает качество поставляемой энергии.

009147cc2410ecc331f210ea6c11b322.jpg
Служащий Delta Airlines помогает пассажиру, чей рейс отменили, разобраться в ситуации

Если автоматика фиксирует сбой, она ждет несколько секунд (в большинстве случаев) нормализации ситуации. Если энергии нет или ее параметры не те, что требуется, в работу вступают аварийные генераторы. Для ввода в работу генератора тоже хватит нескольких секунд. Как только он входит в оптимальный режим, а все параметры вырабатываемой энергии соответствуют заданным, сеть переключается на генератор, отключаясь от основного источника питания. В ходе этих нескольких секунд, которые нужны автоматике для оценки ситуация и дальнейших действий, нужный ток дают бесперебойные элементы питания — без них в таком случае никак не обойтись. Как только «приходит в себя» основной источник, идет обратное переключиение.

В большинстве случаев, все идет так, как надо. Проблемы случаются настолько редко, что подавляющее большинство компаний никогда не сталкивается с отказом автоматики в энергетической инфраструктуре. Но если автоматика подводит, тогда компания может столкнуться с проблемами и убытками, как в случае Delta. Как она может подвести? Дело в том, что производители генераторов используют специальное ПО, которое ведет мониторинг напряжения в сети во время сбоя. Если оно слишком высокое или автоматике «не нравится» еще что-то, то генератор просто не включается. Дело в том, что стоимость его может достигать миллиона долларов или даже выше, и производитель оборудования считает, что лучший выход — это не рисковать генератором.

Но в некоторых случаях миллион долларов — это ничто по сравнению с общими убытками от сбоя, поэтому инженеры дата-центров могут предпочесть запустить генератор, хотя бы и с вероятностью его порчи. В случае с Delta Airlines техники ничего не смогли сделать, поскольку автоматика приняла решение блокировать дорогостоящий генератор (в начале не зря говорилось, что в резервную систему вложено несколько десятков миллионов долларов США). 5–10 минут, и UPS разряжаются, сервера и прочее оборудование отключается. У Delta еще и пожар случился.

Причем здесь Amazon? Дело в том, что вице-президент этой компании как-то столкнулся с аналогичной проблемой. Он выехал из дата-центра, отдалившись на приличное расстояние. И тут ему одно за другим стали приходить сообщения об отключениях UPS. Вернувшись, он понял, что именно случилось — ситуация была аналогична той, что произошла в дата-центре Delta, только без пожара. Удивительным было то, что производитель автоматики отказался помочь снять блок с генератора и запустить его, несмотря на то, что команда дата-центра была готова пойти на риск порчи оборудования. В результате Amazon тоже потерпела убытки, хотя и не такие значительные, как Delta. В случае с Amazon был налажен контакт с производителем автоматики и создано кастомное ПО, которое включало генератор в любых проблемных случаях, если того требовала обстановка.

В большинстве случаев генератор будет работать в нормальном режиме, хотя возможна и нагрузка немного выше нормы. Сохранять его в условиях отключения электричества в дата-центре нет смысла, это неправильный приоритет. Когда речь идет о сотнях миллионах долларов США, то потеря еще нескольких сотен тысяч или миллиона играет не слишком большую роль. В случае Delta блокирование генератора привело к уже описанным последствиям и потере даже не сотни, а полутора сотен миллионов долларов США.

7f10e1f1f5a24120a7d771fe156648ad.jpg

Комментарии (10)

  • 12 апреля 2017 в 13:05

    0

    Желания убивают.

  • 12 апреля 2017 в 15:00

    0

    Я так и не понял, почему генератор не включился у Дельты
    производители генераторов используют специальное ПО, которое ведет мониторинг напряжения в сети во время сбоя. Если оно слишком высокое или автоматике «не нравится» еще что-то, то генератор просто не включается.
    Что именно «не понравилось» автоматике?
    • 12 апреля 2017 в 15:46

      0

      Тот-же самый вопрос: каким раком тут высокое напряжение в сети? Стартер генератора запускается от внешней сети, а не от своих аккумуляторов? Тут простите идиотизм получается. Генератор какого-то черта мониторит напряжение ввода? На кой ляд ему это надо, автоматика отключила ввод, техника на UPS, генератору должно быть пофигу, 0 вольт там или 1000.
      • 12 апреля 2017 в 15:52

        0

        (просто мысли) Экономия? побережём ресурс своей батареи, если есть внешнее напряжение, то пускаемся от него (для тестовых прогонов, например), а если нет — от акка. Напряжение внешнее есть? Есть. Переход к ветке пуска от внешней сети. Напряжение устривает? Нет. Какого… ну не запускаемся значит.
        Это всё, конечно, если статья не про учёного маньяка-журнолистофила.

    • 12 апреля 2017 в 16:25

      0

      Могу допустить, что после переключения на генераторы — автоматика «увидела» нагрузку от серверов + желание ИБП подзарядиться, может еще что-нибудь, общая мощность нагрузки превышала номинальную для генератора (что чревато выходом генератора из строя) — так что генератор был выключен.
  • 12 апреля 2017 в 15:07

    +1

    Аварийная система, которая в случае аварии в первую очередь спасает себя? Куда катится этот мир…
    • 12 апреля 2017 в 15:47

      0

      «Второе правило робототехники», люди-же не пострадали. ИИ ближе, чем кажется, пока он скрывается под видом добродушных генераторов.

      • 12 апреля 2017 в 15:59

        0

        Третий закон, конечно же.

      • 12 апреля 2017 в 16:13

        0

        Ну тут скорее везение. Сейчас от электроники очень многое зависит, и системы могли навернуться в более болезненном месте.
  • 12 апреля 2017 в 15:08

    +1

    Непонятно. Во-первых, байпасы там точно есть, и они должны давать возможность обойти умную автоматику и подать мощность, куда нужно.

    Во-вторых, запуск генератора — это не секунды. И автоматика выдерживает до перехода на него тоже не секунды (хотя бы из-за переходных процессов). Так что механизмы перехода на резерв и назад делаются не зря.

    Другое дело, что в статье много слов, и мало сути: какие параметры питания не устроили контрольный софт, например.

    Да и вообще, какой производитель так «пошутил» в своем ПО? Сдается мне, у него теперь отдельные, «интересные» моменты в продаже своего оборудования наступили…

© Habrahabr.ru