[Перевод] Вспоминая Сэнди: как операторы дата-центров справились с бурей
…И какие уроки стоит из этого извлечь
«Честно говоря, нам не было страшно. Мы даже транслировали его в прямом эфире. Это было захватывающее зрелище…пока не пришла штормовая волна».
Ураган Сэнди был поистине безжалостен. Он унес жизни сотен людей и причинил многомиллиардный ущерб восьми странам. Деловому району Нью-Йорка, где размещено сразу несколько дата-центров, досталось по полной программе.
«Все время, что я вел экскурсии по дата-центрам, я непременно хвастался резервными топливными баками, насосами с раздельными источниками питания, ДГУ и всем прочим. На словах все это очень хорошо и надежно», — вспоминает Алекс Реппен.
«Но шторм просто вырвал все эти баки с корнем, когда волна добралась до подвальных помещений ЦОДа. Поток воды оказался настолько мощным, что болты вылетали из бетонного пола, как спички».
Алекс Реппен — основатель и генеральный директор интернет-провайдера Datagram. На его глазах флагманский дата-центр компании дрогнул и вышел из строя, фактически отключив сотни сайтов, сервисов и веб-приложений, среди которых были Gawker, Gizmondo, Buzzfeed и Mediate.
Штормовая волна
В соответствии с правилами, принятыми после 11 сентября, в центрах обработки данных в Нью-Йорке дизельное топливо должно храниться в подвале, а генераторы — располагаться на крыше. Это достаточная мера безопасности при обычных отключениях питания, но в случае с Сэнди все пошло не так.
«В тот вечер все мы были на улице, а электрики строили импровизированные контроллеры насосов на фанерных щитах и держали их на высоте 12 футов [ок. 4 метров], чтобы уберечь от воды», — вспоминает Реппен.
«В то же самое время из подвала здания откачивали десятки тонн воды. Мы действительно даже не знали, с чем имеем дело: два парня отправились вниз и свалились в воду. Это крайне опасно: нельзя было возвращаться в здание, пока там такой потоп».
Peer 1Когда удалось откачать большую часть воды, оказалось, что электрический стояк уничтожен, пострадала вся его нижняя часть. «Нам пришлось тянуть новый кабель через 25 этажей, чтобы подключиться к генератору на улице», — говорит Реппен. «Когда его привезли, мы установили его на специальную опору. Но… вскоре он сломался из-за плохого топлива».
Поставщики топлива увидели в кризисе возможность продать подороже всё, что горит. Печное топливо продавалось под видом топлива для генераторов! «Наконец, приехали новые ДГУ, 3 штуки, и мы с ведрами наперевес пытались хоть как-то отфильтровать солярку. Сущий ад».
Шторм понемногу утих, но у Datagram проблемы только начинались. Колоссальные повреждения самого здания, чрезвычайно медленный ремонт и проблемы с арендодателям привели к тому, что еще целых 3 месяца ЦОД работал от дизельных генераторов. «Никто не торопился ремонтировать стояк! Это чрезвычайно важная вещь, значение которой можно оценить по-настоящему только после того, как она сломается!».
Опыт работы от дизель-генераторов оказался чертовски изматывающим испытанием для всех сотрудников компании. «Я жил тогда в 6 кварталах от ЦОДа. И даже спустя месяц после катастрофы я заводил будильник на 3 часа ночи и несся в ЦОД сломя голову. Нужно было убедиться, что всё работает. Это был настоящий кошмар».
Многие сотрудники фактически жили в стенах дата-центра, чтобы поддерживать его работу и успокаивать взволнованных клиентов. «Заказчики не оставили нас в этот трудный период», — говорит Реппен. «Разве что маленькие проекты $29–100 в месяц кричали о кровавой расправе и угрожали, что уйдут. Но крупные клиенты, платившие по несколько десятков тысяч долларов в месяц, не уходили. Они понимали, что случилась катастрофа».
Эмоциональное напряжение подстегивалось еще и тем, что Datagram вот-вот планировалось продать. В конечном счете в 2015 году он был поглощен SingleHop, а затем — INAP, но одному только богу известно, сколько десятков миллионов недополучили основатели компании из-за последствий урагана.
«Целая куча денег вылетела в трубу: расходы на дизельное топливо, кредиты, миграция клиентов. Один только 25-этажный стояк стоил $500 000.»
Компания подала на арендодателя в суд. «Пятилетняя тяжба окончилась пшиком. Мы подавали в суд и на страховую компанию, и обращались в арбитраж. Даже Блумберг [мэр] обещал нам свою поддержку, но все напрасно. Очень, очень дурная история».
Легендарная «ведерная бригада»
Разумеется, Datagram был не единственным пострадавшим. Шторм погубил и других провайдеров, разместивших ресурсы в Манхеттене: Internap, Steadfast Hosting, Init7 и Cogent. Лишь единицам удалось продолжить работу, в частности, тем, кому удалось организовать так называемые «ведерные бригады».
Peer 1Буквально в 200 метрах от Datagram располагался провайдер Peer 1, столкнувшийся со схожей проблемой. Большую часть топливного хранилища похоронило под водой, спасти удалось только небольшой бак, стоявший возле генератора. Скромный расход энергии Peer 1 (около 400 кВт) позволил бы ЦОДу продержаться целых 6 часов.
Предполагалось, что генератор сможет продолжать работу, если наладить процесс подачи топлива. Первый план заключался в переносе 55-галлонных бочек дизельного топлива из подвала, по одной бочке за раз, за 18 итераций. «Это было крайне неэффективно», — говорит Майкл Маццеи, менеджер дата-центра. «У вас есть план А, потом — В, С… Понемногу углубляясь в алфавит, вы рано или поздно придумываете реальный, рабочий план. В конечном итоге мы разлили топливо по пятигаллонным емкостям и смогли транспортировать их на крышу без особых сложностей».
В процессе участвовали инженеры, строители и даже представители некоторых клиентов, таких как SquareSpace и АFog Creek. Суммарно они проработали более 60 часов.
Маццеи прибегал и к другим методам продления автономной работы: например, он распорядился отключить блоки CRAC и кондиционирование воздуха в некоторых помещениях. Это вызвало некоторое повышение температуры, но заметно сократило расход топлива.
«Я не слишком спортивный парень. Даже первый подъем топлива дался мне с трудом. Помню, я задался вопросом: «повезет» ли мне стать еще одним молодым человеком, у которого случился инсульт?» — так прокомментировал ситуацию один из сотрудников Peer 1 в промо-ролике компании, вышедшем год спустя.
Реппен был наслышан о манипуляциях своих соседей и отнесся к этой затее критически: «да, кто-то говорил, что ребята из соседнего здания бегают с ведрами туда-сюда, что кто-то поскользнулся, упал, и все в этом духе. Буду честен, я тоже поднимался по лестнице [на 25 этаж] раз или два. И несмотря на то, что я слежу за своей формой, эти пробежки меня доконали. Влажность, творящийся вокруг хаос — я представить себе не мог, что смогу взлететь на крышу с полными ведрами дизельного топлива. Это однозначно не стоило риска. Удивлен, что все остались живы!».
Маццеи с этим утверждением не согласен. По его словам, команда Peer 1 проявила аккуратность и сообразительность. «Дизель — безопасное для переноски топливо. Не думаю, что с бензином мы повторили бы этот опыт: одна искра от лампочки, и всё, пожар. А дизель очень стабилен. Чтобы он загорелся, его нужно сначала как следует сжать. Вряд ли это было опасно.
Это был один из тех эпизодов, когда, чтобы начать, достаточно первого импульса. А потом он действует как маховик, и вы продолжаете идти пролет за пролетом на адреналине, понимая, как важно поддерживать работу ЦОДа ради своих клиентов».
К тому же, по словам Маццеи, их затея могла принести пользу и другим людям. Во всем здании не работал ни один телефон, мобильной связи не было, и многие приходили в дата-центр просто чтобы позвонить.
Сотрудники бегали с топливом с этажа на этаж, в то время как их соседи по зданию, включая Internap, отключились.
«Да, кое-что мы пролили на тротуар, пока носили. Меня смешила реакция людей: они жаловались на пролитую солярку, в то время как мимо проплывали автомобили. И тут кто-то жалуется, что мы расплескали ведерко. Серьезно?!», — смеется Маццеи.
Невыученные уроки
Все, с кем мы говорили об ураганах в Техасе и Нью-Йорке, гордились духом товарищества перед лицом катастрофы.
«Mне довелось познакомиться с группой по реагированию на чрезвычайные ситуации Verizon. Что могу сказать — замечательные ребята, джентльмены. Они помогли нам достать генераторы и поделились своими логистическими ресурсами» — говорит Реппен.
Маццеи поделился историями других центров обработки данных, которые сообща справлялись с последствиями урагана.
«Знаете, когда речь заходит о работе частных компаний… такая дружба — явление временное. Крупные игроки не делятся своими практиками, даже если речь идет о ЧС. Поэтому опыт и понимание, что нужно делать в экстренной ситуации, теряются, замалчиваются. Это сильно затрудняет подготовку к будущим форс-мажорам.»
По словам Реппена, практически каждый инженер, проработавший в отрасли дата-центров хотя бы 10 лет, сталкивался с ЧП. «Но есть и те, кто никогда не переживал настоящую бурю, способную разметать в пух и прах все, что вы знали о своей жизни, опыте и вообще — месте на земле. Это действительно тяжелый опыт, я бы никому такого не пожелал.
Но стоит хотя бы раз столкнуться с таким явлением, чтобы перестать отмахиваться от идеи двойного — или даже тройного резервирования критически важных систем».
Если вы хотите защититься от сбоев инфраструктуры и аварий в дата-центре, используйте облако провайдера в качестве резервной площадки. Сервис Disaster Recovery от #CloudMTS можно протестировать бесплатно — даем 14 дней пробного периода без ограничений по функционалу.