Как сбой в дата-центре может привести к отмене тысяч рейсов крупнейших авиакомпаний

В прошлый понедельник многие интернет-СМИ писали о том, что тысячи авиарейсов второй по размеру и значимости авиакомпании мира были отменены. Речь идет о Delta Air Lines. Тысячи и тысячи пассажиров Delta Air Lines не смогли никуда улететь, поскольку рейсы, на которые они купили билет, просто перестали существовать. Как оказалось, проблема — в сбое компьютерной системы компании. Причем не в региональной, а в основной — проблема случилась в главном дата-центре Delta Air Lines, расположенном в Атланте, США.

009147cc2410ecc331f210ea6c11b322.jpg
Служащий Delta Airlines помогает пассажиру, чей рейс отменили, разобраться в ситуации

У компании есть и дублирующие системы, которые в случае проблемы в основном дата-центре должны были начать работу, заменив собой проблемные серверы. Но этого не случилось, вторичная, дублирующая система тоже не функционировала. Интересно, что по словам руководства, компания вложила десятки миллионов долларов США в дублирующие системы. Специалисты Delta Air Lines смогли все восстановить всего за шесть часов, но за это время компания потеряла миллионы долларов из-за отмены рейсов и связанных с этим убытков. Проблема — сбой в энергосистеме и неполадки с запасным генератором.

Как оказалось, штатное переключение с основной энергосистемы на вспомогательный генератор привело к выходу из строя последнего. Случился пожар, который быстро был потушен. Но вся инфраструктура дата-центра Delta Air оказалась обесточенной. Только через несколько часов удалось ввести в строй 400 из 500 серверов, и спустя еще некоторое время восстановилась работа остальных 100 серверов. Все это время почти весь флот из 800 самолетов оставался на земле. А отмена всего одного авиарейса обошлась компании в $17 000, плюс пришлось компенсировать пассажирам транспорт, питание, дополнительные расходы и т.п.

Еще одна проблема — устаревшая инфраструктура дата-центра. Электронная система бронирования билетов была создана в 1960 году. С тех пор она неоднократно перестраивалась, обновлялась, но все же ИТ-инфраструктура компании не соответствует современным требованиям. Объем данных, с которыми работают сервера компании велик, а бэкапы делаются несколько раз в день, а не в постоянном режиме, теневые копии не создаются. В результате при аварийной ситуации восстановление нормальной работы дата-центра требует больше времени, чем если бы данные бэкапились непрерывно.

А что с Southwest Airlines?


1469899357-Earns-Southwest-Airlines.jpg

Это еще одна крупная авиакомпания, потерявшая миллионы долларов США из-за сбоя в дата-центре, случившегося еще 20 июля. А причина сбоя — частичный отказ в работе одного-единственного маршрутизатора, коих в дата-центре компании сотни. Служба поддержки ДЦ не заметила проблемы, и буквально через несколько минут вся система рассыпалась, как карточный домик. Руководитель компании сравнил происшествие с наводнением, которое случается раз в 1000 лет.

В течение последующих четырех дней были отменены 2 300 рейсов, сотни тысяч пассажиров никуда не улетели, в течение четырех дней билеты было невозможно забронировать. Все это стоило компании десятков миллионов долларов в виде прямых и косвенных убытков. Акции Southwest Airlines упали на 11% и пока что динамика обратного роста не слишком активная.

После проведения детального расследования происшествия оказалось, что сбой случился сам по себе, вмешательства со стороны не было. По словам специалистов, система резервного копирования и хранения информации в дата-центре компании была сконфигурирована неправильно, так что воспользоваться всеми этими данными, введя в работу запасную систему, оказалось нельзя.

В ближайшем будущем компания планирует развернуть новую систему бэкапов, с новым оборудованием, что должно свести к минимуму повторение такой ситуации в будущем. Тем не менее, свои 10–15 миллионов долларов США компания потеряла.

И это еще не все


Southwest Airlines и Delta Airlines не единственные авиакомпании, которые потеряли деньги из-за сбоев оборудования дата-центров. В мае компания JetBlue просила своих пассажиров регистрироваться в аэропорту «вручную», а не автоматически. Причина — все тот же сбой компьютерной системы. Плюс United Airlines отменила сотни авиарейсов из-за сбоев в собственном дата-центре в прошлом году.

Основной источник проблем — недостаточное количество серверов для бэкапа, неправильно настроенная система резервирования данных, проблемы с энергетической инфраструктурой, экономия. Плюс ко всему, здесь присутствует еще проблема отсутствия унификации оборудования и сервисов — у каждой компании технические системы собственные, порой, уникальные, разрабатываемые в течение десятков лет. В результате общие решения, рекомендуемые в случае сбоев в структуре дата-центров, для ряда таких компаний просто неприменимы. А это влечет за собой, как видим, миллионные убытки.

Согласно недавнему исследованию, проведенного институтом Понемона, сбой в дата-центре обходится его владельцам в среднем в $74000 (в 2015 году). Наиболее дорогим оказалась одна из прошлогодних аварий, с общей суммой убытков для владельца дата-центра в $2.4 млн.

Другие наши публикации:

  • Аварии в дата-центрах, которые было (почти) невозможно предусмотреть
  • QRLJacking: новый тип атаки угрожает безопасности пользователей ряда сервисов и интернет-мессенджеров>
  • Рейтинг языков программирования в 2016 году
  • Uptime Institute представил новую систему сертификации дата-центров
  • Как Facebook сэкономил 75% энергии, которая требуется для хранения фоточек котиков и селфи пользователей

Комментарии (0)

© Habrahabr.ru