Варианты компенсации даунтаймов от Google и Telstra

Даунтаймы (время, когда система не работает) ЦОД наносят не только финансовый ущерб, но и причиняют вред репутации бренда. Множество причин может вызвать даунтаймы дата-центров. Бывает, что инфраструктура не способна справиться с нагрузкой из-за различных дефектов (стихия, перебои в работе центральной электросети и т.д.). Но именно человеческий фактор является причиной большинства ошибок, которые приводят к снижению безопасности и надежности ЦОД. Согласно результатам статистики компании WinMagic, опросившей около тысячи операторов дата-центров, большинство респондентов (31%) считают самой серьезной угрозой логической безопасности именно сотрудников с доступом к серверным фермам. Любопытно, что атаки хакеров занимают лишь второе место (30%).

6c7ee0aa857d4a94bf37da038b1e2180.jpeg

Google взялся возместить своим клиентам до 25% их месячных затрат за сбой работы облака Google Compute Engine, который длился почти 20 минут (учитывая, что аптайм 99,9% допускает недоступность сервиса в течении не более 45 минут в месяц). Согласно пресс-релизу, который был выложен на веб-ресурсе Google Cloud Platform, первопричиной сбоя стали изменения конфигурации сети. Когда операторы занялись изменениями, программное обеспечение, управляющее конфигурацией, обнаружило конфликт. Пытаясь исправить ситуацию, система сделала попытку возвратиться к предыдущей конфигурации и наткнулась на неизвестную ранее ошибку, которая привела к сбою. Кое-как «залатать» дыру удалось лишь спустя 20 минут, но проблема осталась не решенной. Разработчикам Google пришлось немало поработать над оптимизацией своих систем.

b8296792a6d246cfabb1acf60f9422a9.png

Подобная история произошла в ЦОД австралийской телекоммуникационной компании Telstra. Тот самый пресловутый человеческий фактор вывел из строя весь дата-центр. Но в отличии от Google, на устранение проблем в Telstra потребовалось почти четыре часа. Мобильная сеть телекоммуникационной компании ушла в офлайн. По данным издания Sydney Morning Herald, инцидент произошел из-за действий инженера, который перевел неисправный сетевой узел в автономный режим без предварительной активации резервного узла. Эти действия вызвали перебои в работе мобильной сети и оставили множество клиентов без связи. Проблема затронула многие города Австралии, включая Брисбен, Сидней, Мельбурн, Аделаида и Перт. За время исправления неполадки тысячи людей высказали свое недовольство работой компании в социальных сетях.

9638f81ed2154c18b35fc740962ef69d.jpg

После случившегося произошло еще несколько, менее серьезных и длительных даунтаймов. Руководством компании было принято решение компенсировать клиентам доставленные неудобства. Telstra подарила своим абонентам день бесплатного безлимитного мобильного интернета (Free Data Day). По итогам дня было скачено 2,686 Тб данных, что естественно привело к перегрузке сети и снижением скорости загрузки.

Простой дата центров наносит финансовый ущерб и бьет по репутации компании. Поэтому операторам, проектировщикам и строителям ЦОД так важно делать все от них зависящее для минимизации даунтаймов. Конечно же никто не может гарантировать безопасности на 100%, но если использовать современные стандарты, подготовить план действий на случай непредвиденных ситуаций и не забывать про своевременное техобслуживание — риск даунтайма будет сведен к минимуму.

© Geektimes