[Перевод] Сбои в работе облачного провайдера: как к этому относиться

842aa3be66a2473bad15ada2629919cf.jpg

Ранее в нашем блоге мы опрашивали представителей известных российских компаний об их опыте работы с SaaS, PaaS, IaaS и писали о том, как оценить выгоду от переезда в облако. Сегодня речь пойдет о еще одной важной теме — надежности работы провайдеров облачных услуг и том, как на них реагировать клиентам.

Материал является адаптированным переводом заметки из профильного блога IT 2.0.

Облака и сбои


Не так давно в профессиональном сообществе обсуждался массивный сбой одного локального зарубежного IaaS-провайдера, который привел к четырехдневному простою. Очевидно, проблема была в обновлении прошивки, использовавшейся в одном из элементов стека технологий. Этот баг поставил на колени всю инфраструктуру компании.

Интересный момент здесь заключается в том, что совершенно неважно, как назывался этот провайдер (и даже то, что за вендор допустил ошибку в своем софте) — это могло случиться с любой компанией, предоставляющей облачные сервисы и ресурсы. По-настоящему важно лишь то, что можно вынести из этой истории.

Никто и не вспомнит


Очевидно, что в случае такого масштабного сбоя, как описан выше, какое-то количество клиентов возмутятся и перейдут к конкурентам. Но проблема в том, что нет никаких гарантий, что проблемы не настигнут их и там.

Отличный пример этого — история одного из лидеров на рынке публичных облачных сервисов (название компании здесь опять не играет роли). Четыре года назад сбой настиг целый регион почти на неделю — не работало вообще ничего. Казалось бы, компании конец, о каких публичных облаках после такого можно вообще думать. Так говорили.

Прошло четыре года, и провайдер продолжает отчитываться о новых рекордах выручки, которая сопровождает взрывной рост бизнеса. И знаете что? Никто уже даже не помнит о том сбое.

Вы просто не понимаете, что такое облако


Пользователи, чей бизнес пострадал от сбоя и простоя, случившегося по вине провайдера, имеют полное право быть в гневе. Однако все было бы не так плохо, если бы они лучше понимали саму суть облаков. Когда кто-то говорит что-то вроде «Мы переехали в облако, чтобы всегда быть в аптайме», это значит, что этот человек или не понимает, что такое публичные облака (IaaS) или неверно информирован.

Вообще существует два типа провайдеров — одни гарантируют высокие возможности по масштабированию (например, добавлению новых инстансов), но уделяют меньше внимания надежности. Это UDP-провайдеры.

Второй тип наоборот фокусируется на надежности, предоставляя приемлемые возможности по контролю и масштабированию. Это TCP-провайдеры. [Примечание: похожее разделение мы делали в статье про корпоративный и массовый IaaS].

ae7585cd650b4c4d93b2631ec39dd0d5.png

Сбой, о котором сказано в самом начале случился как раз с провайдером этого типа. Почему же так произошло? Ответ до смешного прост: в облачных технологиях нет никакой магии, TCP-провайдер просто берет энтерпрайз-технологии (доступные, в том числе, в виде продуктов, которые можно использовать и самостоятельно) и предоставляет клиентам с их помощью то, что и называется IaaS.

Другими словами, когда дело касается отказоустойчивости, TCP-провайдер не сильно лучше использования собственного железа. UDP-облако же по своей природе менее надежно, чем собственная инфраструктура.

Это значит что, хорошо спроектированное публичное облако не является по своей природе более надежным, чем хорошо спроектированный дата-центр энтерпрайз-уровня (для крупных компаний). Все потому что проблемы могут случиться со всеми. И тут мы подходим к следующему важному моменту.

Sh*t happens


Да, именно так. Проблемы случаются. Они случались раньше, и наверняка будут иметь место в будущем. Сбой может возникнуть на уровне данных или уровне управления: скрытые баги софта, брак в «железе» или некачественные подходы к управлению, все это может привести к катастрофическим последствиям для облака.

Пример такой ситуации: несколько лет назад крупный банк столкнулся с крупным сбоем, который произошел, вы не поверите, из-за проблем с вентиляцией. Система кондиционирования внезапно сломалась, и все серверы стали самопроизвольно перезагружаться, поскольку температура в помещении быстро поднялась до 55 градусов по Цельсию, что привело к срабатыванию механизма защиты. На то, чтобы восстановить нормальную работу, потребовалось несколько дней.

1adc1f58d15d4a1bb450289d70489c3a.jpg

Это всего лишь пример, к тому же довольно экстремальный, но суть передана верно — катастрофические сбои инфраструктуры могут случиться с кем угодно и когда угодно. Возьмем обновление хранилища — энтерпрайз-серверы для систем хранения данных (в традиционных дата-центрах их полно) не так часто доставляют проблемы, поэтому, когда они все же появляются, то масштаб последствий впечатляет. И да, распределенные системы хранения данных не решают эту проблему — большая надежность с одной стороны компенсируется сложностями с разделением данных, с другой.

Все это происходит как в собственных дата-центрах компаний, так и в дата-центрах облачных провайдеров. Вся разница в том, что когда масштабный сбой «накрывает» собственный дата-центр, об этом не расскажут в новостях. Если же то же самое произойдет с провайдером, то обсуждать это будут очень активно.

Стопроцентного аптайма не бывает


Вообще об облаках часто говорят, как о commodity-услуге, всем нравится, когда провайдеры снижают цены на 50%. Но когда случаются проблемы, то сразу возникают мысли о том, что «если бы мы заплатили больше, то шансы обойтись без сбоев были бы выше».

Это в первую очередь касается компаний, чьим приложениям нужна упругость инфраструктуры для работы с данными. Такие пользователи никогда и нигде не найдут провайдера, который обеспечит гарантию 100%-аптайма (помните, sh*t happens?), но они ищут максимально надежных провайдеров.

Заключение


Выбирая способ организации собственной инфраструктуры, компании должны помнить о том, что стопроцентной гарантии аптайма не существует. Нужно надеяться на лучшее, но готовиться к худшему. Важно осознавать, что «по ту сторону облачных баррикад» находятся профессионалы, бизнес которых заключается в том, чтобы обеспечивать работоспособность и надежность инфраструктуры, однако даже они — не волшебники.

Однажды сбой все равно случится. С этим нужно просто смириться. Однако, его вероятность и последствия можно снизить, выбрав максимально надежного провайдера.

На сегодня все, спасибо за внимание! Не забывайте знакомиться с новыми материалами на первом блоге о корпоративном IaaS.

© Habrahabr.ru