Аварии на серверных фермах

Продолжая тему аварий на серверных фермах. Причины ухода в офлайн мощных инфраструктур дата-центров весьма различны: перебои в электроснабжении, неполадки в системах охлаждения, работе резервного дизель-генератора, в оборудовании, ненадлежащее техническое обслуживание этого же оборудования и т.п. Не стоит забывать и о человеческом факторе.

7e20ec79b9d64e20888a7be7a7476d63.png

Как говорится, на ошибках учатся, и хорошо если не на своих. Операторы серверных ферм могут извлечь полезные уроки о том, как подготовится к потенциально возможной аварии, устранить ее последствия, да и вообще избежать каких-либо промахов, которые влекут за собой немалые потери.

Cogeco Peer1


Дата-центр Cogeco Peer1 в Атланте ушел в офлайн из-за проблем в системе резервного питания.

098b668c31824776989ddc1010dba168.png

Компания Cogeco Peer1 (Атланта, США), которая предоставляет услуги в области управляемого хостинга, после ухода в офлайн ее серверной фермы, стала в центре обсуждений и критики в социальных сетях. Многие клиенты этого сервис-провайдера высказали свое «фе» в отношении компании, многие грозились поменять провайдера и перевести все свои рабочие нагрузки в AWS. AWS были рады присоединиться к такому рода высказыванию и попытались переманить недовольных клиентов Cogeco Peer1.

065bd6f775cc412d91c4feb4883bc1bd.png

Серверная ферма ушла в даунтайм из-за частичного прекращения подачи электроэнергии. На устранение проблемы ушло почти пять часов, все началось в половину второго, на полную мощность дата-центр заработал только к семи вечера. Из-за случившегося сбоя в электроснабжении была полностью отключена инфраструктура в определенных участках серверной фермы. Как обьявила Cogeco Peer1, причиной даунтайма стал сбой в системе резервного питания ЦОД.

TeliaSonera и «человеческий фактор»


95f5b9f7d92e40119f5d59018fc58710.png

Компания TeliaSonera предоставляет услуги телекоммуникаций и сетевого доступа. Недавно из-за ошибки инженера серверной фермы при конфигурировании маршрутизатора в ЦОД, многие пользователи таких известных интернет-сервисов, веб-сайтов и приложений вроде WhatsApp, Reddit, CloudFlare и AWS понесли потери. Большая часть трафика вместо того чтобы идти в Европу, была направлена в Гонконг. Миллионы пользователей прочувствовали данную ошибку на себе при подключении к интернету и работе с популярными приложениями. Вначале эксперты предполагали, что данная проблема вызвана повреждением трансатлантического магистрального телекоммуникационного кабеля. Два часа понадобилось, чтобы устранить проблемы на серверной ферме TeliaSonera. Клиентам были отправлены письма с извинениями, а в блоге компании появилась запись о том, что компания планирует приложить максимум усилий в направлении автоматизации своих систем. Такое решение сведет к минимуму возникновений простоев по причине человеческого фактора.

228f806374414dea91af8e3e764a0fc7.png

Многие компании часто умалчивают о причинах, которые приводят к сбоям и простоям в работе серверных фермах. Владельцы дата-центров весьма неохотно делятся сведениями об авариях у себя на объектах. В офлайн ушел сайт одной из крупнейших американских кредитных компаний Lending Club. Компания за время работы (с 2006 года) выдала кредиты на сумму $18 млрд., неудивительно, что данный простой очень обеспокоил инвесторов компании. Сбой в работе наблюдался на прошлой неделе, причиной были названы неполадки в дата-центре (точно не указанные). Несколько часов ЦОД находился в даунтайме.

84e212a6fec04cf4ac68f65aae20efec.png

Кстати, по данным компании Emerson, самой частой причиной, вызывающей сбой в работе дата-центров, является отказ аккумуляторов ИБП. В этом исследовании приняли участие 450 операторов серверных ферм. Второй проблемой является перегрузка ИБП, еще — ошибки монтажа электрических соединений, сбои в работе АВР и короткие замыкания. Половина проблем связана все с тем же с человеческим фактором. Одна треть сбоев в работе дата-центров случается «благодаря» системам охлаждения, в 35% случаев из-за утечки воды.

a67157ef6264432dab8378014c46df70.png

Если говорить о нашем рынке (украинском), то владельцы ну уж очень неохотно делятся информацией о происходивших сбоях и причинах ухода в офлайн инфраструктур своих серверных ферм. А начинается все, как ни банально, с конструкций под размещение ЦОД. Старые здания, износившиеся строительные конструкции, замаскированные трещины в перекрытиях, несущая стена с выбитым проемом в полметра на метр… Тополиный пух, который в летнее время забивает теплообменники внешних блоков, а в зимнее время эти же блоки часто останавливаются по причине обмерзания или заклинивания вентиляторов из-за попавших в них сосулек с крыши. Экономия на системе вентиляции, а именно установке калорифера в ней, приводит к тому, что зимой оттуда стекает конденсат. Сбои в работе ИБП случаются и из-за подключения непрофильной нагрузки к участку электрической цепи серверной фермы. Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.

Комментарии (2)

  • 8 июля 2016 в 18:28

    0

    «Горшочек, не вари!» У вас какой-то зверский план по заваливанию Хабра хоть чем-то?

    А когда начало — подборка в стиле «лучшие аварии», а конец, внезапно

    Если говорить о нашем рынке (украинском)… Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.

    и это считается чем-то «профессиональным» — то, простите, я бы ни в один ДЦ такого «рынка» хостинга не пошел бы. Страшно
  • 8 июля 2016 в 18:32 (комментарий был изменён)

    0

    Единственное, что я вынес из этой статьи — владельцы не очень неохотно делятся информацией о сбоях.

© Habrahabr.ru