Сетевые проблемы – одна из основных причин сбоев в ИТ-сервисах и ЦОД. А что еще?

Основные причины сбоев

Согласно ежегодному опросу (Uptime Institute Global Survey of IT and Data Center managers) 2024) и проведенному по его итогам анализу сбоев за последний год от Uptime Institute (Uptime Institute Annual Outage Analysis 2024), проблемы с сетью и связью как самую распространенную причину сбоев в ИТ-сервисах указали 31% из 442 опрошенных респондентов. За ними следует программное обеспечение ИТ-систем, которое 22% опрошенных выделили как причину простоев и аварий. Другие распространенные причины сбоев в ИТ-сервисах включают электропитание (18%), охлаждение (7%) и проблемы из-за ИТ-сервисов третьих лиц (10%).

Uptime Institute также проанализировал сообщения о наиболее крупных публично известных сбоях в центрах обработки данных (ЦОД). Согласно этому анализу, главными причинами публично объявленных сбоев в ИТ-услугах являются:

  • Программное обеспечение ИТ (конфигурация): 23%.

  • Сеть (программное обеспечение/конфигурация): 22%.

  • Электропитание: 11%.

  • Кибератаки/вымогательство: 11%.

  • Повреждения оптоволоконных магистральных каналов: 10%.

  • Пожар: 9%.

  • Проблемы с охлаждением: 6%.

  • Сеть (кабельная инфраструктура): 4%.

  • Проблемы с поставщиком/партнером: 2%.

  • Емкость/спрос: 1%.

  • Другие причины: 1%.

Мы выяснили, что программное обеспечение ИТ — это основная причина. Но если мы добавим программное обеспечение сетей и их конфигурацию к проблемам магистральной оптоволоконной связи и кабельной инфраструктуры, то сеть станет главной причиной сбоев в ЦОД и сервисах.

сказал во время вебинара, на котором были представлены результаты анализа, Энди Лоуренс, исполнительный директор исследовательского центра Uptime Institute.

Аналитики Uptime Institute также отмечают, что частота и серьезность сбоев продолжают снижаться. Однако в свою очередь растет количество кибератак, которые также являются причиной многих самых серьезных сбоев. Они вызывают обширные и серьезные нарушения, как указано в отчете.

Атаки вымогателей и шифровальщиков могут длиться днями, а в некоторых случаях даже неделями. В крайне редких случаях компания, которая подверглась атаке, может даже прекратить свою деятельность и не восстановиться.

Проблема в большинстве случаев заключается в том, что системы управления, используемые в центрах обработки данных, теперь подключены к IP-сетям, что делает их более уязвимыми для атак. Если в прошлом управляющие системы использовали собственные приватные сети, отдельные от корпоративной сети, то сейчас безопасность сети становится более критичной с IP-системами операционных технологий (ОТ). Если злоумышленники получают доступ к ним, они могут прекратить работу части оборудования.

В то время как основные IP-системы регулярно получают патчи для устранения проблем с безопасностью, многие из этих OT-устройств, такие как системы вентиляции и охлаждения, генераторы бесперебойного питания и системы управления пожарной безопасностью, не получают таких обновлений. В результате их уязвимости остаются общедоступными и неисправленными.

Не все так плохо

В исследовании также отмечается, что большинство операторов центров обработки данных (ЦОД) и поставщиков ИТ-сервисов сообщают, что в течение последних трех лет у них не было значительных сбоев в работе или они были незначительными. Это означает, что организации, которые пользуются их услугами, не понесли серьезных убытков из-за простоев, потери данных или оборудования.

41% опрошенных сообщили о незначительных сбоях в работе, которые Uptime классифицировал как «зарегистрированные сбои с незначительным ущербом или без очевидного влияния на услуги». Еще 32% операторов отметили сбои, которые можно определить как минимальные, то есть услуги привели к минимальным проблемам у пользователей и клиентов или влиянию на репутацию.

Менее пятой части (17%) пользователей столкнулись с незначительным сбоем в работе, который был классифицирован как несущественный, или простоем, что привело к незначительному времени нарушения обслуживания клиентов/пользователей. Этот сбой не имел значительного финансового воздействия и лишь некоторые репутационные потери.

Шесть процентов указали на серьезные сбои, которые включали нарушение обслуживания или операций, финансовые потери, несоответствия заявленному качеству обслуживания, проблемы безопасности и репутационный ущерб, который мог привести к потере клиентов.

И лишь 4% опрошенных заявили, что они столкнулись с серьезными сбоями в работе, которые привели к значительному или разрушительному нарушению услуг или операций. Среди этих серьезных сбоев также можно выделить большие финансовые потери операторов и возможные проблемы безопасности. Кроме того, снятие сертификации по качеству обслуживания, потеря клиентов и огромный репутационный ущерб могут быть последствиями таких сбоев.

Uptime Institute привел несколько примеров публично известных сбоев, которые серьезно повлияли на организации. Например, Федеральная администрация гражданской авиации США столкнулась со сбоем из-за ошибки конфигурации программного обеспечения. В результате удаленные по ошибке файлы в системе предупреждения пилотов повлияли на более 30 000 рейсов, что привело к падению стоимости акций крупных авиакомпаний.

Австралийский телекоммуникационный провайдер Optus столкнулся с дорогостоящим сбоем в работе из-за проблемы с сетью, которая вызвала задержки в передаче данных и привела к проблемам с работой банков. Это также привело к отключению телефонных линий больниц на 12 часов, затронув более 10 миллионов пользователей и 400 000 предприятий.

Еще одним примером является кибератака на Dish Network, в ходе которой киберпреступники зашифровали критически важные данные, что привело к сбоям в обслуживании для почти 300 000 пользователей и снижению стоимости акций компании более чем на 6%.

Проблемы с электропитанием продолжаются

Несмотря на улучшение качества проектирования и закладываемую избыточность центров обработки данных, электропитание по-прежнему остается главным фактором сбоев в ЦОД. В 2023 году одно из десяти аварийных отключений было связано с проблемами питания.

Опросы Uptime Institute показали, что 30% опрошенных столкнулись со сбоем, который был прямо вызван проблемой с электропитанием. Среди них 42% указали на отказ источников бесперебойного питания (UPS) как на главную причину проблем. Второй по важности причиной 30% респондентов указали процесс переключения питания на генераторы.

Отказы генераторов составили 28% от общего числа сбоев, связанных с электропитанием, и почти 18% указали, что у них простой произошел из-за проблем с системами автоматического ввода резерва.

Основная вещь, которую большинство людей забывают, — это тестирование. У большинства центров обработки данных (ЦОД) заложены избыточные системы питания, но они не тестируют их регулярно, что приводит к проблемам в реальных условиях.

Но есть и хорошие новости. 39% участников опроса из промышленных предприятий сообщили об увеличении избыточности электроснабжения, а 37% рассказали о том же в отношении систем вентиляции и охлаждения ЦОД.

Поставщики услуг колокации и центров обработки данных также усилили избыточность электропитания (на 35%) и охлаждения (на 33%), в то время как 37% поставщиков облачных / хостинговых / SaaS-сервисов увеличили избыточность электропитания, а 33% — избыточность охлаждения.

Основа аварий — человек

Несмотря на то, что коммуникационные и облачные провайдеры несут часть ответственности за некоторые публично сообщенные сбои, почти 40% опрошенных смогли связать сбой напрямую с человеческим фактором.

495173224f33c2f79c6f23d8275dd688.png

Например, 48% опрошенных, сообщивших о сбоях, указали на то, что к сбоям привели сотрудники центра обработки данных, не соблюдавшие процедуры работ. Еще 45% упомянули неправильные процессы или правила для сотрудников, а 23% назвали проблемы, связанные с ошибками при установке оборудования и программного обеспечения.

Другие причины, связанные с человеческим фактором, включают:

  • Проблемы в процессе обслуживания: 20%.

  • Недостаточное количество персонала: 15%.

  • Проблемы с частотой профилактического обслуживания: 14%.

  • Дизайн центра обработки данных или упущения при его строительстве: 10%.

Если система была создана, установлена или настроена человеком, она, к сожалению, может содержать ошибку, которая приведет к сбою из-за его вмешательства.

А с какими сбоями ИТ-сервисов или работы ЦОД вы сталкивались за последнее время и к каким последствиям они привели?

© Habrahabr.ru