Непрерывность бизнеса и аварийное восстановление: в чём разница29.08.2024 19:15

В этой статье мы разберёмся, в чём разница между непрерывностью бизнеса и аварийным восстановлением (восстановлением после сбоя) — двумя обязательными стратегиями для любой компании, желающей избежать длительного простоя. Как объединение обеих практик повышает устойчивость к потенциально опасным для бизнеса угрозам?

Что такое непрерывность бизнеса

Непрерывность бизнеса (англ. BC, business continuity) — это запланированный комплекс мер, который определяет, как компания будет продолжать свою деятельность в случае аварийного сбоя. План временно устраняет инцидент, чтобы поддерживать критически важные бизнес-функции до тех пор, пока не будет устранена угроза. Цель — минимизировать время простоя в случае инцидента.

В идеале компания должна подготовить план НБ для каждого возможного сценария сбоя. Инциденты различаются в зависимости от географии и отраслевых вертикалей. Вот некоторые из наиболее распространённых:

стихийные бедствия (землетрясения, ураганы, лесные пожары и т. д.);
пожары и наводнения в офисах или серверных помещениях на территории предприятия;
региональные или локальные отключения электроэнергии;
вспышки заболеваний и пандемии;
кража, вандализм и аналогичные преступные деяния;
кибератаки (такие как программы-вымогатели, DDoS-атаки, фишинг, APT-атаки и т. д.);
попытки мошенничества со стороны высшего руководства компании;
потеря связи и сбои в работе программного обеспечения;
аварии в центрах обработки данных;
угрозы целостности и безопасности данных (например, утечка или повреждение).

Например, план управления непрерывностью бизнеса на случай затопления офиса предусматривает следующий порядок действий:

обеспечение безопасности сотрудников и клиентов на объекте;
обеспечение безопасности основных активов компании;
обеспечение бесперебойной работы критически важных процессов;
предоставление сотрудникам альтернативного рабочего места (например, временный офис или возможность работы на дому);
принятие мер по устранению источника затопления и осушению офиса.

Готовить план реагирования на каждый сценарий, который вы можете себе представить, конечно, нецелесообразно. Большинство компаний готовят планы только для реалистичных событий (например, готовиться к цунами неразумно для компании, расположенной в далёком от моря регионе).

Что такое аварийное восстановление

Аварийное восстановление, или восстановление после сбоя (англ. DR, disaster recovery), — это запланированный комплекс мер, которые определяют, как компания будет восстанавливать свою ИТ-инфраструктуру после разрушительного события. В то время как план непрерывности бизнеса нацелен на поддержание работы бизнес-процессов во время инцидента, восстановление после сбоя фокусируется на восстановлении технологических систем до состояния, предшествующего отказу.

Планирование DR включает в себя:

подготовку (насколько хорошо компания подготовлена к инциденту, связанному с ИТ);
реагирование (как компания реагирует на инцидент и обеспечивает доступность систем и данных);
восстановление (какие шаги предпринимает для восстановления ИТ-операций до исходного состояния).

Восстановление после сбоев относится к планированию непрерывности бизнеса, и ни одна стратегия BC не будет полной без плана восстановления ИТ-функций. DR готовится к тем же авариям, что и BC (стихийные бедствия, кибератаки, внутренние угрозы и т. д.), но фокусируется исключительно на восстановлении программного обеспечения и ИТ-активов, таких как:

внутренние серверы и другое оборудование;
сетевая инфраструктура и конечные точки;
ценные бизнес-данные;
приложения, ориентированные на клиентов;
внешние пограничные серверы;
критически важные приложения и программное обеспечение;
активы облачных вычислений.

Хотя план BC также охватывает вышеперечисленные факторы, план непрерывности бизнеса глубже проникает в то, как компания справляется с инцидентом (например, управление кризисом, безопасность сотрудников, альтернативные офисы, стратегии связей с общественностью и т. д.). Эти факторы не являются частью планирования DR.

Давайте рассмотрим тот же пример с затоплением, чтобы увидеть, как DR соответствует картине BC. Если внезапный порыв воды обрушится на ваш офис, план DR поможет быстро:

убедиться, что вода не повредит ИТ-активы;
переключить операции на резервное оборудование (на другом этаже или где-то за пределами офиса);
синхронизировать данные в новой ИТ-среде;
восстановить работу основной ИТ-системы, как только проблема затопления исчезнет.

Большинство стратегий DR предполагают переключение операций с основной системы на альтернативную площадку. Вместо того, чтобы устанавливать дорогие системы резервного копирования на месте, вы можете положиться на аварийное восстановление как услугу (DRaaS) и создать облачную инфраструктуру, которая мгновенно возьмёт на себя операции во время кризиса.

Почему важны непрерывность бизнеса и восстановление после сбоев

Для безопасности компании жизненно важны как непрерывность бизнеса, так и аварийное восстановление. План BC гарантирует, что вы продолжите предоставлять услуги во время и после инцидента. А план восстановления после сбоев гарантирует, что критически важные системы будут оставаться в сети, и ваши ИТ-системы быстро вернутся в рабочее состояние.

Компании излагают свои планы BC и DR в двух документах:

План обеспечения непрерывности бизнеса (BCP). Он объясняет, как компания собирается поддерживать основные функции во время и после аварийного сбоя. Этот документ посвящён работе бизнеса в целом и объясняет, как различные команды должны продолжать работать в необычных обстоятельствах.
План восстановления после сбоя (DRP) посвящён предотвращению потерь данных и функциональности ИТ-инфраструктуры.

Некоторые организации используют один документ для обоих планов. Давайте подробнее рассмотрим, что рекомендуется включать в эти планы вне зависимости от того, пишете ли вы их вместе или по отдельности.

План обеспечения непрерывности бизнеса

Что необходимо включить в план BC:

краткое изложение с глоссарием терминов;
актуальный анализ рисков, оценку уязвимостей и анализ влияния на бизнес;
список, в котором указано, где вы храните копии плана, кому необходим доступ к документу, а также ссылки на любые соответствующие файлы (например, план эвакуации);
все соответствующие юридические, договорные, страховые и нормативные обязательства;
обзор того, кто, когда и почему работал над планом;
цели плана BC;
обзор географических рисков и факторов;
список наиболее важных аспектов бизнеса, а также объяснение того, как быстро (и в какой степени) они должны быть возобновлены в случае возникновения инцидента;
рекомендации о том, как и когда использовать план;
тщательная оценка сценариев катастроф, их вероятности и последствий (например, стоимость ремонта, нарушение предоставления услуг конечным пользователям, потенциальные финансовые и юридические последствия и т. д.);
обзор группы реагирования на инциденты, а также контакты всех сотрудников, к которым можно обратиться в случае кризиса;
подробные руководства по предотвращению инцидентов;
инструкции по выявлению различных угроз;
пошаговые планы реагирования для каждого сценария стихийного бедствия;
любые изменения в процедурах управления, вступающие в силу во время и после инцидента;
списки дополнительных офисов, инструкции по работе на дому и политикам BYOD;
график проверки, тестирования и обновления плана BC;
четкий план коммуникаций с поставщиками, сторонними партнерами и средствами массовой информации;
метрики и ключевые показатели эффективности для измерения этапов воздействия и восстановления (например, максимально допустимое время простоя (MTD));
инструкции по обучению руководителей групп и отдельных сотрудников.

План восстановления после сбоев

Что необходимо включить в план DR:

заявление о намерениях и целях плана;
обзор того, кто и когда создал план;
тщательный анализ ИТ-инфраструктуры, сетей и данных, которые вы защищаете с помощью плана восстановления после сбоев;
инвентаризация всего соответствующего оборудования и программного обеспечения;
углубленный анализ ИТ-рисков;
обзор текущего технологического стека системы;
рекомендации по использованию плана;
данные RTO и RPO (целевое время восстановления указывает количество времени, необходимое для восстановления приложений и данных, а целевая точка восстановления указывает, как часто команда выполняет резервное копирование данных в обычных обстоятельствах);
список всего персонала, ответственного за выполнение плана восстановления после аварии;
пошаговые инструкции по перезапуску, перенастройке, повторному размещению и восстановлению систем во время кризиса;
список всех инструментов, необходимых для выполнения DR (плюс инструкции по их правильному использованию);
все необходимые средства аутентификации и все требуемые пароли;
подробные инструкции по предотвращению инцидентов и проактивной защите системы (например, использование средств защиты от вредоносных программ, настройка IDS, создание ежедневных резервных копий и т. д.);
критически важные функции, которые простаивают в случае сбоя ИТ-системы;
вся необходимая информация об ИТ-инфраструктуре, которая возьмет на себя управление в случае возникновения инцидента;
график плановых обзоров и обновлений стратегии;
инструкции по обучению сотрудников, отвечающих за управление ИТ-системой и руководство процессом восстановления после сбоев (тестирование на проникновение — это распространенный способ, которым компании проверяют готовность своей команды восстановления после сбоев).

Основные различия непрерывности бизнеса и аварийного восстановления

В таблице ниже поясняются основные различия между обеспечением непрерывности бизнеса и восстановлением после сбоев:

Сравнительный фактор	Непрерывность бизнеса	Восстановление после сбоев
Приоритеты	Поддержка работы предприятия во время стихийных бедствий и минимизация времени простоя бизнес-процессов.	Ограничение влияния технологических сбоев и максимально быстрое восстановление ИТ-системы.
Охват	Все бизнес-процессы, необходимые для обеспечения функционирования организации (включая кадровое обеспечение, логистику, поставки, планы эвакуации и т. д.).	Сосредоточение только на одной ИТ-системе и ее хранилищах данных.
Время запуска	Как только лица, принимающие решения, узнают об инциденте.	Это ответ на инцидент, который начинается после начальных фаз BC.
Время завершения	Длится до тех пор, пока бизнес не вернется к нормальной работе, что обычно происходит значительно позже окончания стихийного бедствия.	Завершается в тот момент, когда ИТ-инфраструктура возвращается в состояние, предшествовавшее инциденту.
Инвентарь	Ведет инвентаризацию всех критически важных активов, включая персонал, поставщиков, транспортные средства, здания и т. д.	Ведет инвентаризацию соответствующих ИТ-активов и хранилищ бизнес-данных.
Анализ риска	Требует анализа влияния каждой угрозы на бизнес на макроуровне, которая может реально повлиять на операции.	Оценивает только угрозы для ИТ-инфраструктуры, а также связанных с ней приложений и сервисов.
Проактивность	Уделяет особое внимание практикам, которые минимизируют риск в равной степени, поскольку фокусируется на планах реагирования.	В основном фокусируется на ответных действиях, необходимых для восстановления ИТ-операций в случае непредвиденного события.

Как сочетаются непрерывность бизнеса и восстановление после сбоев

Некоторые компании предпочитают планировать BC и DR изолированно, другие же сосредотачиваются на чём-то одном. Оба подхода не идеальны.

Непрерывность бизнеса и аварийное восстановление работают лучше всего, когда вы разрабатываете оба плана в тандеме и справляетесь с незапланированными событиями с помощью обеих стратегий. DR должно быть подмножеством более широкого плана обеспечения непрерывности бизнеса, который управляет частями «смягчения» и «восстановления» процедуры реагирования.

Комплексный подход гарантирует охват всех направлений бизнеса в случае катастрофы. Непрерывность бизнеса обеспечит доступность бизнес-функций для конечных пользователей, что исключит потерю дохода. Аварийное восстановление позволит команде максимально быстро восстановить нормальную работу ИТ-инфраструктуры.

Совместное использование этих двух практик имеет следующие преимущества:

независимо от того, столкнулась ли организация с незначительным сбоем или полномасштабной катастрофой, у команды есть четкий план действий, чтобы отреагировать наилучшим образом;
что бы ни случилось, вы сводите к минимуму продолжительность простоя;
вашей команде не придется импровизировать ни на одном этапе процесса реагирования на инцидент;
план DR будет лучше соответствовать интересам бизнеса;
комплексный подход выявляет слабые стороны, которые команда, работающая исключительно над одной стратегией, может упустить из виду;
сотрудники получают четкие инструкции о том, как действовать в наихудших сценариях, чтобы снизить уровень стресса в обычных обстоятельствах и уменьшить панику во время инцидентов.

Заключение

Непрерывность бизнеса и аварийное восстановление — две обязательные практики для любой компании, заботящейся о безопасности. Всегда есть риск возникновения неприятных инцидентов, и реагирование на них без надлежащего планирования BC и DR может быть катастрофическим. Инциденты часто парализуют ИТ-системы, мешают сотрудникам работать и останавливают все операции, приносящие доход. Как долго ваш бизнес сможет терпеть такие обстоятельства? Скорее всего, не очень долго, поэтому начните думать о подстраховках до того, как незапланированное событие возможно серьезно повредит вашей прибыли и репутации.