Шесть этапов создания плана аварийного восстановления DRP
В информационных технологиях чрезвычайная ситуация определяется как событие любого типа, которое влияет на сеть, подвергает риску данные, замедляет или останавливает нормальную работу. План аварийного восстановления (DRP) создается для устранения рисков и вероятностей таких событий и минимизации причиняемого ими ущерба.
План аварийного восстановления ИТ (DRP) — это формализованный документ, который организация создает для установления политики и процедуры реагирования на аварийные ситуации. DRP считается важным, поскольку он минимизирует риски, сокращает сбои и обеспечивает экономическую стабильность. Потенциальная экономия может быть значительной, если вы осознаете финансовый риск отсутствия плана на случай непредвиденных обстоятельств.
Аудит ИТ-процессов
В зависимости от типа ИТ-аудита анализируется текущее состояние ИТ-среды на основе соответствующих требований к правильности и безопасности или проводится сравнение первоначальной цели с фактически достигнутой.
Соответствующие требования к правильности и безопасности ИТ-систем вытекают из общих требований национального и международного законодательства, принципов и мнений, основанных на них, отраслевых и надзорных правил, а также соответствующих стандартов для проектирования ИТ-процессов и ландшафтов ИТ-систем.
Анализ рисков
Анализ рисков, или оценка рисков— это оценка всех потенциальных рисков и последствий, с которыми может столкнуться компания. Риски могут сильно различаться в зависимости от отрасли и географического положения компании. Оценка должна выявить потенциальные опасности, чтобы определить, кому или чему эти опасности могут причинить вред, и использовать результаты для разработки процедур, направленных на устранение этих рисков.
Определение критически важных приложений для активов и серверов, а также их ценности для компании — важный этап в создании плана. Выясните уязвимые места, нуждающиеся в защите, и ознакомьтесь с особенностями развертывания этой защиты. Проанализируйте угрозы, которым подвержены данные активы, и определитесь с действиями, необходимыми при возникновении каждой угрозы.
Если компания обслуживает клиентов, нужно проанализировать, какую часть из них затронет авария в вашей системе. Кроме того, нужно рассмотреть финансовые потери потенциальной опасности. Наилучшим показателем станут потери бизнеса за минуту времени, когда бизнес остановится по причине возникновения аварии на сервере или в приложении.
Разработка DRaaS-решения
DRaaS (аварийное восстановление как услуга) обеспечивает быстрое восстановление инфраструктуры и всех данных при отказе локального ЦОД. В технологическом аспекте это достигается за счет дублирования данных с серверов компании на серверы облачного провайдера. В большинстве случаев данная услуга предоставляется по подписке на основании плана аварийного восстановления, в который внесены персональные настройки.
Каждый хороший план восстановления сопровождается ключевыми цифрами, которые можно использовать для проверки его эффективности. Две самые важные метрики, которые вам нужно знать, — это целевое время восстановления (RTO) и целевая точка восстановления (RPO).
Одной из двух наиболее важных метрик плана восстановления является RPO. Она фокусируется на устойчивости компании к потерям своих данных. Это означает, что вы пытаетесь выяснить, как долго ваш бизнес может обходиться без этих данных, не неся при этом экономического ущерба. RPO определяется временем между резервными копиями и объемом данных, которые создаются между резервными копиями и могут быть потеряны.
Второй ключевой показатель в плане восстановления — RTO. Он описывает целевое время, когда должно быть завершено восстановление данных после аварии. Ваша цель — рассчитать, как быстро система будет снова работать. Это определяет максимально возможный объем потери данных.
Значения RPO и RTO определяются каждой компанией индивидуально. Например, для одной компании отсутствие доступа к электронной почте на несколько часов (RTO) не повлечет за собой серьезных убытков, а вот падение сайта ее интернет-магазина даже на полчаса (RPO) обойдется дорого.
CNews, ВТБ и «Сколково» объявили победителей премии Data Fusion Awards
Минимальные значения RTO и RPO имеют банковские организации, для которых даже 5 минут простоя системы означают нанесение прямого финансового ущерба.
Внедрение
Решение DRaaS внедряется достаточно просто. Для этого не нужно нанимать квалифицированный персонал. Эту услугу готовы предоставить облачные провайдеры. Их сотрудники владеют достаточным опытом внедрения подобных решений, поэтому исключается возможность влияния человеческого фактора при обслуживании системы и работы серверов в момент аварии.
Тестирование
Для подтверждения работоспособности и надежности выбранной стратегии аварийного восстановления она должна пройти многоуровневое тестирование. В частности, должны быть рассмотрены следующие задачи:
- проверка работоспособности и эффективности созданного плана DRP;
- анализ и сохранение шагов восстановления;
- проверка путем симуляции аварийной ситуации с фиксацией показателей, когда система снова будет работать и вы сможете оперировать восстановленными данными;
- регулярное обновление плана DRP, особенно в условиях масштабирования бизнеса;
- обновление и тестирование плана аварийного восстановления DRP при обновлении ИТ-инфраструктуры.
Запуск в эксплуатацию
Использование плана аварийного восстановления DRP позволит вам получить систему, которая работает должным образом не только сегодня, но и при изменении потребностей в бизнесе и технологиях.
5 команд на 1 продукт: как X5 выстроила рабочие процессы от визуализации и прозрачных взаимосвязей до работы с блокерами, WIP-лимитов и аналитики
Бизнес-коммуникацииПо этой причине тренд на предоставление услуг внедрения DRaaS с каждым годом поддерживает все больше провайдеров.
Выводы
Создание плана аварийного восстановления жизненно важно для любого бизнеса, использующего информационные технологии. Успешное планирование означает поиск решений аварийного восстановления, отвечающих вашим уникальным ИТ-потребностям. При этом выбранные решения должны быть удобными в управлении и тестировании.
Полный текст статьи читайте на CNews