Метрики качества динамических плейбуков
При создании динамических планов реагирования должны быть сформулированы и учитываться критерии, которые будут подтверждать качество разработанного алгоритма действий для решения конкретного типа инцидента информационной безопасности.
Критерии формулируются на основе основных параметров инцидента, которые должны быть учтены в работе над его расследованием, реагированием и постинцидентной активности. При этом важно учитывать тот факт, что работа над инцидентом — гораздо шире, чем стандартный анализ и реакт на скоррелированные события ИБ. Работа над инцидентом — это:
то, что происходит до: подготовка инфраструктуры (определение, настройка логов безопасности), поиск слабостей (уязвимостей и несоответствия требованиям безопасности или compliance);
в процессе расследования и реагирования на инцидент;
активность постинцидента в виде работы над ошибками, усиление инфраструктуры, актуализация правил корреляции.
Исходя из определенной выше области управления инцидентами, мы можем выделить следующие базовые метрики качества планов реагирования.
Покрытие по объектам
Эта метрика предполагает, что по всем объектам, которые были задействованы или поражены в инциденте, проведена аналитика, результатом которой определяется репутация объекта по шкале: вредоносный, подозрительный, безопасный. Также эта метрика предполагает, что по окончании анализа для всех объектов, классифицированных как подозрительный или вредоносный, проведены сдерживающие или компенсационные меры, чтобы не допустить дальнейшего распространения вредоносной активности.
При этом, в зависимости от вредоносности репутации, для объекта определяются более строгие или менее строгие меры реагирования по так называемой тепловой карте: чем опаснее репутация, тем строже действия, включаемые в план расследования инцидента с этим объектом.
Покрытие по этапам расследования
Данная метрика проверяет наличие и прохождение всех этапов работы над инцидентом после динамической генерации плейбука. Все планы реагирования должны включать в себя стандартные этапы:
Обогащение. На данном этапе выполняется обогащение и аналитика, помогающие выполнить обнаружение всех задействованных объектов, идентификацию атакующего объекта, а также формирование для каждого объекта репутации: вредоносный, подозрительный, безопасный.
Сдерживание. Данный этап предполагает выполнение экстренных действий для наиболее опасных объектов (репутация = вредоносный) таких как завершение вредоносных процессов для недопущения дальнейшего распространения атаки с участием доступных средств СЗИ инфраструктуры организации.
Расследование. Этап включает в себя дополнительную аналитику, сбор цифровых свидетельств и артефактов для подтверждения гипотез по объектам с репутацией = подозрительный, а так же формирование дополнительных выводов (возможно, с расширением поверхности атаки или изменением ее типа), которые могли быть неочевидны на первых этапах работы над инцидентом. В задачи данного этапа входит: определение полного покрытия инцидента, проверку на сторонних аналитических сервисах репутации объектов (например, проверить, что хэш фала — это безопасный дистрибутив браузера, который не стоит блокировать; или обнаружить сработку sigma-правила, что будет говорить о вредоносной репутации сработавшего процесса).
Устранение. Данный этап включает в себя противодействие атакующему и выполнение действий по реагированию, релевантных данному объекту, ограниченных идентифицированной техникой атаки. Это означает, что над каждым объектом можно совершить множество действий, но в рамках отдельно взятой техники атаки эффективным и не избыточным будет только ограниченный набор операций. Например, в случае внешнего сканирования и техники Active Scanning, T1595 (фреймворка MITRE ATT&CK®), хост источник необходимо поместить в черный список на межсетевом экране; в случае же внутреннего сканирования и техники Network Service Discovery, T1046 хост источник может быть вполне легитимным устройством системных администраторов, которые выполняют инвентаризацию в рамках заданных окон сканирования, поэтому в этом случае реагирование может прервать процесс сканирования при отсутствии актуальных задач на инвентаризацию в ITSM системе.
Восстановление. Предполагает набор действий над объектами инцидента, нацеленных на восстановление их работоспособности, в случае если она была нарушена в процессе атаки или на этапе сдерживания, когда из соображений безопасности принимаются строгие меры, такие как изоляция устройства, блокировка уз и другие.
Постинцидент. Данный этап важен для выполнения работы над ошибками с точки зрения недопущения подобных инцидентов информационной безопасности в будущем. Действия, выполняемые на этом этапе, так же подбираются из множества действий типа = постинцидент для множества объектов, которые были идентифицированы как покрытие инцидента. Другими словами, если в объектах инцидента присутствует уязвимость, создается задача с повышенной критичностью на устранение уязвимости в случае, когда присутствует факт подтверждения ее эксплуатации.
Успешность выполнения действий
Данная метрика отслеживает успех/неуспех выполнения действия из собранного динамического плана реагирования непосредственно на конечном СЗИ или устройстве, исходя из субьекта/обьекта операции.
Использование системы ранжирования действий
Система ранжирования предполагает использование метода статистического моделирования в построении динамических плейбуков: действия выбираются из репозитория действий над объектом исходя из плотности вероятности. Другими словами, выбираются действия, которые наиболее часто использовались пользователями на данном этапе расследования инцидента для данной техники атаки. Так система может сформировать набор экспертизы, релевантный конкретному департаменту ИБ в конкретной организации. Даже если команда поменяется или понизится уровень компетенции сотрудников, качество расследования просядет не столь значительно, потому что система будет помнить и предлагать экспертизу действий по лучшим практикам, применяемым ранее в компании, которые система запомнила на этапе обучения.
При этом подкреплением обучения могут служить:
отсутствие отмены действий после выполнения в пределах одного инцидента;
успешно закрытий инцидент, провалидированный руководителем группы.
Принципы выбора действий для построения динамических плейбуков с использованием статистического моделирования:
ранжирование по частоте применения действия в конкретном типе инцидента на конкретном этапе расследования;
сортировка по времени поможет решить задачу внедрения новых практик: стали применять более часто новые подходы к расследованию и реагированию;
анализ частоты выполнения: какие-то действия применяются всегда при выполнении аналитики;
анализ цепочек: некоторые действия всегда следуют друг за другом и имеет смысл их предлагать в виде объединенной цепочки;
чем более редко встречающаяся техника атаки у инцидента, тем большее количество действий включать в динамический плейбук в силу недостаточного количества информации по данному случаю;
анализ уникальных действий для конкретных типов атак и конкретных объектов.
Все эти метрики позволяют нам добиться необходимого уровня качества автоматически генерируемого контента системы и проверки системой самой себя на предмет эффективного функционирования без избыточных процедур и действий.