Метрики: их очарование и коварство

fc8fefcab4bc56b94f0890370f3b2f11.jpg

Максим Лунев

Аналитик отдела аналитики производственного департамента Security Vision

Они окружили нас

Метрики прочно вошли в нашу жизнь. Финансы и спорт, бизнес и социальные сети — практически невозможно найти область, где те или иные количественные характеристики не решали бы много, если не все. Метрики рушат карьеры и возносят на пьедестал, вгоняют в депрессию и сулят золотые горы, могут стать лучшими друзьями или злейшими врагами. Не обошли они стороной и мир информационной безопасности.

 Все больше и больше современных SOC-центров активно внедряют в свою деятельность мониторинг и измерение своей эффективности. Это позволяет быстро выявить и устранить «бутылочные горлышки», оценить качество работы команд по реагированию, определить свои слабые места и составить стратегию развития. И, конечно же, проиллюстрировать свою ценность перед руководством компании, оправдав все вложенные инвестиции.

С чего начать?

В мире статистики недолго заблудиться. Существует большое количество типов метрик и методов их использования, но большую часть потребностей покроют самые распространенные из них:

●        Абсолютные

●        Относительные

●        Средние величины

●        Различные распределения и их параметры

 Здесь необходимо подчеркнуть первое (и главное) правило использования метрик: любой количественный показатель имеет ценность только в контексте. Например, к абсолютным показателям принято относиться скептически. Действительно, общее количество инцидентов в месяц или количество ложноположительных срабатываний сами по себе ничего не скажут. Но общее число незакрытых инцидентов по итогам отчетного периода должно привлекать внимание и требовать дополнительного разбора. Также немаловажную роль играет период измерений: на коротких временных промежутках (например, одна дежурная смена) абсолютные метрики вполне могут точно описывать картину происходящего (общее число инцидентов, количество закрытых инцидентов, количество ложноположительных срабатываний и так далее). На более длинных отрезках разумнее полагаться на относительные значения.

 Относительные метрики имеют репутацию надежных показателей. Отталкиваясь от них, легко выстроить систему целевых показателей и контролировать их выполнение. Например, превышение установленного процента ошибочных вердиктов аналитиков при анализе инцидентов может свидетельствовать о недостаточной квалификации команды и необходимости проведения дополнительных тренингов. Или высокий процент ложноположительных срабатываний сразу укажет на ошибки в настройках конфигурации SOC или на недостаточно надежный внешний источник событий.

 При этом не стоит злоупотреблять стремлением во чтобы то ни стало улучшать тот или иной показатель. Давайте введем второе правило использования метрик: большинство метрик имеет свое оптимальное значение, от которого стоит отталкиваться. Хорошим примером является количество инцидентов, связанных с фишингом. Предположим, в вашем SOC ежемесячно возникало 10 инцидентов, связанных с попытками фишинга, и вдруг этот показатель устремился к 0. Это может свидетельствовать о том, что злоумышленник признал вашу оборону непробиваемой и сдался, но также возможно, что он добился успеха и получил доступ к вашей организации.

Время решает все?

 Время приобрело невероятное значение. Стоит чуть-чуть опоздать, где-то промедлить, и последствия могут быть самыми печальными — как финансовые, так и репутационные. Разумеется, не является исключением и вопрос реагирования на инциденты информационной безопасности. Чем быстрее инцидент обнаруживается, тем быстрее производится реагирование и устранение последствий, тем меньше ущерб для организации.

 Временная шкала существования любого инцидента разбивается на несколько ключевых точек. Время обнаружения угрозы, приоритизации, реагирования и устранения последствий — это только самые популярные метрики, хотя полный разбор их достоин отдельной статьи. Здесь же хотелось бы остановится на том, как обращаться с ними и не попасть в статистические ловушки. 

  Разумеется, все эти временные параметры должны усредняться для наглядной картины происходящего. Необходимо помнить, что есть три вида среднего: среднее арифметическое, медиана и мода. Моду отбросим сразу, это значение, которое чаще всего встречается в выборке, а когда речь идет о показателях с точностью до секунды, его использование не будет в полной мере корректным.

 Среднее арифметическое является самым известным средним (и очень легко рассчитываемым), и многие автоматически используют именно его. В каких-то случаях это оправданно, например, если нужно оценивать скорость взятия инцидента в работу, которая ограничена сверху строгим KPI организации. Но даже в этом случае нужна отдельная метрика, которая будет фиксировать нарушение данного KPI. Например, количество просроченных по взятию в работу инцидентов за неделю (заметьте, тут отлично подходит использование метрики с абсолютным значением).

Однако, использование среднего арифметического сразу исказит картину, если в выборке будет несколько экстремально низких или экстремально высоких значений. Действительно, среднее время обработки инцидента 10 минут может означать, что все инциденты обрабатываются в интервале 8- 12 минут, а может значить, что все инциденты обрабатывались 5 минут, а один был обработан за час. В такой ситуации на помощь приходит медианное среднее. Это значение, которое в выборке располагается в середине (то есть 50% значений лежит ниже медианы, а 50% — выше). Тогда для второго случая из примера выше медианное среднее время обработки инцидента будет равно 5 минутам, а экстремальное значение в час будет отброшено. Ну, а в первом случае медианное среднее будет просто равно среднему арифметическому (10 минут) и достаточно объективно опишет картину происходящего.

 Надо сказать, что в применении к временным значениям цикла инцидента чаще всего применяют именно медианное среднее, но всегда необходимо указывать в отчете, презентации или дашборде, какое именно среднее используется, во избежание путаницы и ошибочных трактовок.

Ошибка среднего и важность «длинных хвостов»

И тут возникает вопрос:, а правомерен ли подход с пренебрежением экстремальными значениями? Известный американский ученый Стивен Гулд получил от врачей шокирующий диагноз с предсказанием прожить еще около 8 месяцев. Углубившись в вопрос, он понял, что речь идет о медианном среднем, которое предсказывает, что 50% больных не доживут до 8 месяце, а 50% проживут дольше. Насколько долго — медиана уже «не знает». Гулд прожил еще 20 лет и написал известную статью «Не верьте медиане», которая стала источником надежды для многих больных.

 Возвращаясь к нашему SOC, рассмотрим угрозу, которую не могли локализовать в течение нескольких часов при среднем медианном времени локализации 10 минут. Очевидно, что такой инцидент требует повышенного внимания, так как потенциальный ущерб от него может быть очень болезненным. Это как раз тот случай, когда среднее значение является обманчивым и упускает из виду ценную информацию. Наилучшим выходом будет установить допустимое отклонение от среднего и дополнительно анализировать случаи, которые выходят за рамки этого ограничения. Либо придерживаться практики анализа 5% самых отклоняющихся от среднего значений. Это и есть те самые «длинные хвосты» (изначально название пошло от формы нормального распределения), которые встречаются редко, но нередко несут самые разрушительные последствия.

 Такой анализ является более сложным и требует определенных усилий и затрат. Полезно будет строить графические представления таких выборок и визуально наблюдать значимые отклонения от привычной нормы.

Сколько же метрик нам понадобится?

Универсального ответа на этот вопрос, к сожалению, нет. Поиск значимых метрик — непростая задача. Качественная метрика должна:

 ●        Отвечать на конкретный вопрос

●        Быть прозрачной и однозначной для целевой аудитории

●        Собираться или вычисляться в автоматизированном режиме

●        Быть удобной для визуализации и отчетности

Разумным подходом будет использовать систему GQM (цель — вопрос — метрика), в которой формулируются цели, задаются нужные вопросы и вырабатываются метрики для количественного описания достижения данных целей. Таким образом, создается прямая связь между количественными показателями и прогрессом в достижении поставленных целей. Также имеет смысл разбивать метрики по целевой аудитории и для каждой из них составить отдельный дашборд или отчет. Соответственно, различные аспекты деятельности SOC будут покрыты своими метриками, четко понятными для тех, кто ими оперирует. На экспертные аналитические дашборды можно вынести побольше данных (но желательно не более 10 метрик), а на презентации для руководства ограничиться 3–4 основными показателями.   

Заключение

Расхожая цитата «Что измеряется, то и управляется», приписываемая Питеру Друкеру, подтверждает значимость метрик в любой области жизнедеятельности. У этой фразы есть забытое ныне продолжение:»…даже когда бессмысленно измерять и управлять, и даже если это вредит целям организации», в котором содержится своего рода предостережение чрезмерным увлечением метриками. Действительно, при правильном подходе и определенном количестве вложенных усилий метрики быстро встанут на вашу сторону и будут приносить ощутимую пользу, но нельзя ими злоупотреблять, а также забывать об их коварстве и тщательно обходить все расставляемые ими ловушки.

© Habrahabr.ru