Функциональная безопасность, часть 6 из 6. Оценивание показателей функциональной безопасности и надежности
Источник
Продолжая серию публикаций по функциональной безопасности, в сегодняшней статье мы рассмотрим, как количественно оценивается функциональная безопасность на основе статистических данных о случайных отказах аппаратных средств. Для этого используется математический аппарат теории надежности, которая, как известно, является одним из приложений теории вероятностей. Поэтому, мы будем периодически обращаться к положениям, известным из теории надежности.
Мы рассмотрим следующие вопросы:
— связь атрибутов надежности, информационной и функциональной безопасности;
— переход от анализа рисков к измерению показателей функциональной безопасности;
— примеры расчета показателей надежности и функциональной безопасности.
Атрибуты надежности, информационной и функциональной безопасности
Для того, чтобы лучше понять, какие именно свойства мы будем оценивать, рассмотрим структуру и взаимосвязь атрибутов надежности, ИБ и ФБ.
Начнем с определения надежности. Надежность — это свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования. Это можно продемонстрировать в виде простой схемы. Для системы задается срок службы, и предельные значения параметров. Пока параметры находятся в заданных пределах, система работоспособна и наоборот, если параметры вышли за значения пределов, то произошел отказ
(Рисунок 1).
Рисунок 1. Графическая интерпретация определения надежности
Про соотношение свойств dependability и reliability следует сказать отдельно, поскольку в области стандартизации этого свойства западная и советская наука в свое время пошли несколько различными путями. Корректный перевод термина надежность — это dependability, поскольку и надежность, и dependability рассматриваются, как комплексные свойства. Reliability — это правильный перевод для термина безотказность, которая является важной, но все же только одной из составляющих надежности. Безотказностью называется свойство объекта непрерывно сохранять работоспособное состояние в течение некоторого времени или наработки, т.е. безотказность можно обобщать с надежностью только для необслуживаемых систем.
Кроме безотказности, составными свойствами надежности являются ремонтопригодность (Maintainability), долговечность (Durability) и сохраняемость (Storability). Готовность (availability) является комбинацией безотказности и ремонтопригодности.
Все эти положения были изложены в одном из самых лучших по стройности изложения стандартов, которые я когда-либо держал в руках, ГОСТ 27.002–89. «Надежность в технике. Основные понятия. Термины и определения». К сожалению, «неселективная» адаптация западных стандартов в качестве ГОСТ Р привела к тому, что наработки советской школы надежности ныне позабыты (по крайней мере, в области формальной стандартизации). В 2009 году был выпущен стандарт ГОСТ Р 27.002–2009 (первоначальный номер у него почему-то был ГОСТ Р 53480–2009, затем историческая справедливость восторжествовала), представляющий собой копи-паст также достаточно древнего словаря Международной электротехнической комиссии, IEC 60050–191:1990. Прогресс не всегда происходит поступательно, и о качестве изложения вы можете судить сами, сравнив изложение основных терминов (Рисунок 2). В Украине ныне действует ДСТУ 2860–94, соответствующий ГОСТ 27.002–89.
Рисунок 2. Сравнительный анализ атрибутов надежности согласно версий ГОСТ 27.002
от 1989 г. и 2009 г.
Подчеркнем, что мы рассматриваем именно случайные отказы аппаратных средств, к которым может быть применен математический аппарат теории вероятностей. Теория надежности дает практичную картину мира, в которой можно строить надежные системы из не вполне надежных компонентов (как правило, методами резервирования и диагностирования). По-другому обстоит дело с систематическими отказами, которые, очевидно, не могут быть описаны в рамках теории надежности. Именно такие отказы составляют наибольшую проблему, поскольку они непредсказуемы. В 1980–90-е годы были попытки применить вероятностные модели для оценивания надежности программного обеспечения, ошибок оператора, а затем и показателей ИБ. До настоящего момента этот путь не дал практически применимых результатов.
Еще одним подходом к анализу атрибутов надежности являемся так называемый RAMS подход, который расшифровывается, как Reliability (безотказность), Availability (готовность), Maintainability (ремонтопригодность), and Safety (безопасность). Иногда к этой четверке атрибутов добавляется еще и Integrity, интегрированность или полнота, ибо именно так это слово переводится в русскоязычной версии МЭК 61508. Наиболее простыми определениями для этих свойств являются:
— Готовность — это пригодность к правильной эксплуатации;
— Безотказность — это непрерывность правильного обслуживания;
— Ремонтопригодность — это способность подвергаться модификациям и ремонту.
— Безопасность — это отсутствие катастрофических последствий для пользователя и окружающей среды;
— Интегрированность — это отсутствие ненадлежащих системных изменений.
Security (ИБ) представляет собой совокупность атрибутов конфиденциальности, интегрированности и готовности (так называемая триада CIA). Готовность или доступность рассматривается для авторизованных действий по доступу к информации, а интегрированность рассматривается для корректной работы с данными, исключающей их неавторизованное изменение. Конфиденциальность является дополнительным, по сравнению с надежностью, атрибутом, который означает отсутствие несанкционированного раскрытия информации. Таким образом, простейшая модель, описывающая dependability (т.е. надежность) и security (т.е. информационную безопасность) представлена всего шестью атрибутами (Рисунок 3).
Рисунок 3. Атрибуты RAMS & CIA
Теперь сделаем еще одну итерацию и попробуем представить все известные нам атрибуты в виде одной диаграммы (Рисунок 4).
Рисунок 4. Обобщенная таксономия атрибутов надежности, информационной и функциональной безопасности
Обычными линиями отмечены атрибуты и связи, соответствующие только что рассмотренной модели из шести атрибутов. Пунктиром добавлены дополнительные атрибуты. Одна из групп атрибутов относится к составляющим надежности (dependability). ФБ (Safety), согласно МЭК 61508, включает safety functions & integrity, причем, через функции безопасности ФБ связана с безотказностью, готовностью и надежностью, а интегрированность выполнения функций обеспечивает целый ряд свойств, в том числе, ИБ. Таким образом, между атрибутами надежности, ИБ и ФБ существуют взаимное влияние и определенные связи, которые мы будем учитывать при количественном оценивании.
Анализ рисков и показатели функциональной безопасности
Теперь обратимся к показателям безопасности. Базовым понятием и показателем ФБ является риск, представляющий собой комбинацию вероятности нежелательного события и его последствий.
Оценивание рисков бывает количественным и качественным, при качественном оперируют такими категориями, как «высокий», «средний», «низкий» и т.д.
Если нежелательное событие и ущерб от него зафиксированы, то риск становится численно равен вероятности P (t) возникновения фиксированного ущерба. Например, риск аварии атомной электростанции с выбросом радиоактивных веществ в атмосферу на сегодняшний день устанавливается не более, чем 10–7 1/год.
Широкое распространение для оценивания и управления рисками получил так называемый принцип ALARA (ALARP) (as low as reasonably applicable/practicable) — подход к управлению риском, который подразумевает его максимально возможное снижение, достигаемое за счет реально имеющихся (ограниченных) ресурсов (Рисунок 5).
Рисунок 5. Снижения риска на основе метода ALARP (as low as reasonably practicable), IEC 61508–5
Удобной моделью является граф рисков (Рисунок 6). Пример взят из стандарта по безопасности промышленного оборудования (EN ISO 13849–1 Safety of machinery — Safety-related parts of control systems — Part 1: General principles for design). Кроме вероятности и последствий событий учтена еще возможность избегания опасностей и ущерба. Эти три категории имеют высокое и низкое значение, в итоге получаем шесть комбинаций, каждая из которых соответствует тому или иному Performance Level (PL), от, а до е, который является аналогом Safety Integrity Level (SIL).
Рисунок 6. Граф рисков, EN ISO 13849–1
Таков качественный подход к оцениванию рисков, теперь рассмотрим, как в МЭК 61508 нормируются количественные значения показателей безопасности. Если рассматривать системы управления, то событиями, связанными с риском, являются отказы функций безопасности, поэтому логично, что в качестве показателей безопасности выбраны вероятности отказов для функций безопасности.
Вернемся к базовым понятиям теории надежности. Теория надежности является прикладной областью теории вероятностей, где в качестве случайной величины рассматривается время до отказа системы.
Одним из важнейших показателей является вероятность безотказной работы, под которой понимается вероятность того, что отказ не произойдет за установленное время MTTF, называемое наработкой до отказа: P (t) = P{MTTF > t}. Как и любая вероятность, вероятность безотказной работы принимает значения от 1 до 0, причем единице она равна в начальный момент времени, а нулю равна при времени стремящемся к бесконечности.
Вероятностью отказа называется вероятность того, что отказ произойдет за установленное время T, т.е. вероятность отказа дополняет вероятность безотказной работы до единицы (отказ либо произойдет, либо нет, т.е. имеем полную группу событий): F (t) = 1 — P (t).
Интенсивность отказов — условная плотность распределения (т.е. производная по времени) наработки до отказа при условии, что отказ не произошел, имеет размерность 1/час:
(t) = f (t)/P (t) = — [1/P (t)] • [dP (t)/dt] = — [1/(1 — F (t)] • [dF (t /dt]. При статистической оценке интенсивность отказов определяется как отношение количества отказавших однотипных изделий к продолжительности интервала времени, на котором эти отказы наблюдались (например, если за 1000 часов отказало 10 изделий, то = 10/1000 = 0,01 1/час).
Важным допущением теории надежности является применение так называемого экспоненциального распределения времени до отказа, когда интенсивность отказов считается постоянной во времени.
Наработка до отказа MTTF вычисляется как определенный интеграл в пределах от нуля до бесконечности для вероятности безотказной работы по времени:
Иногда MTTF трактуется как среднее или гарантированное время работы системы, но это не так, поскольку вероятность безотказной работы в момент времени MTTF равняется 1/е, что приблизительно равно 0,37. Это значит, что для единичного устройства вероятность того, что устройство останется в работоспособным по истечению MTTF составляет всего лишь 0,37. Для группы однотипных устройств это означает, что только 37% из них останется работоспособным по истечению MTTF.
Коэффициент готовности (availability) — это вероятность того, что объект окажется в работоспособном состоянии в произвольный момент времени, кроме планируемых периодов, в течение которых применение объекта по назначению не предусматривается. Рассчитывается коэффициент готовности, как отношения наработки до отказа к сумме наработки до отказа (MTTF) и среднего времени восстановления после отказа (MTTR):
A = MTTF / (MTTF + MTTR).
Для понимания соотношения между надежностью и безопасностью обратимся к классификации отказов, рассмотренной в МЭК 61508 (Рисунок 7). Отказы могут быть опасные и безопасные, а также диагностируемые и недиагностируемые. В рамках надежности рассматриваются все виды отказов. С точки зрения безопасности нас интересуют только опасные отказы, причем важно, чтобы такие отказы были диагностируемые, и при их обнаружении система могла перейти в безопасное состояние.
Рисунок 7. Классификация отказов и показатели безопасности согласно IEC 61508
МЭК 61508 говорит о следующих показателях безопасности.
Во-первых, это так называемая устойчивость к аппаратным отказам (Hardware Fault Tolerance, HFT). Это очень простой показатель, который говорит о том, сколько может произойти аппаратных отказов в системе до выхода ее из строя. По сути, это эквивалентно количеству дополнительных резервных каналов. Т.е., если система нерезервированная, то любой отказ выводит ее из строя, HFT = 0. Если в система два резервных канала, то один из них является дополнительным, избыточным. После единичного отказа система останется работоспособное, т.е. HFT = 1, и т.д.
Во-вторых, должна быть определена доля безопасных отказов (Safe Failure Fraction, SFF). В терминах МЭК 61508 это отношение интенсивности безопасных и опасных диагностируемых отказов к суммарной интенсивности отказов (см. Рисунок 7). Получается, что в терминах МЭК 61508 учитываются, в первую очередь опасные недиагностируемые отказы, а опасные диагностируемые отказы в доле безопасных отказов относятся к безопасным.
Соответственно, может быть определена доля опасных отказов (Dangerous Failure Fraction, DFF), дополняющая долю безопасных отказов до единицы и рассчитываемая, как отношение интенсивности опасных недиагностируемых отказов к суммарной интенсивности отказов (см. Рисунок 7).
Диагностическое покрытие (Diagnostic Coverage, DCD) в МЭК 61508 определяется только исходя из интенсивности опасных отказов, это отношение интенсивности опасных диагностируемых отказов к интенсивности опасных отказов (см. Рисунок 7).
В технической диагностике более привычным является подход, когда диагностическое покрытие (DC) определяется, как отношение интенсивности диагностируемых отказов к суммарной интенсивности отказов (см. Рисунок 7). Однако, МЭК 61508 декларирует диагностическое покрытие, исходя из доли уменьшения вероятности опасных отказов за счет встроенного диагностирования.
Исходя из полученного значения доли безопасных отказов (Safe Failure Fraction) может быть определен максимально достижимый уровень полноты безопасности SIL, в зависимости от резервированной либо нерезервированной конфигурации (Рисунок 8).
Рисунок 8. Максимально достижимый уровень SIL, исходя из показателей Safe Failure Fraction (SFF) и Hardware Fault Tolerance (HFT), IEC 61508–2
Например, для доли безопасных отказов 90%-99% для нерезервированной конфигурации (HFT=0) может быть достигнут максимальный уровень полноты безопасности SIL2. В дублированной системе (HFT=1) может быть достигнут SIL3, а в троированной — SIL4 (HFT=2). Обычно такой подход применяют разработчики ПЛК и другого оборудования для управляющих систем безопасности. Стойкость к случайным отказам аппаратных средств соответствует уровню SIL2 для нерезервированной конфигурации и уровню SIL3 для дублированной конфигурации. Однако, следует помнить, что при этом стойкость к систематическим отказам, обусловленная реализацией процессов жизненного цикла также должна соответствовать уровню SIL3.
Еще одной градацией, установленной в МЭК 61508, является разделение оборудования на типы А и В (Type A & Type B). К типу А относятся наиболее простые, преимущественно механические и электрические компоненты. Все программируемые электронные компоненты относятся к типу В.
Кроме рассмотренных требований, существуют еще требования к численным значениям показателей безопасности.
Из базовых определений МЭК 61508 вспомним, что существует три режима работы оборудования: с низкой частотой запросов (low demand mode), в котором частота запросов на выполнение функции безопасности не превышает одного в год, с высокой частотой запросов (high demand mode), в котором частота запросов на выполнение функции безопасности превышает один в год, и непрерывный режим (continuous mode). Оказывается, что МЭК 61508 рекомендует различные показатели надежности для этих режимов.
Для систем, работающих с низкой частотой запросов, в качестве целевого показателя должна быть определена средняя вероятность опасного отказа выполнения функции безопасности по запросу (Рисунок 9). Для уровня полноты безопасности SIL1 этот показатель не должен превышать 0,1. С повышением SIL каждый раз вероятность опасного отказа должна уменьшаться в 10 раз. Таким образом, для уровня полноты безопасности SIL4 вероятность опасного отказа должна составлять от 10–5 до 10–4.
Если провести параллель с уже рассмотренными нами показателями, то этот показатель эквивалентен коэффициенту неготовности, т.е. дополнению коэффициента готовности до единицы. Однако, следует помнить, что речь идет здесь идет не обо всех отказах, а только об опасных недиагностируемых.
Рисунок 9. Зависимость уровня SIL от значения средней вероятности опасного отказа выполнения функции безопасности по запросу (режим с низкой частотой запросов), IEC 61508–1
Для систем, работающих с высокой частотой запросов или в непрерывном режиме, определяется средняя частота (или интенсивность) опасных отказов функции безопасности (Рисунок 10). Для уровня полноты безопасности SIL1 этот показатель не должен превышать 10–5 1/час, что эквивалентно одному отказу в 11,4 лет. С повышением SIL каждый раз интенсивность опасного отказа должна уменьшаться в 10 раз. Для уровня полноты безопасности SIL4 интенсивность опасного отказа должна составлять от 10–9 до 10–8 1/час, т.е., не чаще, чем один отказ в 11 400 лет. Конечно, для единичной системы это звучит несколько абсурдно, но, если учесть, что в мире эксплуатируются тысячи однотипных систем, то даже с такой низкой интенсивностью отказов опасные отказы являются вполне вероятными, что мы наблюдаем в действительности.
Данный показатель эквивалентен интенсивности опасных недиагностируемых отказов.
Рисунок 10. Зависимость уровня SIL от значения средней интенсивности опасных отказов функции безопасности (режим с высокой частотой запросов и непрерывный режим), IEC 61508–1
Все задачи расчета показателей безопасности связываются воедино в рамках методологии анализа видов, последствий и критичности отказов (Failure Mode, Effect and Criticality Analysis, FMECA). Основные положения данной методики изложены в стандарте IEC 60812:2006 Analysis techniques for system reliability — Procedure for failure mode and effects analysis (FMEA). В Российской Федерации принят ГОСТ Р 51901.12–2007 «Менеджмент риска. Метод анализа видов и последствий отказов», являющийся адаптацией МЭК 60812.
Исходные данные для FMECA могут быть получены в результате применения таких методов, как структурные схемы надежности, анализ дерева отказов и марковский анализ.
Примеры расчета показателей функциональной безопасности и надежности
Теперь рассмотрим несколько примеров по определению показателей безопасности, я их несколько адаптировал на основе примеров, приведенных в «Справочнике инженера по АСУ ТП» Ю.Н. Федорова.
Пусть необходимо рассчитать безопасность простой системы управления технологическим процессом. У нас есть некий резервуар (например, бойлер) с датчиком давления, в который подается по трубе некоторая жидкость (Рисунок 11). При превышении заданного уровня давления должен сработать отсечной клапан и перекрыть подачу жидкости в резервуар. Для обработки сигнала от датчика и выдачи сигнала срабатывания на клапан применяется программируемый логический контроллер (ПЛК). Для конкретики зададим вероятности отказов, пусть для датчика и клапана мы имеем вероятность отказа 10–3. Чтобы было удобней исследовать подходы к резервированию полевого оборудования, вынесем ПЛК за «скобки», т.е. мы будем считать, что ПЛК абсолютно надежный и его влияние мы учитывать не будем.
По поводу отказов оборудования следует отметить, что они могут быть двух типов, во-первых, опасный отказ, то есть несрабатывание тогда, когда оборудование должно сработать и, во-вторых, ложный отказ, то есть срабатывание тогда, когда оборудование не должно сработать. Для обоих видов отказа имеем одинаковую вероятность.
Теперь скажем пару слов об одном из пробелов в МЭК 61508. Оказывается, что МЭК 61508 не выдвигает никаких требований к надежности и готовности систем управления, он содержит требования только к безопасности. Казалось бы, что это одно и то же, чем надежней система, тем она безопасней. Однако это не совсем так, абсолютно безопасной является та система, которая постоянно находится в безопасном состоянии, то есть не функционирует. Инженерные задачи по разработке систем безопасности включают в себя оптимизацию показателей безопасности (вероятности опасного отказа) и готовности (вероятности ложного срабатывания). На нашем примере мы рассмотрим простейшие архитектуры систем управления с точки зрения вероятностей опасных отказов и ложных срабатываний.
Рисунок 11. Пример 1: Нерезервированная система
Определите вероятность опасного отказа и вероятность ложного срабатывания (ответ под спойлером)
Теперь определим вероятности для различных видов резервирования. Сначала введем резервирование для датчика (Рисунок 12). Будем считать, что резервированные компоненты идентичны, то есть, вероятности их отказа равны. Попробуйте определить, каковы вероятности опасного отказа и ложного срабатывания для этого случая?
Рисунок 12. Пример 2: Резервирование датчиков
Определите вероятность опасного отказа и вероятность ложного срабатывания (ответ под спойлером)
Теперь давайте рассмотрим, что получится, если резервируется не датчик, а клапан (Рисунок 13)? Чему равны вероятности?
Рисунок 13. Пример 3: Резервирование клапанов
Определите вероятность опасного отказа и вероятность ложного срабатывания (ответ под спойлером)
3•10–3.
Теперь рассмотрим схему, где резервируются и датчики, и клапаны. Будем считать, что по данным каждого из датчиков формируется сигнал управления на каждый из клапанов (Рисунок 14). Что получаем?
Рисунок 14. Пример 4: Резервирование датчиков и клапанов (1-й способ)
Определите вероятность опасного отказа и вероятность ложного срабатывания (ответ под спойлером)
2•10–6, т.е. мы снизили вероятность опасных отказов в 1000 раз по сравнению с исходной нерезервированной системой. А вот ложное срабатывание произойдет при срабатывании любого из компонентов системы, т.е. все вероятности отказов складываются, и мы получаем 4•10–3. Т.е. как ни парадоксально звучит, но в системе безопасности резервирование снизило готовность системы в два раза по сравнению с исходной системой.
Для отсечного клапана возможен еще один вид резервирования, когда они устанавливаются параллельно, и тогда подача продукта в резервуар прекращается в том случае, когда сработали оба клапана (Рисунок 15). Как в этом случае определить вероятности опасного отказа и ложного срабатывания?
Рисунок 15. Пример 5: Резервирование датчиков и клапанов (2-й способ)
Определите вероятность опасного отказа и вероятность ложного срабатывания (ответ под спойлером)
Таким образом, в системах безопасности необходимо анализировать не только показатели безопасности, но и показатели надежности и осуществлять выбор структур с учетом всего множества доступной информации. Иначе система будет безопасной, но ее эксплуатация может быть экономически нецелесообразной.
Выводы
Сегодня мы рассмотрели, каким образом осуществляется количественное оценивание показателей ФБ.
Атрибуты функциональной безопасности, которые в себя включают функции безопасности и полноту безопасности, являются частью более обширной системы атрибутов, в которую входят также информационная безопасность и надежность.
Показатели функциональной безопасности также связаны с показателями информационной безопасности и надежности. При разработке систем безопасности необходимо проводить всесторонний анализ измеримых показателей и выявлять возможные противоречия между свойствами там, где требуется провести оптимизацию и найти компромисс.
При оценивании и обеспечении информационной безопасности вероятностные показатели могут быть использованы, в первую очередь, для анализа доступности (готовности) тех или иных физических устройств.
Риск является универсальным показателем функциональной безопасности. В зависимости от типа системы, риск может быть трансформирован в целевые значение коэффициента готовности и интенсивности отказов, которая варьируются в зависимости от уровня полноты безопасности SIL.
Анализ видов, последствий и критичности отказов (FMECA) является наиболее эффективным подходом для количественной и качественной оценки безопасности.
P.S. Для объяснения основных аспектов функциональной безопасности разрабатывается следующий цикл статей:
— Введение в тематику функциональной безопасности;
— Стандарт МЭК 61508: терминология;
— Стандарт МЭК 61508: структура требований;
— Взаимосвязь между информационной и функциональной безопасностью АСУ ТП;
— Процессы управления и оценивания функциональной безопасности;
— Жизненный цикл информационной и функциональной безопасности;
— Теория надежности и функциональная безопасность: основные термины и показатели;
— Методы обеспечения функциональной безопасности.
Здесь можно посмотреть видеолекции по теме публикации