Опять [Луна] двадцать пять, или о самом толерантном материале на Земле
Главное требование, которое национальная космическая программа будет предъявлять к электронной промышленности в ближайшие десять лет, можно описать одним словом — надежность. Может возникнуть потребность в новых инструментах, новых системах и новых методах, которые еще не определены, но без надежности электронных компонентов и систем невозможно обеспечить успешную космическую программу.
Хью Л. Драйден, заместитель администратора НАСА (врезка «Что нужно НАСА от нашей промышленности?» в журнале Electronics, выпуск от 17 ноября 1961 года, с. 91., — через полгода после полёта Гагарина)
В соответствии с ТЗ, вероятность успешной реализации миссии должна быть не менее 80%.
Пресс-служба НПО им. Лавочкина о миссии «Луна-25» (цитата по заметке ТАСС 13.07.2023)
Чем больше бумаги, тем чище задница.
Народная мудрость, упоминаемая, например, в романе «Аквариум» В. Суворова (Резуна).
Накануне успешного старта индийской ракеты с аппаратом Chandrayaan 3 к Луне, стало известно об очередном утверждении очередной даты запуска отечественного проекта «Луна-25». Пуск назначен на 11 августа (резервный день — 12-е, ох уж этот август!). В телеграм‑каналах не то в шутку, не то всерьёз, вспоминая о том, что двадцать пятая «Луна» — это ребрендинг «Луны‑Глоб», родственника печально известного «Фобос‑Грунта», начали делать ставки на конкретный этап миссии, на котором произойдёт катастрофа. Нынешний руководитель Роскосмоса Юрий Борисов доложил нынешнему руководителю России о том, что «успешность миссий, аналогичных «Луне-25», в мире составляет 70%».
Изображение сгенерировано с помощью Kandinsky 2.2
Неизвестно, как отреагировал Владимир Владимирович на это число (и с какими миссиями сравнивал Юрий Иванович) — во всяком случае, оно выше 50% из анекдота про встречу с динозавром, —, но в пресс‑службе «Лавочки» (НПО им. Лавочкина) уточнили, что вообще‑то вероятность успешной реализации миссии — не менее 80%. Почему? А вот это, как мне кажется, довольно интересно: не менее 80% — потому что таково требование технического задания (ТЗ)!
Уверен, что в мире нет ни одного адекватного человека, желающего провала миссии «Луна-25» — наоборот, в том, что касается ракетных технологий, от России всегда ждали успехов именно космического, а не какого‑либо иного, направления. Не приходится сомневаться в высоком профессионализме создателей «Луны-25», ракет‑носителей «Союз 2.1 б», разгонного блока «Фрегат» и т. д. Но ввиду некоторого опыта разработки отечественной электронной компонентной базы и знаний того, как формулировками ТЗ прикрывают недостатки испытаний, мне показалось подозрительной ссылка на ТЗ, которое писалось ещё под «Глоб» (т. е. в районе 2005 года, почти 20 лет назад). За 20 лет меняли и содержимое миссии, и бортовую ЭВМ (как раз после катастрофы «Фобос‑Грунт»), — при этом надёжность наверняка считали на этапе эскизного проекта (то бишь в самом начале), и поскольку результаты выполнения этапа в итоге были приняты Заказчиком, результат расчёта не мог быть хуже, чем требовалось по ТЗ. После внесения изменений в проект, расчёт наверняка переделывали, но опять же — если этап принят, на бумагах стоят подписи Представителей Заказчика и других уважаемых и уполномоченных людей, то там опять же не может быть чисел хуже, чем в головном ТЗ. Насколько соответствующий всем ГОСТ и утверждённым методикам расчёт соответствует реальности? Остаётся надеяться, что соответствует полностью или даже что реальность превосходит все самые оптимистичные ожидания!… Но давайте посмотрим, как обстоят дела в электронной компонентной базе, и если возникнут какие‑то нехорошие мысли о совпадениях, то последние будут, скорей всего, случайными. Но от этого, как мне кажется, не менее интересными.
В статье в.н.с. ФГУП «МНИИРИП» А. Гербина [1] 2019 года упоминаются исследования «результативности мероприятий федеральной целевой программы «Развитие электронной и радиоэлектронной промышленности», которую провёл Внешэкономбанк. Кому ещё проводить такие оценки, правда? Не техническим же специалистам из отрасли!… Исследования показали, что, во‑первых, технический уровень отечественных разработок ЭКБ — выше среднего. Как специалистам по финансам удалось это установить? На их месте я бы в качестве авторитетного источника использовал данные из официальных документов по приёмке опытно‑конструкторских работ. Например, на каждое изделие составляется карта технического уровня, в которой указывается один из трёх допустимых параметров «уровня качества оцениваемой продукции по сравнению с лучшими мировыми достижениями»: «превышает», «соответствует» и «не соответствует». Нетрудно догадаться, какие параметры встречаются в итоговых бумагах по опытно‑конструкторским работам, а какой параметр — не встречается никогда.
Так вот, а во‑вторых, специалисты Внешэкономбанка установили, что уровень коммерческой привлекательности отечественных разработок на мировом рынке — низкий! «Основной причиной их низкой коммерческой привлекательности является применение морально устаревших действующих стандартов, регламентирующих требования по надежности и методы их контроля, вследствие чего разработчики ЭКБ не могут оценить фактические значения показателей надежности (ПН) изделий ЭКБ на этапе их разработки», — утверждает А. Гербин [1], ссылаясь на собственные исследования и на статью авторов из ВШЭ (в которой, впрочем, таких выводов нет). Автор добавляет, что «ещё одной причиной… является отсутствие объективных методик ускоренной оценки ПН изделий ЭКБ ОП (отечественного производства) на этапе их разработки и производства». т. е. если бы только разрешили оценивать надёжность только по ускоренным испытаниям, причём ещё на этапе разработки, — чего не дают сделать стандарты, «разрабатывавшиеся для обслуживания командной экономики» (sic!), ‑ можно было бы объективно показать, какие на самом деле у нас высоконадёжные компоненты, и не только Россия, но и весь мир расхватал бы их как горячие пирожки. Даже без качественной документации и технической поддержки. Даже с неконкурентными массо‑габаритными характеристиками и энергопотреблением.
ГОСТы для обслуживания комадной экономики
Что же это за вредоносные ГОСТы приняли в 1997 году? Существуют два «парных» стандарта для изделий электронной техники, которые призваны а) сформулировать требования по надёжности, б) определить соответствие данным требованиям. Критиковать эти ГОСТы удобно, поскольку не так много специалистов их читали, ведь они ДСП, так что ознакомиться с ними, по идее, можно только в специальном помещении и выделенных для этой цели рабочих местах. Не в «первом отделе», но и не в опен‑спейсе за чашкой кофе. Номера и полные названия ГОСТов подсмотрите, пожалуйста, в статье [1]. Почему они ДСП — можно только гадать, ведь там нет ничего субъективного и не основанного на математической статистике.
Тот ГОСТ, что устанавливает требования, предприсывает задавать гамма-процентную наработку до отказа ИЛИ интенсивность отказов . Здесь стоит остановиться на пару секунд, чтобы подумать об этом «ИЛИ»: могут ли эти параметры задаваться одновременно, и если могут, то имеет ли это смысл?…
, как и, выбирается из допустимого дискретного ряда. Аналогично выбирается из дискретного ряда и в пределах наработки , численно равной значению, выбираемому для . Чтобы было понятнее, надо посмотреть во втором ГОСТе, как связаны друг с другом эти величины:
Т.е. в ТЗ может быть задано время наработки, в течение которого отказ не возникает с вероятностью . Из этих двух значений вычисляется интенсивность отказов, для подтверждения которой необходимо проводить долговременные испытания не безотказность (ДИ). Так, для подтверждения интенсивности отказов 10–8 1/ч (что соответствует 10 FIT (Failure-in-Time) в документации к зарубежным образцам) потребуется, в зависимости от доверительной вероятности (0,9, 0,6 или 0,1), примерно от 10 миллионов элементо-часов (для P=0,1) до более чем 200 миллионов (для 0,9). И это если в течение испытаний не возникает ни одного отказа. Если один отказ всё же возникает, то испытания продолжают, но для подтверждения уровня интенсивности отказов потребуется уже больше элементо-часов (так происходит до 2 отказов, после чего подтверждение данного уровня безотказности теряет смысл). Судите сами, насколько экономически целесообразно подтверждать высокие показатели для элементов, потребность которых составляет менее 100 штук в год!
Можно ли долговременные испытания заменить расчётом? На этапе разработки изделия расчёт может и должен применяться, но надо иметь в виду, что если расчёт показывает низкие значения показателей, то это точно плохой знак, а если нормальные или высокие — это ещё ни о чём не говорит, кроме того, что при разработке не совершено явных ошибок. И проверять справедливость расчёта нужно нормальными (долговременными) или ускоренными испытаниями. Параметры ускоренных испытаний (критические значения температуры, напряжения питания и др.) устанавливаются для конкретного типа изделий, т.е. группы изделий, которые можно считать конструктивными аналогами. Являются ли системы на кристалле с разной степенью интеграции конструктивными аналогами? Являются ли конструктивными аналогами система на кристалле и кристалл памяти?… Проверить это, в общем, можно только одним способом: провести нормальные (долговременные) испытания.
И что, каждый раз проводить новые долговременные испытания? Нет: их достаточно провести один раз для типа изделий и для установления необходимых режимов для ускорения, нахождения корреляций и т. п., а дальше проводить только кратковременные испытания, служащие, согласно тому же «вредоносному» ГОСТу, для контроля стабильности технологического процесса и в качестве «дополнительного материала» для подтверждения и установления характеристик безотказности.
Чего здесь больше — обслуживания плановой экономики или следствий фундаментальных законов физики и химии, выраженных математически?…
А что пишут в ТЗ?
Рассмотрим несколько примеров, всё ещё доступных на портале Госзакупок.
В одном из ОКР примерно 2014 года читаем:
«Схемотехнические решения и топология кристаллов… должны обеспечивать наработку до отказа Tн микросхем в режимах и условиях эксплуатации, установленных настоящим ТЗ, при температуре окружающей среды (температура эксплуатации) не более плюс (65+5) должна быть не менее 100 000 часов, в облегчённых режимах и условиях — 120 000 часов в пределах срока службы Tсл 25 лет.»
Вам кажется, что эта формулировка не соответствует ГОСТ? Вам не кажется. Наработка до отказа — это характеристика индивидуального прибора, определяемая по факту: сколько конкретный прибор отработал до наступления отказа. Но может быть, имелась в виду всё же предусмотренная ГОСТ гамма-процентная наработка до отказа? Но тогда при какой ?
Рискну предположить, что такие формулировки не были случайными и отнюдь не являлись следствием того, что писавшие их не были знакомы с ГОСТ: скорей всего, непонятная величина вводилась, чтобы её было непонятно как подтверждать. Действительно, а как подтверждать не предусмотренную ГОСТ величину? Об этом в ТЗ говорилось отдельно:
«Соответствие изделий требованиям безотказности на этапе разработки должно быть оценено в соответствии с ОСТ В 11 0998–99 по результатам проведений кратковременных испытаний на безотказность в течение 1000 ч и 3000 ч в предельно допустимом режиме при повышенной рабочей температуре. При этом испытания на 3000 ч необходимо проводить как продолжение испытаний на 1000 ч. Допускается проведение ускоренных кратковременных испытаний микросхемы на безотказность в форсированных режимах. В ходе СЧ ОКР должны быть проведены экспертиза и согласование методик испытаний на безотказность с организацией, определяемой Заказчиком».
В переводе на обычный русский язык это означает, что предприятие, выполняющее СЧ ОКР (составную часть ОКР) должна предложить такую методику ускоренных испытаний в форсированном режиме, чтобы она не вызывала отторжения у Заказчика. Тогда испытания по этой методике будут являться (единственным!) подтверждением соответствия требованиям ТЗ по безотказности изделия! Т.е. ТЗ устанавливало, что Заказчик готов, зажмурившись, принять результаты кратковременных испытаний за результаты долговременных.
Мне кажется это гениальным решением, а вам?…
В 2017 году ситуация немного меняется. В ТЗ этого времени читаем (обратите внимание на лингвистическую сложность всей конструкции и явную «копипасту»):
«Гамма‑процентная наработка до отказа изделий при =99% микросхем в режимах и условиях эксплуатации, установленных настоящими требованиями к техническим характеристикам работ, при температуре окружающей среды (температура эксплуатации) не более 65 должна быть не менее 100 000 часов, в облегчённых режимах и условиях — 120 000 часов, в пределах срока службы Tсл 25 лет. Значения параметров облегчённых режимов должны быть установлены в ходе выполнения ОКР».
Подтверждались эти характеристики так же, как и раньше: кратковременными испытаниями в предельно допустимых режимах, по согласованию с Заказчиком.
Встречались и «гибридные» формулировки:
«Наработка до отказа Tн изделий СБИС в режимах и условиях эксплуатации, установленных настоящими требованиями к техническим характеристикам работ, при температуре окружающей среды (температура эксплуатации) не более плюс (65+5) должна быть не менее 132 000 часов, в облегчённых режимах и условиях — 150 000 часов при средней интенсивности отказов не более 10–8 1/ч в пределах срока службы Tсл 25 лет.»
Тут вам и наработка до отказа (она же гамма‑процентная наработка до отказа? или нет?), и одновременно средняя интенсивность отказов. Почему, кстати, средняя — разве интенсивность отказов у разрабатываемого изделия в разное время разная?… Не говоря уже о том, что 132 000 часов нет среди доступных для выбора величин по ГОСТ. А что тогда такое 132 000 часов? А это округление в большую сторону 15 лет (похоже, високосные годы тоже учитывали).
Отдельно хотелось бы отметить особенности процедуры расчётов. Расчёты проводятся чаще всего по Стандарту предприятия. И результаты легализуются, когда Заказчик подписывает комплект документов, закрывающий этап ОКР. В документацию эти результаты попадают как Справочные данные. Из них порой можно узнать, что разработанный элемент, по расчётам, не будет отказывать в течение более чем 100 лет. Потому что честно посчитали по формулам из теории надёжности и из Стандарта предприятия, в котором в качестве аналогов разрабатываемого изделия выбираются те немногие зарубежные компоненты с известными показателями надёжности. Обычно это высоконадёжные зарубежные компоненты, для которых провели долговременные испытания. На одной из госкомиссий заместитель председателя попросил пересчитать так, чтобы отказ ожидался хотя бы лет через 50 (например, взяв доверительную вероятность побольше) — тогда расчёт мог бы быть верифицирован хотя бы самыми молодыми членами комиссии. Или их детьми. Пожелание комиссии было выполнено.
Как решают эту проблему на Западе?
Jesse Leitner, главный инженер SMA (Safety and Mission Assurance) Центра Космических полётов Годдарда (Goddard Space Flight Center), в докладе «Phasing in COTS EEE parts in NASA» [2] сетует на то, что коммерческие компоненты ставятся на борт только в виде исключения — например, когда отсутствуют необходимые «высоконадёжные» компоненты с требуемой производительностью. Стандарты MIL-SPEC он называет «застывшими во времени» (frozen in time) — согласитесь, на месте американцев было бы странно назвать их обслуживающими плановую экономику. При этом рост доли коммерческих компонентов в космической аппатуре неизбежен, следовательно, необходимо избегать избыточного тестирования в строгом соответствии с MIL-SPEC и сосредоточиться на верификации надёжности в объёме, необходимом и достаточном для реализации миссии.
В методичке за авторством Susan Stanley, Senior Technical Support Engineer, IMC Networks [3], упоминается, что, к примеру, знание средней наработки между отказами (MTBF) необходимо не потребителям, руководствующимся прежде всего ценой компонента, а системным интеграторам. К тому же величины MTBF часто могут быть недоступны, хотя можно было бы ожидать их в составе запроса цены (RFQ, Request For Quote).
Есть богатые фирмы, которые в течение нескольких лет накапливают статистику по отказам, после чего добавляют в datasheets информацию об интенсивности отказов, выраженную в FIT. Часто именно этим (а не требованиями конфиденциальности) объясняется отсутствие сведений об MTBF/MTTF в документации новых компонентов. Долговременные испытания, конечно, приводят к заметному удорожанию, но поскольку производители ориентированы, во-первых, на такую небедную организацию как НАСА, во-вторых, на другие небедные организации по всему миру, то серийность продукции получается достаточно приличной, чтобы и цены удержать в разумных пределах, и производство оставить прибыльным.
Подобно российскому «Межотраслевому Ограничительному Перечню» (МОП), у НАСА есть каталоги MIL-SPEC продукции. Такие компоненты проходят долговременные испытания в режимах, которые могут быть избыточными для применения в конкретных миссиях.
У НАСА также существует список Производителей Компонентов — Индустриальных Лидеров (Industry Leading Parts Manufacturer, ILPM) [2]. Коммерческие продукты компаний из данного списка не требуют дополнительной отбраковки или исследований надёжности и могут быть приняты к использованию в космическом аппарате. Но чтобы «добиться» попадания в этот список, компании самостоятельно проводят исследования 100% соответствия реальных характеристик тем, что указаны в datasheets. Также компании отслеживают стабильность техпроцессов с помощью кратковременных испытаний. Вся испытательная активность ILPM проходит согласно Системе Менджмента Качества (Quality Management System), признанной соответствующей требованиям аэрокосмической отрасли. НАСА не раскрывает свой список, более того, Агентство рекомендует другим организациям напрямую взаимодействовать с производителями и поставщиками компонентов и формировать собственные списки.
Кроме того, для малосерийных компонентов НАСА самостоятельно проводит отбраковку по методикам из EEE-INST-002: Instructions for EEE Parts Selection, Screening, Qualification, and Derating. Но поскольку в этом случае речь идёт только о компонентах из одной партии и нет контроля стабильности техпроцесса, такая отбраковка не распространяется на другие партии. MIL-SPEC тесты для отбраковки также могут оказаться избыточными для конкретных миссий.
Каким космическим аппаратам нужна подтверждённая надёжность?
Очевидно, что подтверждённая долговременная безотказность нужна системе, активно существовующей десятилетие или больше без возможности «гарантийного ремонта» (например, на каком‑нибудь орбитальном телескопе, на луно‑марсо‑венеро‑…‑ходе или при межпланетных (межгалактических?) перелётах). А нужна ли надёжность такого же уровня, например, для системы, обеспечивающей стыковку грузового или пассажирского корабля с орбитальной станцией? Здесь нужна надёжность этой системы в пределах времени от старта (от активации) до стыковки и от расстыковки до выхода на траекторию приземления или до самого приземления (если предполагается повторное использование спускаемого аппарата или, в случае посадочных модулей на Луну, Марс, астероид и т. п., — для старта с поверхности другого небесного тела и возвращения на орбиту). В этом случае нужно обеспечить сбое‑ и отказоустойчивость к воздействиям различного рода помех, в том числе отдельных ядерных частиц (ОЯЧ) космического пространства. Работать безотказно в течение многих лет в данном случае не нужно: нужно отработать положенное время, а значит — безотказность тоже нужна, но только требования для таких систем должны быть адекватными. Можно ли на такие системы поставить коммерческие (Commercial‑Off‑the‑Shelf, COTS) компоненты? При должном объёме испытаний на соответствующие виды воздействий и при подтверждении безотказной работы в течение заданного времени — да, можно, и так уже давно поступают [2].
В общем, желательно следовать известному в аэрокосмической отрасли правилу «Test Like You Fly, Fly Like You Test» (тестируй так, как летаешь; летай так, как тестируешь).
Если малые и сверхмалые аппараты выводятся на орбиту пачками, то потеря такого спутника даже целиком — не такая большая проблема: его место займёт спутник из следующей пачки.
Можно спросить — так в чём тогда роблема: давайте подтверждать безотказную работу компонента, допустим, на год (около 9000 часов), в каком‑нибудь жёстком режиме эксплуатации — и этого хватит. Зачем нам сотни тысяч часов и лямбда на уровне 10 FIT для таких систем?… А «подвох» в том, что компонент‑то в системе не один. И если нужно десять тысяч часов на всю систему, то компоненты должны быть гораздо более надёжными, поскольку интенсивности отказов будут складываться. Вообще говоря, чем больше элементов в системе, тем выше эта вероятность отказа. Здесь помогает резервирование, но чтобы подтвердить достаточность выбранного способа (например, холодного резерва), всё равно нужно знать характеристики надёжности компонента.
Как можно было бы преодолеть имеющиеся противоречия?
Для честного определения показателей безотказности нужны миллионы элементо-часов. С учётом ограниченной серии для космических миссий, это означает, что стимулирование конкуренции и разведение «зоопарка» архитектур, вариантов реализации систем на кристалле и т.п. — совершенно неэффективно.
Решением противоречия в части обеспечения серийности могли бы стать:
платформенные решения, базирующиеся на ограниченном количестве унифицированных модулей. В этом случае можно испытвать на надёжность эти модули, а заодно и оценивать снизу надёжность ЭКБ в их составе,
развитие технологий создания систем-в-корпусе, в том числе на основе чиплетов: кристаллов с максимально унифицированной (ограниченной) функцией — вместо попыток создание универсальных систем-на-кристалле «на все случаи жизни» (более подходящие для коммерческих систем — и то если универсальность не превращает создаваемый компонент в печку или утюг). Недостатками такого подхода является экстремальная сложность корпусирования (advanced packaging), неизбежно влекущая за собой дороговизну. К тому же будет необходимо использовать исключительно чиплеты, прошедшие испытания на безотказность. Это довольно сложно, поскольку экосистема только формируется, и нет ни одного производителя или вендора, предоставляющего набор типов чиплетов, достаточный для построения любой системы, в том числе с высокоскоростными каналами передачи данных, любого назначения.
Велик соблазн определения подрядчиков для построения таких платформ или разработки чиплетов волюнтаристским решением, в то время как это следует делать на основе консенсуса производителей аппаратуры и с ориентацией на мировой рынок, поскольку космический рынок одной страны, даже если это США, не настолько большой, чтобы прокормить всех желающих на нём работать. Такие подрядчики могли бы войти в список (списки), аналогичный упомянутому ранее ILPM.
Заключение
Подходы к построению коммерческих продуктов (таких, как смартфоны) и критически важных систем с длительным сроком активного существования просто не могут быть одинаковыми. Конечно, можно продолжать пытаться обманывать природу с помощью формулировок ТЗ: бумага — это, пожалуй, самый толерантный материал на Земле. В том смысле, что — терпит. Разумеется, нужно оптимизировать параметры системы, исходя из бюджета, но дело не в рынке или плановой экономике, а в принципе разумной достаточности, исходящей из особенностей решаемых задач.
Пример НАСА показывает, что не требуется «волшебного» ГОСТа: на самом деле ГОСТы уже содержат всё, что нужно — решение проблемы заключается в развитии систем менджмента качества, включающего подтверждение характеристик, указанных в спецификациях, и контроль стабильности техпроцессов. Однако на первых этапах для установления характеристик безотказности и корреляций всё же необходимо провести долговоременные испытания. Охватить всю нужную для космоса номенклатуру силами даже десятка отечественых предприятий невозможно, так что никак не обойтись без прямого взаимодействия с зарубежными производителями и поставщиками. Для развития, для движения вперёд закрытость — смертельна.
Что же касается «Луны-25», остаётся пожелать успеха всем причастным к этому проекту, независимо от того, насколько сложной и противоречивой была история создания. Ждём 11–12 августа, скрестив пальцы!
Литература
1 А. Гербин. Использование ускоренных методов оценки показателей надежности изделий ЭКБ отечественного производства — один из путей повышения их коммерческой привлекательности. Электроника: наука, технология, бизнес, №9 (00190), 2019.
2 Jesse Leitner. Phasing in COTS EEE Parts in NASA.
3 Susan Stanley. MTBF, MTTR, MTTF & FIT Explanation of Terms.