Что ЦОД упавший нам готовит или эффективные совы всегда на страже

af8055c704804037faeb0ecdc04fa820

Для лиги лени: события с падениями ЦОД, падениями отдельных сервисов, состоянием «продукта импортозаместительного» не обсуждаются и не видно багтрекера. Каждое новое падение для многих превращается в «ни разу не было и вот опять».

За последние несколько лет в РФ (и в мире) было много случаев падений «ЦОД целиком». На память приходит попавший во все сводки пожар на крыше Даталайна — OST в 2019, и последовавший публичный анализ и разбор полетов. Причем проблемы не всегда идут от ЦОД самого по себе —
2012 — Amazon подвели дизель-генераторы
2020 — Пожар в кабельном колодце привел к возникновению проблем у различных интернет-ресурсов
2021 — пожар в OVHCloud в Страсбурге
2021 Защита от возгораний в дата-центрах, или как обеспечивается сохранность данных 2022 Пожары в дата-центрах. Как выстроить надёжное резервирование?
2022 Пожары, подтопления, вандалы… Как обезвредить? Искусство ЦОДообороны
2023 RuVDS Самый длинный простой за нашу историю: я обещал рассказать про аварию
И так далее.
Сюда НЕ попали аварии, не приведшие к зрелищным пожарам и серьезным последствиям для сервисов — в частности, 2017, Авария в дмитровском ЦОДе «Мегафон»: разбор полета  , и прочие мелкие аварии типа перегревов и задымлений отдельных помещений у отдельных поставщиков. Потому что кондиционеры надо от пуха чистить чаще.
Точно так же в новости не очень попала и авария 30 ноября 2023 — Авария в одной из зон доступности ЦОД Госзнак GZ1.
Что там произошло, кто попал под раздачу кроме VK и андромеды  — публичного анализа я не нашел, быстро поднятое не считается упавшим.
Или же, аварии 22 и 29 декабря 2023 в VK Cloud на тех же GZ1:

22.12.2023
Уведомляем Вас о том, что 22.12.2023 в 13:31 произошел инцидент на одной из дисковых нод, в результате которого мог наблюдаться рост задержек доступа к дискам вплоть до их Временной недоступности в течение нескольких минут.
Доступность дисков была восстановлена 22.12.23 в 13:38
Была инициирована аварийная размиграция дисковой ноды.
В 16:13–16:37 диски снова были недоступны из-за повторной недоступности дисковой ноды. На данный момент размиграция продолжается. Данные на дисках не пострадали.

29.12.2023
Частичная недоступность публичного API СУБД Затронутые объекты: — Базы данных — Москва Восток (GZ1), Москва Север (MS1) Время обнаружения: пт, 29 дек. 2023, 16:22 +03:00

Сюда же не попали аварии, связанные с неправильной работой систем пожаротушения — Август 2010, Подольск — 13 пострадавших, 1 погиб, Бангкок 2016, 8 погибших.

Сюда же не попали аварии, связанные с ошибками проектирования — 18.12.2021 МВД: глобальный сбой в федеральной информационной системе ГИБДД произошел из-за коммунальной аварии в серверной.

Что уж говорить про анализ сбоев и миграции меньших масштабов — что сбой при миграции и объединении баз МВД, что сбой 2016 года в налоговой, что сбой 2019 в налоговой, , сбой 2022 в налоговой, сбой в ГИБДД- 10.2023, повторный сбой в ГИБДД 12–2023. Точно так же никого особо не взволновали сбои в ОСАГО — что в 2015 году в РСА (российский союз автостраховщиков), что в 2020 — Новая версия АИС ОСАГО собрала рекордное количество жалоб. Не были озвучены ни процессы, ни процедуры, приведшие к до сих пор заметаемой проблеме, случившейся и длившейся в Росреестре с 1016 по 2019 — За три года электронная база Росреестра зависала на длительные сроки уже четыре раза, но НИКТО НЕ ВИНОВАТ —

Оказалось, что Росреестр не несет за сбои никакой ответственности, так как причиной неполадок стали технические неполадки в системе, не зависящие от человеческого фактора.

Новости про Leonardo ничуть не лучше — упало, но починили, все.
Точно так же я не вижу анализа и вообще упоминания о сбое в метро 01 февраля 2024 — В Москве произошел сбой с оплатой картами в метро и автобусах.

Не было в новостях, значит не считается?

Незаметное давление
Проблема поддержки существующих систем (аппаратных и программных) в условиях прекращения официальных поставок от всех вендоров 1–2 эшелона, обсуждалась давно. Меры борьбы тоже были известны — 1) создавать локальный ЗИП, 2) повышать локальную экспертизу хотя бы в ведущих интеграторах, 3) переходить на «свои» программно-определяемые системы там, где это возможно — отвязываясь от вендоров 1 эшелона, 4) проводить активный обмен опытом, в открытом формате предоставления информации о доступности \ работоспособности и компонентов (в виде базы данных производитель \ редакция аппаратной части \ прошивка \ прочее), или в виде информации о доступности перехода на другие решения. Или, хотя бы в виде таблицы «что НЕ заработало и какие были проблемы».

Что вместо этого? НИКОЛАЙ ИННА ХАРИТОН, НИЧЕГО. В публичном поле информация «куда можно сходить за повышением экспертизы» — отсутствует. «Свои» интеграторы из топ-10, разумеется, делиться информацией не обязаны, и от них это не требуется. Малый и средний бизнес (SMB) в регионах, где экспертиза давно уехала за лучшей жизнью в Москву и Санкт-Петербург, пока живет «как есть», срок наработки на отказ у современной техники от 3 до 5 лет, массовые отказы компонентов начинаются через 5–7 лет, дальше сами посчитаете.
Стоит ли говорить очевидное, что в условиях сокращения поставок (числа вендоров) сетевого оборудования сложнее калькулятора — о чем еще можно было писать в 2022 — Протрезвели — прослезились, или на чём строить сети летом 2022 года — строить сети стало сложнее? Особенно с учетом, что статей про прекрасное светлое сетевое будущее за 2023 год — что? нет?  

Стоит ли упоминать о том, что победные релизы из 2022 «Ростех» начал серийное производство защищённых роутеров на процессорах «Байкал» свелись в 2023 к KVM — Представленный в 2022 году на ЦИПР первый российский KVM‑коммутатор запущен в серийное производство.
Кстати, была серия победных статей про то, как РЖД успешно переходит на Эльбрусы, например — РЖД закупают 15 тысяч ПК на «Эльбрусах» с российской ОС за 1 млрд рублей и ФАС запретила РЖД покупать 15 тысяч «Эльбрусов» за 1 млрд рублей — и куда теперь будет обратно переходить ГИБДД и РЖД ?

И архаизация всей страны
Все происходящее, вместе с цензурой на «плохие новости», заставляет вспомнить поздний СССР. Когда в одном маленьком городе третий день выгорала уран-графитовая смесь (хотя графит в обычных условиях не горит), а в новостях от 29 апреля 1986 года было 6 строк — От Совета Министров СССР. На Чернобыльской атомной электростанции произошла авария. Поврежден один из атомных реакторов. Принимаются меры для ликвидации последствий аварии. Пострадавшим оказывается помощь. Создана правительственная комиссия. Причем, о проблемах и о том, что так будет, рано или поздно, знали — со времен аварии 30 ноября 1975 на ЛАЭС.

Выводы
Современная, построенная в 2000–2020 годах инфраструктура представляет собой сложнейший комплекс технологических (электропитание, кондиционирование, СКУД, сети связи), аппаратных (серверы, коммутаторы, аппаратура WDM\DWDM) и программных средств. Вот только, боюсь, о том что в каком — то уездном городе N отказала система управления светофоров, потому что СХД «одного вендора» работала сколько могла, пока не кончились батареи кеша, не вышли из строя три из четырех блоков питания, в условиях давнего отказа второго контроллера, потери всей емкости для ребилда DRAID, а добил ее отказ «казалось что нового и совместимого, но, как оказалось, нет» диска на очередном ребилде — мы не узнаем даже из новостей. В этом, (censored) информационном космосе, твой крик никто не услышит.

И все это на фоне эффективных сов, которые не будут поднимать шум

Зачем вся песня писалась. Я зачем-то решил ознакомиться с тем, как импортозаместительные системы работают с СХД, и вообще с дисковой подсистемой.
Репортаж с места событий

Но, есть вещи хуже. Например — импортозамещение Teams.

Так что, TOVARISH — если ты дочитал до сюда, и у тебя BOMBIT — то ты не одинок в вопросе без ответа «куда бежать и где экспертиза, и кто гарантирует, что ВОТ ЭТО вообще запустится». Даже если консервы и говорят в комментариях про то, что у бреста презентация хорошая, красивая, и они сто раз так делали — верить этому не следует.

Следствие или какая связь то с ЦОД ?
Все просто, у меня часть сервисов в ЦОД, часть в облаках. И не зная, что на самом деле гарантирует (или, скорее не гарантирует ни ЦОД, ни облако) — можно столкнуться с неприятностями. И чем дальше, тем вопрос ближе к варианту «когда».

Я думал, что для пилота и начала перехода потребуется новая инфраструктура в треть имеющейся. Сейчас понимаю, что в пилоте потребуется выбор и дисковых решений (их нет, потому что ни у одного из российских решений нет рабочего метрокластера), и, одновременно, построение системы непрерывной проверки восстановимости и целостности резервных копий. Потому что Акронис, как его теперь не называй, Acronis Cyber Backup (Advanced) или Киберпротект Кибер бекап — у меня столько крови испортил, что я его просто боюсь.

Придется описывать требования по фактически используемому функционалу Commvault. Включая даже очевидное — процедуру восстановления и переноса лицензий. И затем на этот функционал добавлять какой-то конвейер по параллельному (кроме бекапа) копированию баз данных куда-то на некий момент времени, развертыванию их тестовый сервер, туда же заводить автоматическое восстановление базы из «заменяемой» СРК и писать функционал сравнения, что в базе нужные поля в нужных данных, и приложение может работать с восстановленной базой.
Потом еще и прописывать программу и методику испытаний и проводить эти самые приемо сдаточные испытания.
И что-то мне совсем не нравится предстоящий набор работ. Придется расширять (точнее, делать с ноля) QA в сегмент бекапа, писать тесты. К тому же еще и под 1С, местами.

Повторюсь.
Хуже всего в текущей ситуации в целом не то, что есть некие проблемы, они всегда были. Хуже то, что некого спросить про накопленный опыт — кто по каким граблям успешно прыгал и какие проблемы были решены. Нет публичного пилота (ни у кого), чтобы было на что посмотреть и сравнить.
И, может, хуже даже не это, а то что эффективным совам проще завести десяток учеток для тушканчиков «без статей, только для комментариев», чтобы они минусовали неприятное, и писали «да вы наверное тупой, у меня то все работает». Имея при этом ноль статей и два одинаковых комментария в месяц, что у них то , инфа сотка, все работает.
Хабр, конечно, не жалобная книга, но от подхода «давайте делать вид что все хорошо» уже бомбит у меня.

PS. Это тоже было, но не в Симпсонах:
— А как работалось при Брежневе?
— Ой, плохо. Стыдно вспоминать. Передовицы к тому времени окончательно в дерьмо превратились… Какой там внутренний свет — даже понять трудно было, о чем пишут. Но я плохие оценки ставить уже боялась, потому что другое время было на дворе. Ставила обычно «восемь» или «девять», а мне в обмен зарплату и паек. Все всё понимали, вопросов не было. (Пелевин, Искусство лёгких касаний)

PS. Пост в чулане, так что рейтинг в зачет не идет.

© Habrahabr.ru