Контроллеры преткновения и другие рассказы о буднях сервисной поддержки в новых реалиях28.08.2024 13:00

Рынок запчастей и ИТ-оборудования пребывает в турбулентном состоянии. Заказчики, сервисы, интеграторы — все находятся в поисках нестандартных решений для поддержания работоспособности систем. Сложившаяся ситуация периодически порождает, скажем так, нетривиальные проблемы, решения которых приходится искать на ходу.

Мы подготовили подборку историй о трудностях, с которыми столкнулись наши инженеры за последние два года. Только не ждите героических сказаний — речь пойдет о тяжелой повседневной работе без прикрас и купюр.

Проблематика рынка: что сейчас происходит с сервисом в РФ

Одни из главных проблем индустрии сегодня — нехватка запчастей и выход из строя устаревшего оборудования. Заказчикам по-прежнему нужен сервис, однако многие вендоры ушли, и не всегда удается обслуживать оборудование своими силами в период миграции на новые решения. В итоге компании приходят за обслуживанием к нам — больше никто не поможет.

В 2022 году ситуация была относительно стабильной, но с 2023 года число заявок резко возросло. До 2022 года мы самостоятельно обслуживали часть оборудования заказчиков, в основном менее сложные устройства, в то время как остальным занимались вендоры. После их ухода мы продолжили выполнять обязательства собственными силами. Новых контрактов в этот период было немного, так как заказчики заняли выжидательную позицию, надеясь на возвращение прежних условий.

К осени, когда стало ясно, что вендоры не вернутся, заказчики начали активно искать новых партнеров для сервисного обслуживания. На пороге закономерно появлялись заказчики со списками оборудования на 500 с лишним позиций и просили до завтра либо заменить его, либо предоставить коммерческое предложение на тысячу запчастей. К этому моменту мы уже накопили значительный опыт самостоятельной работы и смогли предложить им помощь, пускай и пришлось выделять отдельных специалистов для работы с такими экстренными запросами.

Отдельной проблемой стали недобросовестные поставщики. Бывает, они заменяют деталь на ‎похожую безо всякого уведомления. Иногда подменяют этикетки в надежде, что все будет работать и так. А ведь помимо самого железа необходима еще и актуальная документация, которую приходится искать у заказчиков или партнеров. И даже это не страхует от проблем. Инциденты с незадокументированными особенностями запчастей решаются только благодаря накопленному опыту.

Случай первый: двое из ларца, одинаковых с лица — контроллеры Hitachi

Мы столкнулись с этой проблемой одними из первых в России. Возможно, на тот момент о ней никто больше не знал. Мы провели поставку СХД Hitachi E790 и должны были обеспечить гарантию с жестким SLA. Мы изучили доступную документацию, закупили нужные запчасти и какое-то время работали в полной уверенности, что все будет хорошо.

Однако однажды вечером (конечно, в выходные!) дежурный инженер вдруг написал с просьбой подсказать, какой партийный номер контроллера под Hitachi E790 нужно запрашивать со склада.

Ситуация странная, так как в документации, по которой мы готовились, есть только один вариант контроллера (тип CTLMN). В ответ на наше недоумение инженер прислал скриншот из документации, где уже присутствуют два варианта.

Выяснилось, что только в половине поставленных СХД стоял CTLMN-контроллер, а в оставшихся новый CTLMNA-контроллер. Чем отличаются эти запчасти, так и осталось загадкой, но опытным путем выяснилось, что они не взаимозаменяемы. Вот так сюрприз…

Очевидно, вендор выпустил вторую ревизию, но у нас нет прямого доступа к сервисной документации Hitachi. Она попадает в наши руки с задержкой. Так что и подготовиться заранее мы не могли. К тому же, в данной модели СХД нельзя увидеть PN контроллера снаружи: наклейка с номером есть только на внутренней части, а через интерфейс управления СХД эта информация недоступна.

В итоге инженеру на месте пришлось с бубном запускать старый контроллер. Так как заказчик предусмотрел в своей инфраструктуре резервирование, серьезных рисков для бизнеса это не создало, и контроллер проработал еще некоторое время, пока мы ждали доставку с китайского завода.

Учитывая риски логистики и невозможность повторной ошибки, мы заказали контроллер через срочную авиадоставку. Причем из контроллера заранее вынули батарею, так как они запрещены к перевозке. Дополнительно заказали еще одну целую СХД сразу в сборе — альтернативным рейсом. Это чтобы наверняка.

После этого случая мы ввели правило: инженеры должны проверять актуальность и использовать самую свежую документацию. Мы научились удаленно определять тип контроллера по косвенным признакам, используя базу скриншотов веб-интерфейса. И, конечно, создали запас обоих вариантов контроллеров на складе. Конечно, лучше учиться на чужих ошибках, но пока приходится учиться на своих.

История вторая: как мы вправляли ленточные приводы

Крупные компании применяют и еще долго будут применять для резервного копирования ленточные хранилища, однако в 2022 году с закупкой многих моделей библиотек возникли сложности.

Ситуация с ленточными LTO-приводами очень специфична, их не так много в мире. Ранее их производили только две компании: IBM и HPE. С появлением седьмого поколения (LTO7) остался единственный производитель — IBM. Компания выпускает приводы для разных вендоров с различными прошивками: под Quantum, под HPE и так далее.

Раньше мы, как и другие вендоры, выполняли блочный ремонт. Просто заменяли одну деталь на другую с таким же партномером. Для каждой модели были определены конкретные артикулы запчастей. Мы их покупали или получали от вендора, на этом обслуживание заканчивалось.

В 2022 году выяснилось, что для некоторых библиотек оборудование можно купить относительно легко, а для других — крайне сложно, а контракты никто не отменял. Тут-то мы и вспомнили, что все эти приводы де-факто с одного конвейера.

Нашли сотрудника одного из вендоров, который согласился нам помочь — найти способ перепрошивать распространенные приводы под использование в таких «редких» библиотеках. Например, из IBM TS3310 в Quantum i500.

Задача оказалась непростой и решить ее, даже с посторонней помощью, мы не смогли. Однако в процессе в голову пришла другая идея…

Дело в том, что привод по большому счету состоит из механической и электронной части. С одной стороны, это набор шестеренок, головок, контактов, шлейфов, а с другой — управляющая плата. Изначально казалось, что она неотделима от привода, но именно в ней заключаются основные различия. Механика везде примерно одинаковая.

Мы приобрели необходимые инструменты и начали экспериментировать. В результате научились переставлять управляющие платы с одного привода на другой примерно за 30 минут. Теперь мы можем быстро реагировать на заявки заказчиков, не ожидая месяц поставки нужного оборудования. Сейчас мы применяем этот метод, когда, например, на складе есть избыток запчастей от IBM TS4300, а требуются приводы для библиотеки-близнеца HPE MSL3040, которых в моменте не хватает.

История третья: кошмар с ленточными библиотеками

Готовилась поставка двух библиотек для заказчика, и от нас требовалось обеспечить трехлетнюю гарантию с жестким SLA.

При работе мы всегда учитываем вероятность поломки оборудования. Зная количество артикулов у заказчика, формируем оперативный запас на складе минимум на полгода-год вперед. Затем постепенно докупаем его для восполнения.

Такой подход применяется ко всему оборудованию, но ленточные приводы — особый случай. Это механика, подверженная воздействию пыли, частой смене кассет и трению головок о пленку. Поэтому вероятность их поломки довольно высока: от 10 до 20% для старых моделей, работающих 3–5 лет. Для сравнения, у других устройств этот показатель составляет 1–2%.

Мы поставили заказчику 36 приводов и 2 библиотеки. Дополнительно приобрели 10 приводов, чтобы на складе всегда были запчасти. При первом тестировании инженеры обнаружили несколько неисправных приводов. Предположили, что это могло быть связано с длительной транспортировкой на перекладных, а, может быть, виноват и банальный брак. Но факт остается фактом: каждые несколько недель стабильно выходил из строя еще один привод — то блок питания, то другие компоненты.

Мы знали статистику и видели, что по этой конкретной поставке число поломок в разы превышает стандартное. За полгода мы израсходовали все 10 запасных приводов, хотя планировали использовать их в течение трех лет и даже дольше.

Тенденция к поломкам вызывала серьезные опасения. Мы сразу обратили на это внимание, но новые поставки занимают два-три месяца. Пришлось срочно искать на рынке замену проблемным приводам, менять платы и разрабатывать альтернативные решения. Сейчас прошло 10 месяцев с момента поставки, сломано уже 17 приводов. Выглядит так, что к концу трех лет контракта их все придется поменять, возможно, по нескольку раз.

Этот опыт научил нас еще внимательнее относиться к выбору поставщиков. Теперь мы тщательно проверяем каждого партнера, следуя принципу «семь раз отмерь — один раз отрежь». Главная мантра рынка IT-закупок в России!

История четвертая: инфаркт у СХД IBM

Пару лет назад мы взяли на поддержку IBM FlashSystem 5200 с девятью FCM-дисками по 19 ТБ каждый. Это SSD NVMe диски производства IBM. Для подстраховки мы приобрели два запасных диска. Однажды поступила заявка на замену неисправного диска. Мы выдали запасной и сразу заказали новый. На следующий день пришла еще одна заявка. Мы выдали второй запасной диск, оставшись без резерва. И тут же поступили заявки еще на два диска…

Оказалось, что определенные версии прошивок таких дисков у IBM попадали под необходимость срочного обновления. В то время, когда FlashSystem была на поддержке вендора, эта проблема еще не вскрылась, а позже вендор не стал сообщать об этом российским клиентам. Однако в какой-то момент диски стали просто отключаться одним за другим.

Мы такого подвоха, признаться, не ожидали и сперва решили просто заменить все диски в СХД на следующее поколение в рамках сервиса. Лишь потом разобрались, что их можно обновить и восстановить. Теперь мы используем старые версии дисков для собственных некритичных задач и ходим по всем заказчикам, кто попадает в зону риска, с проверками версий ПО. Настойчиво рекомендуем обновиться.

История пятая: подозрительные трансиверы

В еще одну компанию недавно возникла необходимость замены около 350 оптических трансиверов 32GB FC SFP на нескольких SAN-коммутаторах Brocade X6–8. Это значительно превышает обычный прогнозируемый процент поломок, который обычно составляет около 5%.

Однако, проводя проверку оборудования, инженеры заказчика обнаружили, что сигнал в трансиверах немного слабее установленного стандарта (может, из-за износа, может, по какой-то другой причине). Несмотря на то что трансиверы были исправны, их руководство решило перестраховаться и разом заменить несколько сотен устройств.

При обращении к дистрибьюторам за заменой трансиверов мы получили интересное предложение. Они сообщили о возможности предоставить альтернативные устройства по цене вдвое ниже обычной. Эти трансиверы, по их словам, были перепрошиты и отличались отсутствием наклеек и немного иным отображением в системе.

»‎Выгодное предложение!», — сказали бы мы, если бы не были научены случаем с ленточными библиотеками. Пришлось вежливо отказаться, прошерстить рынок, переплатить, но получить гарантированно новое и оригинальное оборудование.

И многочисленные «подставы» от поставщиков

Здесь много сходных ситуаций, но в целом проблема одна: на российском рынке сейчас много контрафактной продукции. Распространены переклейки, перемаркировки и самые разные махинации.

У нас была ситуация, когда наш сотрудник формировал спецификацию для закупки, но ошибся в одном артикуле, указав неправильный номер. Когда сотрудник обнаружил свою ошибку, выяснилось, что поставщик не моргнув глазом подтвердил поставку по несуществующему артикулу и даже предоставил фотографии товара. Вскоре к нам приехало »‎новеньких» 10 SSD с несуществующими артикулами на этикетках. И это не партия в сотни единиц, на подмене которой можно заработать много денег, а мелкий, точечный подлог.

Чего только мы не видели за два года:

диски с интерфейсом 6G SAS вместо 12G (хотя наклейки верные);
диски для СХД с неверным размером сектора/прошивкой/идентификатором;
обычную OEM оперативную память вместо специализированной HPE Smart Memory/Lenovo TruDDR4 и памяти для контроллеров СХД;
сервера Lezo (Lenovo SR650 V2), у которых прошивки оказались не из основной ветки вендорских обновлений, а очень специфичные (возможно, для китайского рынка или самодельные), из-за чего перейти с одной ветки на другую было невозможно. Пришлось менять всю плату целиком на нормальную worldwide.

Со временем проблемных ситуаций становилось все больше, и они затрагивали даже тех поставщиков, которые ранее считались надежными. Мы осознали, что прежний подход к приемке запчастей больше не работает. Стало очевидно, что нельзя продолжать принимать комплектующие, основываясь только на соответствии номеров.

Смена поставщиков не решала проблему: рано или поздно у каждого начинали возникать подобные ошибки. В итоге мы пришли к необходимости создания отдельной группы инженеров, специализирующихся на проверке всех поставок. Теперь все потенциально рисковые категории товаров не поступают сразу на склад, а направляются к этим специалистам для всестороннего изучения. В результате такого подхода в течение первых недель после получения часть запчастей возвращается поставщикам еще до истечения гарантийного срока поставки.

Опыт, сын ошибок трудных…

Работать стало сложнее, работать стало веселее. Опыт последних лет проще всего обобщить в наборе правил.

Надо быть гибкими. Рынок меняется быстро, и решения, которые казались идеальными два-три года назад, больше вообще не работают.

Строить взаимоотношения с заказчиками: не ограничиваться лишь сухими договорами, а делиться экспертизой и укреплять доверие.

Благодаря прозрачной и регулярной коммуникации обе стороны понимают друг друга даже в сложных случаях. Такой кредит доверия помогает справляться с любыми ситуациями.

Важно поддерживать заказчика, даже если это временно невыгодно. Например, бесплатная замена запчастей, пусть и в убыток компании, может помочь в критической ситуации и тем самым укрепить партнерские отношения.

Заказчики обмениваются информацией. Сколько бы ни конкурировали компании в рамках своей отрасли, их сотрудники общаются между собой. Рынок относительно небольшой, и негативные отзывы распространяются быстро. Ни одна компания не рискнет доверить свою критическую инфраструктуру поставщику с сомнительной репутацией.

Наличие склада с редкими запчастями — большой плюс, а скорее, — необходимость.

В последнее время при проведении конкурсов заказчики все чаще выражают желание лично посетить склад поставщика. Все хотят убедиться в наличии необходимого запаса комплектующих на случай непредвиденных ситуаций. Склад — не музей, и раньше мы не практиковали его демонстрацию клиентам. Пришлось подстраиваться.

Процесс приемки теперь включает тщательную проверку и отбраковку несоответствующих деталей. Реагируя на растущую проблему, в мае 2024 года мы ввели в штат две новые должности — специализированных инженеров по проверке запчастей. Они сосредоточены исключительно на контроле качества поступающих комплектующих.

Оптимальный подход — личный контроль на месте производства. Если это невозможно, необходимо тщательно проверять поставляемую продукцию дистанционно.

Инвестиции в контроль качества оправдывают себя. Затраты на командировку специалиста значительно ниже, чем расходы на регулярную замену неисправных приводов. Более того, наличие отдельных инженеров для проверки поставок экономически эффективнее, чем риск потери клиентов из-за неудовлетворительного качества.

Сейчас у всех в индустрии необычные сложности, и становится нормальным делиться решениями. Несмотря на конкуренцию, сложилось понимание: для преодоления общих проблем необходимо объединить усилия. Отсюда, кстати, и идея этой статьи. Присоединяйтесь к ее обсуждению в комментариях.