День из жизни новоприбывшего сервера: как мы проверяем и восстанавливаем железо

image alt text


В этой статье хочу немного рассказать о внутренней кухне Сервер Молл и о том, как происходит тестирование и восстановление серверов. Постараюсь наглядно показать отличие обыкновенного «б/у» сервера от Refurbished и расскажу о процессе превращения немного «уставшего» железа в практически новое.


Для изучения дивного внутреннего мира отдела предпродажной подготовки Сервер Молл я пообщался с одним из инженеров, который поделился профессиональной смекалкой и опытом. Андрей как раз занимался новоприбывшим IBM System X 3650 M4, так что экскурсия получилась с практическим уклоном.


Допустим, вы решили продать сервер

Сделать это может не только организация, но и физическое лицо, обратившись в Сервер Молл (СМ) за оценкой. На Хабре уже была подробная статья о процессе покупки, поэтому расскажу о том, что происходит дальше.


По полученным в ходе телефонной беседы сведениям специалисты принимают решение о целесообразности покупки, обычно положительное. Все же, приобретение какого-нибудь ProLiant второго поколения вряд ли окажется полезным, поэтому первичная оценка перспектив железа довольно важна. Если все хорошо, то специально обученный экспедитор приезжает к продавцу, проводит визуальный осмотр сервера, проверяет явные ошибки в работе и забирает железо с собой. Покупка серверов проводится компанией по всей России.


image alt text


Осмотр позволяет примерно оценить затраты на восстановление сервера: тот же крупный скол на корпусе запросто может быть вызван падением, с последующим возникновением плавающих ошибок из-за микротрещин в текстолите материнской платы. Серверы роняют вообще не часто, но зато очень метко. Сам был свидетелем перевозки тройки машин DL380 в багажнике седана, из которого одну из железок неловко извлекли. Визуально у сервера лишь отвалилось ухо и помялся уголок, но при старте мы получили ошибки по системе охлаждения и периодические перезагрузки.


Еще при осмотре сервер включают, смотрят на индикаторы самодиагностики и ошибки консоли. Если ничего критичного, то совершается сделка и машина передается далее по инстанциям.


Вся описываемая далее последовательность проверок появилась не на пустом месте — под спойлером немного сведений об MTBF и тяготах их добычи.

Изначально, наши инженеры поинтересовались статистикой наработки на отказ основных узлов, чтобы не бороться с тем, что нужно просто заменить. Основным показателем надежности считается MTBF (Mean Time Between Failures), то есть время, в течение которого не будет сбоев. Для каждого компонента цифра разная, и официальных данных обо всех компонентах так просто не получить.


Но для ориентира можно использовать отчеты некоторых OEM производителей, чье железо используется в любом брендовом сервере. Например, у SSD intel 520, MTBF составляет 1 200 000 часов. Разумеется, это не значит, что диск проработает 136 лет, так как эта характеристика статистическая и выводится при тестировании большой партии. Удобнее для понимания показатель AFR (Annual Failure Rate), выводимый из MTBF по формуле AFR = 1-exp (-8760/MTBF).


Для нашего примера вероятность сбоя диска SSD в первый год составит приблизительно 0.007, т.е 0,7%. Для менее точного расчета используют формулу 8760/MTBF. Уже написано довольно много статей на тему расчета этого показателя, так что любопытствующие могут обратиться к опубликованным материалам.


Серверное ТО

Все новоприбывшие серверы проходят обязательный цикл тестирования и очистки. Кроме того, восстанавливаются серьезные физические дефекты, вроде погнутых монтажных «ушей».


Совсем косметические вещи, вроде царапин на металле и потертостей, остаются как есть. К слову, металл серверных систем покрыт на заводе специальным антистатическим лаком, восстановить который не так просто. Состав самого вещества точно не известен — почти как приправа в KFC, — поэтому приносим эстетику в жертву защите от статики.


image alt text


При повреждении так называемых «ушей», за которые сервер удобно выдвигать из стойки, их обычно меняют на новые. В случае с пластиковыми деталями HP они просто меняются на новые, как и петли блоков питания. Монтажные салазки просто заказываются заново. При значительных повреждениях самого корпуса (глубокие и сложные вмятины, например), он просто в сборе меняется на новый.


Повреждений металлических креплений IBM за весь опыт инженеров Сервер Молл не встречалось ни разу. Видимо, широко известная «неубиваемость» систем этого производителя проявляется даже в мелочах.


К слову, время наработки на отказ для корпуса довольно велико.

Например, вот пример данных по MTBF одного из производителей:


  • Показатель самого корпуса составляет 5 000 000 часов;


  • Дисковая корзина и IMPI-модули отработают 700 000 часов;


  • Светодиоды рассчитаны на 2 000 000 часов.


Однажды поступил запрос на продажу сервера, который охлаждался табачным дымом несколько лет. Он просто стоял в серверной, забор воздуха в которую производился из соседней курилки. Ароматы продуктов горения табакосодержащей продукции ощущались уже на подходе к пациенту. Модель была актуальной, поэтому решили рискнуть. Вы когда-нибудь отмывали ровный слой табачной смолы? А инженеры Сервер Молл отмывали — один даже курить бросил. Правда, железо в продажу все же не пошло и использовалось для внутренних нужд.

После осмотра инженер снимает крышку корпуса и запускает машину, чтобы послушать звуковой фон вентиляторов, блоков питания и дисков. Некоторые кулеры не выдают никаких ошибок в систему диагностики, но их звук не оставляет никакой веры в дальнейшее будущее подшипников. Такие кулеры просто меняем на новые. Показатель MTBF для систем охлаждения Intel составляет всего 100 000 часов, поэтому замена вентиляторов на новые — обычное явление.


image alt text


Не менее популярный звук — писк конденсаторов системы питания, которая до последнего светится зеленым в мониторинге. В относительно свежих серверах используются блоки питания с твердотельными конденсаторами, но модели с электролитическими элементами все еще актуальны и поэтому требуют внимательной диагностики.


Время наработки на отказ современных блоков питания может составлять 967 300 часов, если верить данным OEM-производителя Intel. В случае свистов и подозрений на неполадки весь БП меняется на новый, потому что любые работы по пайке нецелесообразны экономически и чреваты для будущего покупателя.


Свето-цифровая диагностика

Большинство современных серверов оснащены системами самодиагностики. Это могут быть LED-индикаторы на передней панели, отдельные модули с перечнем и статусом всех компонентов, просто указатель на наличие какой-либо ошибки. В любом случае, серьезные проблемы с компонентами видны сразу.


Небольшой экскурс в базовую диагностику на примере решений IBM, HP и Dell.
  • Вариант от IBM называется Light Path и представляет собой выдвижную панель с индикаторами и пояснениями;

image alt text


  • Dell в большинстве серверов использует LCD-панель для базовой настройки и отображения ошибок с кратким описанием;

image alt text


Встречаются и упрощенные индикаторы:


image alt text


  • HPE предлагает самодиагностику Systems Insight Display LED, панель которой похожа на вариант IBM.

image alt text


После беглого взгляда на индикаторы начинается долгая программная проверка с использованием штатных диагностических инструментов:


  • IBM Dynamic System Analysis


  • Dell Hardware Diagnostics


  • HPE Insight Diagnostics

Все эти программы запускаются локально или при помощи средств IMM, DRAC, iLO. Если диагностика не «вшита» в управляющий контроллер сервера, то просто загружаемся с фирменного диагностического диска от производителя. Полная диагностика занимает 2 — 3 часа и находит большинство проблем с памятью, процессором, диагностическим контроллером, вентиляторами, блоками питания и дисковыми контроллерами. Жесткие диски в процессе не участвуют, так как при продаже практически всегда ставятся новые.


Традиционно слабым местом системных плат являлись электролитические конденсаторы. Они вздувались, перегревались, взрывались и приводили к полной неработоспособности. При максимальном температурном режиме MTTF таких элементов составлял до 8 000 часов, что чревато внеплановым ремонтом уже через пару лет эксплуатации. Поэтому в современных серверных системах используются твердотельные конденсаторы, которых хватит на несколько «жизней» сервера. Общий MTBF материнской платы на примере Intel S1200V3RPM это подтверждает и составляет 371 523 часа.


image alt text


После вдумчивой проверки сервер полностью разбирается до состояния «голый корпус и комплектующие на столе», после чего все компоненты тщательно чистятся и промываются спиртом. Спирт не вредит токопроводящим дорожкам, элементной базе и лаку материнской платы, а потому широко используется для придания платам первозданного вида. Во избежание накладных расходов и в качестве меры борьбы с пьянством, спирт используется изопропиловый.


image alt text


Пристальное внимание уделяется разъемам материнской платы. В частности, инженер рассматривает через увеличительное стекло сокет процессора на предмет загнутых пинов, ведь даже одна испорченная ножка может вызвать самые непредсказуемые последствия. Не остаются без внимания слоты PCI и оперативной памяти, проверяются линки сетевых портов. В качестве «вишенки на торт» меняем батарейку BIOS, на всякий случай.


image alt text


После купания сервер передают на склад, где со всех комплектующих считываются штрих-коды для внутренней складской базы. Потом железо ждет на полке своего покупателя вместе с логами тестирования и гарантийным листом, куда занесены серийные номера всех комплектующих.


И вот пришел заказ именно на этот сервер

Редко когда заказчик выбирает конфигурацию «как есть» и не хочет ничего добавить. Поэтому заказанное железо доукомплектовывают новыми дисками, процессорами, блоками питания определенной мощности, памятью и необходимыми контроллерами. После этого сервер снова передают инженерам по тестированию для предпродажной проверки.


Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска. Предпродажная проверка занимает около десяти часов и проводится в стрессовом режиме:


  • Процессоры и память работают на максимуме своих возможностей;


  • Блоки питания отдают всю мощность, даже если их несколько;


  • Под нагрузкой выявляется большинство бракованных жестких дисков;


  • Вся элементная база сервера работает так, как вряд ли будет работать в повседневной эксплуатации.

image alt text


На этом этапе, кстати, обнаруживаются «тонкие» изъяны блоков питания. Так что одной их проверкой на свист в Сервер Молл не ограничиваются. На этом же этапе возможна безусловная замена блока питания на новый, если заказчик решил приобрести сервер с одним блоком питания, несмотря на перспективы использования отказоустойчивых вариантов.


Новые жесткие диски не тестируются только тогда, когда заказчик по своим соображениям просит прислать их не распакованными.


Для полноценной проверки всех сетевых интерфейсов машина грузится с внешнего диска в специально подготовленной среде на базе Windows 2012R2. Сервер подключается к локальной сети и инженер последовательно запускает копирование одного большого файла и множества мелких. Если потери пакетов превышает 1% — сетевая карта подлежит диагностике и замене.


С помощью Memtest дополнительно тестируется память на всех системах, кроме IBM. Дело в том, что проверки Memtest на машинах IBM практически всегда находят несуществующие ошибки на одном из слотов. Такая вот техническая особенность.


image alt text


При сбое любого из компонентов сервера все тестирование начинается заново, что позволяет избежать возможных проблем с совместимостью замененных комплектующих.


Один раз всплыла любопытная проблема с контроллером RAID в сервере Dell: все тесты были пройдены успешно, но после перезагрузки BIOS начал показывать ошибки уже довольно редкого контроллера H710. Из-за поисков равноценной замены отгрузку сервера пришлось задержать на один день, который был компенсирован заменой на более современный адаптер H330 с вдвое большей пропускной способностью.

Итого, на каждый сервер уходит около 16 часов:


  • 2 — 3 часа первичное тестирование;


  • 3 часа на чистку и купание;


  • 10 часов отнимает предпродажное тестирование.

В комплекте с прошедшим все испытания железом покупатель получает флеш-накопитель с журналом тестирования, инструкцию к серверу, полезные ссылки и оффлайн-версию статьи о распространенных ошибках именно этого производителя.


image alt text


Отдельного упоминания заслуживает подготовка сервера к отправке. Упаковка разработана самостоятельно и, по отзывам, превосходит качеством оригинальную. Сервер запаивают в пленку с силикагелем (поглотителем влаги), оборачивают вспененным полиэтиленом, упаковывают в прочный картон и отправляют заказчику.


Вместо заключения

На восстановленные вышеописанным образом машины Сервер Молл дает собственную гарантию 3 года. Причем, в стандартный набор услуг входит как замена отказавших компонентов в течении пары дней, так и полная замена всего сервера при критических неполадках. Подробнее о гарантийной поддержке и ее отличиях от фирменных предложений HP, IBM и Dell вы можете узнать в одной из прошлых статей.


К слову, за время существования компании полная замена потребовалась только один раз. Глюк оказался невоспроизводимым и в присутствии инженеров Сервер Молл все работало как часы. Вот она, админская аура в действии!

Комментарии (7)

  • 27 октября 2016 в 11:11

    0

    Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска.

    Сурово. И как результативность? ;)
    • 27 октября 2016 в 11:28 (комментарий был изменён)

      0

      За время существования компании только 1 раз меняли сервер (да и странный случай был по своей сути), серьезных и статистически-значимых замен тоже не было. Поэтому на результативность не жалуемся.
      Не доверяете результатам внутренней железячной диагностики?
      • 27 октября 2016 в 11:39

        0

        Про «замену сервера полностью» — сказку оценил, но вы, по-моему, несколько не по адресу, тут все-таки технический ресурс. Я про все гарантийные случаи, а не про некую мифическую «замену сервера». Если вы говорите, что у вас один гарантийный случай за все время существования — то либо вы существуете месяц-два, либо вы невероятно удачливая компания. Про процент RMA по _новым_ серверам у тех же IBM / Dell / HP я вполне в курсе. У вас он какой?

        Про «внутреннюю железячную диагностику» — тут вопрос не в «доверяете — не доверяете», а в том, что «внутреннее диагностическое ПО производителя» толком нагрузочно ничего не тестирует, оно вообще для других целей создано. Нагрузочные тесты IBM / Dell / HP / кто угодно проводят несколько другими способами, которые кому попало не раздаются. И, как мне кажется, про это вы тоже в курсе, раз уж запускаете как минимум Memtest. Запускаете, кстати, как я понял, все вручную (косвенно на это еще указывает отдавание заказчику флешки с логами)?

        • 27 октября 2016 в 11:51 (комментарий был изменён)

          0

          Давайте по-порядку, во избежание недопониманий:
          1)Если проблема такова, что не лечится простой заменой адаптера, планки памяти и тп, то просто высылаем аналогичный сервер с курьером. А сбойный уходит на вдумчивую диагностику и «лечение». Схема работает и однажды уже реально применялась.
          2)Я сказал, что 1 гарантийный случай по замене всего сервера целиком. Разумеется, проблемы с рейд-контроллерами и дисками возникают чаще.
          3)Тесты производятся все же не на самосборном железе, а на сервере, который уже тестировался на конвейере и побывал в термокамерах. Соответственно, на брак производства основных узлов он уже проверен и нам просто нужно убедиться, что они по-прежнему работоспособны и работают на прежнем уровне.
          4)Тот же Memtest запускается для того, чтобы сразу исключить неработоспособную память, которую добавили в сервер уже после выпуска с завода (продавец или сам владелец). Или память, которую малость повредили статикой или попортили как-то иначе.
          • 27 октября 2016 в 12:03

            0

            Окей, процент RMA вы рассказывать стесняетесь, по крайней мере публично :) Вообще, если хотите — можем в личное общение уйти. Мне действительно любопытно еще кое-какие вещи узнать — например, сколько времени оператора уходит на тестирование сервера.
            Тесты производятся все же не на самосборном железе

            Пардон, а на чем же еще? Вы именно что меняете все целиком — разбираете все, а потом собираете обратно из компонентов. Памяти ставите столько, сколько заказали, диски — как заказали, контроллер — если заказали и т.д. и т.п. Процессор, соответственно, всю систему охлаждения заново устанавливаете. Все эти шаги подвержены человеческим ошибкам — собственно, зачастую с ними и есть проблемы. И ради этого обычно все и тестируется.
            побывал с термокамерах

            :) Вы еще про «вибростенды» вспомните.
            • 27 октября 2016 в 12:11

              0

              Немного статистики:
              -Около 1200 серверов продано.
              -Произведена 1 полная замена сервера.
              -9 раз меняли планки памяти.
              -3 раза умер вентилятор.
              -1 раз умер парный блок питания и контроллер RAID.

              По дискам информации нет.

              Пардон, а на чем же еще? Вы именно что меняете все целиком — разбираете все, а потом собираете обратно из компонентов.

              Компоненты ставятся все те же и подключаются аналогично. Руки с заземляющими браслетами, все как обычно. Разборкой-чисткой занимается не абы кто, а инженер с соответствующей подготовкой. Разумеется, вероятность повреждения все равно сохраняется — для этого и проводятся тесты, а не просто выдается доукомплектованный сервер.
              :) Вы еще про «вибростенды» вспомните.

              Если вы знаете что-то интересное о внутренних этапах проверки железа на конвейере — расскажите плиз. Думаю, всем будет интересно.
  • 27 октября 2016 в 11:53 (комментарий был изменён)

    –1

    Купил уже 5 серверов у Сервер Молла. Полностью доволен качеством и поддержкой. Кто еще в ответ на позднее письмо перезвонит в восьмом часу вечера или в выходные ответит в вацапе? Кстати, упаковка действительно стоящая, пока распаковывал последний сервак, пара коллег-рыбаков чуть не подрались из-за этого вспененного полиэтилена. Рассудил по-братски, не отдал никому. Ну и на счет замены комплектующих на более современные, тоже правда. Была задержка поставки на один (один, Карл!) день, так добавили 16 РАМ, как «компенсацию». На самом деле, мне было все равно, день туда, день сюда, но такой сервис приятно удивил. Только тссс, никому, пусть считают, что я очень ждал ;)

© Habrahabr.ru