Как делается российское железо для СХД Аэродиск Восток на Эльбрусах

c4qrnayza1rjb2sbgv5q-qs2p1i.jpeg

Всем привет. Как мы и обещали, погружаем читателей Хабра в детали производства российских аппаратных платформ для СХД Аэродиск Восток на процессорах Эльбрус. В этой статье мы пошагово опишем производство платформы Яхонт-УВМ Э124, которая в 5 юнитах эффективно вмещает 124 диска, может работать при температуре +30 градусов по Цельсию и при этом не просто работает, а хорошо работает.

Также 05.06.2020 мы организовываем вебинар, где подробно расскажем о технических нюансах производства СХД Восток и ответим на любые вопросы. Зарегистрироваться на вебинар можно по ссылке: https://aerodisk.promo/webinarnorsi/


Итак, поехали!

Перед тем, как погрузиться в процесс, который организован сейчас, небольшая историческая справка двухгодичной давности. На момент начала разработки описанных в этой статье платформ условия для их производства были, мягко говоря, никакими. На это есть причины, они всем известны: массовое производство (именно производство, а не переклейка наклеек) серверных платформ в России отсутствовало как класс. Были отдельные заводы, которые могли выпускать отдельные компоненты, но при этом очень ограниченно и зачастую на основе устаревших технологий. Поэтому пришлось начинать фактически «с нуля» и заодно поднимать производство серверных решений в России на качественно новый уровень.

soynpj8ca4xf3cc7wjlyxvwehu8.jpeg

Итак, процесс любого производства начинается с потребности, которая потом трансформируется в общие требования. Такие требования изначально формируются разработчиками НОРСИ-ТРАНС в Нижнем Новгороде. Требования, понятно, не из воздуха берутся, а из потребностей заказчиков. Это ещё пока не техническое задание, как может ошибочно показаться. На этапе общих требований сделать полноценное ТЗ невозможно, поскольку слишком много неизвестных условий для производства.


Разработка целевой модели: от идеи к реализации

После того как сформированы общие требования, начинается подбор элементной базы. Из исторической справки следует, что элементной базы не существует, то есть её надо создавать.

Для этого из того, что есть на открытом рынке, собирается пилотный образец, который хоть немного похож на целевой. Далее проводятся стандартные испытания этого образца на предмет его работоспособности. Если все хорошо, то следующим этапом разрабатывается целевая модель (2D и 3D).

fzx83fipiynxqfr1ejaajogocli.jpeg

pdpabjujrimp59h7vqugdcpyuhu.jpeg

Затем начинается поиск российских предприятий, готовых начать производство данного пилота Разработчики выполняют необходимую доработку каждого из элементов изделия, исходя из возможностей того или иного предприятия.

В ходе проектирования выполняется необходимая доработка каждого из элементов изделия. К примеру, в процессе работы с опытным образцом были использованы классические 12G SAS-экспандеры с большим количеством проводов (с очень большим, учитывая количество дисков). Это недёшево, неудобно для конкретно этой платформы, и к тому же экспандеры вражеские зарубежные. Но это временное решение для того, чтобы испытать образец в целом и перейти к следующему этапу. Однако для финальной версии в конкретной серверной платформе использовать SAS-экспандеры не годится.


Не нужны нам вражеские экспандеры, мы сделаем свой бэкплэйн с блэк-джеком и ш…хами

Учитывая будущие планы по объемам производства (тысячи серверов), было принято решение разработать для этого изделия (и само собой, для следующих) свой SAS-бэкплэйн, который значительно функциональнее экспандера применительно к этому решению. Дизайн и программирование бэкплэйна выполняется той же командой разработчиков, а производство плат выполняется на заводе «Микролит» в Московской области (про этот завод и про то, как там печатают материнки для процессоров Эльбрус, обещаем отдельную статью).

Вот, кстати, его первый опытный образец, сейчас он уже выглядит совсем по-другому.

wxcf6ugdmkghlxwmhhfdsz-2ugm.jpeg

А тут занимаются его программированием

or1yxwpm7rz4a-djcdpsetaczc4.jpeg

Интересный факт: когда была начата разработка бэкплэйна, и проектировщики обратились к разработчику чипа SAS3 за референсным дизайном платы, то оказалось, что в Европе ни одна компания не умеет разрабатывать свои бэкплэйны. Раньше существовало совместное предприятие Fujitsu-Siemens, но после выхода Siemens Nixdorf Informations systeme AG из совместного предприятия и полного закрытия компьютерного направления в Siemens, компетенции в этой области в Европе были утеряны.

Поэтому разработчик чипа первоначально не сразу серьезно отнёсся к разработкам НОРСИ-ТРАНС, отчего были задержки в разработке окончательного дизайна. Правда позже, когда серьезность намерений и компетенции компании НОРСИ-ТРАНС стали очевидны, а также бэкплейн был разработан и напечатан, его отношение изменилось в лучшую сторону.


Как охладить 124 диска и сервер в 5 юнитах, и остаться в живых?

Отдельный квест был с питанием и охлаждением. Дело в том, что, исходя из требований, платформа Э124 должна работать при температуре 30 градусов по Цельсию, а там, на минуточку, 124 хорошо греющихся механических диска в 5 юнитах и к тому же материнская плата с процессором (т.е. это не глупый JBOD, а полноценный контроллер системы хранения с дисками).

Для охлаждения (кроме маленьких вентиляторов внутри) в итоге решили использовать сразу три довольно больших вентилятора в задней части корпуса с возможностью горячей замены каждого. Для нормальной работы системе достаточно двух (температура не меняется совсем), поэтому можно спокойно планировать работы по замене вентиляторов и не думать о температуре. Если же отключить два вентилятора (к примеру, по закону подлости, пока меняли один, сломался второй), то с одним вентилятором система также способна нормально работать, но температура увеличится на 10-20% процентов, что допустимо при условии установки как минимум ещё одного вентилятора в ближайшее время.

Вентиляторы (как и почти все остальное) тоже оказались уникальны. Причиной уникальности стала одна издержка. В определенных условиях может случиться так, что вентиляторы вместо того, чтобы высасывать воздух, продувая весь корпус изнутри, могут начать его всасывать, и тогда «давай до свидания», то есть платформа быстро перегреется. Поэтому для того, чтобы не допустить такой проблемы, в проект вентилятора внесли изменения и добавили свое «ноу-хау» — обратный клапан. Этот обратный клапан спокойно позволяет высасывать воздух из платформы, но при этом блокирует саму возможность всасывания воздуха обратно при любых вариантах.

На этапе пилотирования системы охлаждения было много неудач, грелись и горели различные элементы системы, но в итоге разработчикам платформы удалось добиться лучшего охлаждения, чем даже у известных на весь мир конкурентов.

5nj3onvcxegmpra8flidtknjxha.jpeg


«Режим питания нарушать нельзя».

С блоками питания была похожая история, т.е. сделаны они были конкретно под эту платформу и причина тут банальна. Каждый юнит – это большие деньги, именно поэтому разрабатывалась именно такая сверхплотная платформа и, если я не ошибаюсь (поправьте в комментариях если ошибаюсь), пока это мировой рекорд, т.к. серверов и JBOD-ов с большим количеством дисков на 5 юнитов пока нет.

Таким образом, чтобы обеспечить электропитание платформы и одновременно организовать возможность замены блока питания в штатном режиме суммарная мощность активных блоков должна была быть 4 киловатта (на рынке, понятно, таких решений нет), поэтому их делали на заказ с запуском производственной линии для серийного производства (напомню, в планах тысячи таких серверов).

Как выразился один из главных проектировщиков платформы «Здесь такие токи, как в сварочном аппарате — сотни ампер, это вам не хухры-мухры :-)»

gpiowmoo_xh-dj9j0dtcwex-zm8.jpeg

При проектировании также была предусмотрена возможность работы блока питания не только на 220V, но и 48V, т.е. в архитектуре OPC, что сейчас очень актуально для операторов связи и крупных ЦОД-ов.

В итоге решение с электропитанием повторяет логику решения с охлаждением, платформа может комфортно работать при двух блоках питания, что позволяет в штатном режиме выполнять работы по их замене. Если в случае аварии из трех БП останется один, он в пиковой нагрузке сможет вытянуть работу платформы, но, само собой, надолго оставлять платформу в таком виде нельзя.

3342rkmabo3811cmwlcaqjledak.jpeg

Нюансов в процессе разработки платформы возникает много. Похожая ситуация была не только с электронными компонентами (райзерами, бэкплейном, материнскими платами и пр.), но и с обычным металлом и пластиком: например, с корпусом, рельсами и даже с каретками для дисков.

С корпусом и другими менее умными элементами платформы, казалось бы, проблем быть не должно. Но на практике все иначе. Когда разработчики платформы впервые обратились к различным российским заводам с потребностью в производстве, оказалось, что большая часть из них работает достаточно несовременными методами, что в итоге сказывается и на качестве, и на количестве изделий.

Первые же результаты производства корпусов стали тому подтверждением. Неправильная геометрия, грубые сварочные швы, неточные отверстия и подобные издержки делали изделие непригодным для эксплуатации.

Большинство заводов, которые могли делать серверные корпуса, работали тогда (напомню, что под «тогда» подразумевается 2 года назад) «по старинке», то есть выпускалась куча конструкторской документации, в соответствии с ней оператор вручную корректировал работу станков, также часто вместо клепок использовалась сварка металла. В итоге низкая степень автоматизации, человеческий фактор и излишняя забюрократизированность производства дали свои плоды. Получалось долго, плохо и дорого.

Надо отдать должное заводам: многие из них с того времени сильно осовременили свое производство. Улучшили качество сварки, освоили клепку, а также часто стали использовать станки с числовым программным управлением (ЧПУ). Теперь вместо тонны документов данные об изделии загружаются напрямую из 3Д и 2Д моделей в ЧПУ.

ЧПУ сводит вмешательства оператора станка в процесс изготовления изделия к минимуму, поэтому человеческий фактор уже жить не мешает. Главной заботой оператора являются, в основном, подготовительные и заключительные операции: установка и снятие изделия, наладка инструментов и т.п.

Случаи появления новых деталей уже не вводят производство в ступор, для их изготовления достаточно внести изменения в программное обеспечение ЧПУ. Соответственно, срок производства деталей по новым проектам у заводов сократился с месяцев до недель, что не может не радовать. Ну и, конечно, точность также сильно возросла.


Материнские платы и процессор: без приключений

Процессоры и материнские платы приходят комплектом с завода. Это производство уже довольно хорошо налажено, поэтому в НОРСИ осуществляется стандартный входной контроль и выходной на уровне готовых платформ.

9l_pw-grogs7cxw4tcobic211oo.jpeg

Каждый комплект материнской платы и процессора проверяется программными средствами, полученными от МЦСТ.

mlnhtr6mvi6x5pateh_8flwkq9y.jpeg

5ljsw_wd98igxrpma8atkbt8-dm.jpeg

nqazc2horwlsflipjss-xqudtfm.jpeg

kbzldy3p8s8zbhup7rnunbkfu_4.jpeg

jm9wj68exqh7zobj0acylvlxcra.jpeg

В случае тех или иных проблем (слава богу, с материнской платой и процессором их очень мало) работает отлаженная цепочка возврата модулей производителю и их замены.


Сборка и выходной контроль

Чтобы наша балалайка начала играть, её осталось собрать и протестировать. Сейчас производство поставлено на поток, система собирается стандартным образом в Москве.

wulipobtufmvabamiapdvczz8za.jpeg

Каждая система оснащается загрузочными SSD-дисками (для ОС) и полностью заполняется шпинделями (для будущих данных).

9tdgcvvxztujp1bpkrlrs_ujmri.jpeg

После этого начинается входное тестирование и самой платформы, и поставленных в неё дисков. Для этого все диски системы как минимум на час нагружают авто-тестами.

j0cicisfqffeexxdymbgypa7cta.jpeg

Выполняется автоматическое чтение и запись на каждый диск, фиксируются показатели скорости чтения, записи и температуры каждого диска. В нормальном режиме средняя температура должна быть в районе 30-35 градусов по Цельсию. В пиках каждый в отдельности диск может «подпрыгивать» до 40 градусов. Если температура становится выше или скорость опускается ниже пороговых значения чтения\записи, диск «краснеет» и не проходит отбраковку. Прошедшие же испытания компоненты упаковываются для дальнейшей эксплуатации.

gav_mxvpuvebhrls82shufnr_fw.jpeg


Заключение

Есть такой миф, который активно поддерживается разными деятелями о том, что «в России ничего не умеют, кроме как нефть качать». К сожалению этот миф въедается в головы даже уважаемым и умным людям.

Недавно с моим коллегой произошла примечательная история. Он ехал с одного из показов СХД Восток и в багажнике его машины как раз лежала эта СХД (не Э124, конечно, попроще). По дороге он захватил одного из представителей заказчика (очень важный человек, работает на высокой должности в одной из гос. структур), и в машине у них произошёл примерно следующий разговор:

Мой коллега: «Сейчас показывали СХД на Эльбрусе, результаты хорошие, все довольны были, для вашей отрасли, кстати, тоже эта СХД будет полезна»

Заказчик: «То, что СХД у вас есть – знаю, но какой ещё Эльбрус, ты о чем?»

Мой коллега: «Ну как… российский процессор Эльбрус, вот недавно выпустили 8-ку, она по показателям для СХД вполне хороша, мы, соответственно, на ней сделали новую линейку СХД, назвали Восток»

Заказчик: «Эльбрус – это гора! А сказки про российский процессор ты в приличном обществе не озвучивай, это все делается, только чтобы бюджеты осваивать, на деле ничего нет и не будет»

Мой коллега: «В смысле? А ничего, что именно эта СХД у меня в багажнике лежит? Давай прямо сейчас остановимся, я тебе покажу!»

Заказчик: «Хорош ерундой страдать, едем дальше, не бывает «российских СХД» — это в принципе невозможно»

Больше в тот момент важный человек слышать про Эльбрус ничего не хотел. Конечно, позже, когда он уточнил информацию, то признал, что был не прав, но все равно до последнего не верил в правдивость этой информации.

По факту после развала СССР наша страна фактически остановилась в развитии производства микроэлектроники. Что-то было вывезено\украдено в пользу транснациональных корпораций, что-то разворовано местной приватизационной компашкой, что-то, конечно, было проинвестировано, но, в основном, в пользу тех же транснациональных корпораций. Дерево срезали, но корень остался.

После почти 30 лет иллюзий на тему «запад нам поможет», уже почти всем стало очевидно, что помочь мы можем только сами себе, поэтому нужно восстанавливать свое производство не только в области микроэлектроники, но и повсеместно во всех отраслях промышленности.

На текущий момент в условиях глобальной пандемии в ситуации фактической остановки транснациональных производственных цепочек уже становится понятно, что восстановление локального производства — это уже не освоение бюджетов, а условие выживания России как самостоятельного государства.

Поэтому мы будем продолжать искать и использовать в жизни российское оборудование и рассказывать вам о том, что на самом деле делают компании у нас, с какими проблемами они сталкиваются и какие титанические усилия прикладывают, чтобы их решать.

В рамках одной статьи довольно сложно рассказать обо всех аспектах производства, поэтому в качестве бонуса мы организуем онлайн-дискуссию в формате вебинара по этой теме. На этом вебинаре мы детально и в красках расскажем о технических аспектах производства платформ Яхонт для СХД Восток и в онлайн-режиме ответим на все, даже самые каверзные вопросы.

Нашим собеседником будет представитель разработчика платформ, компании НОРСИ-ТРАНС. Вебинар состоится 05.06.2020, желающие поучаствовать могут зарегистрироваться по ссылке: https://aerodisk.promo/webinarnorsi/ .

Всем спасибо, как обычно, ждем конструктивных комментариев.

© Habrahabr.ru