Мелкая логистика маленького дата-центра

image-loader.svg
Печатаем адаптеры для SSD с 2,5 на 3,5 дюйма, потому что в продаже их нет

Значит, салазки. Давным-давно мы стояли в ЦОДе на Ярославском шоссе, том самом, что был на месте станции МЦК. Собственно, он в какой-то момент накрылся этой самой станцией, и нам нужно было куда-то уезжать. Тогда у нас была первая партия хуавеевских серверов, 20 штук. И вот у них в поставке идёт сам сервер и отдельно салазки для него за 150 долларов. А у нас стойки с уголками уже, то есть салазки не нужны. Мы просим менеджера их из счёта убрать, он убирает. 3 тысячи долларов экономии, круто, да? На самом деле реально круто, как нам тогда казалось. Деньги для начинающей компании вполне значимые.

В общем, счастливы мы были до переезда. Потому что купили новые стойки. А они не подразумевали уголков в принципе, сразу нужен был нормальный монтаж в салазки. А салазок-то ни у кого нет. Вообще. Даже у вендора нет. Они по какой-то странной причине продают их только вместе с серверами. В общем, уговорили со следующей партией железа каждый сервер укомплектовать двумя комплектами. Причём несколько разных людей пытались нам помочь и сказать, что салазки ломаются редко, и они убрали из заказа лишние…

В момент тотальной замены HDD на SSD снова понадобились новые салазки. На этот раз мы прочёсывали все радиорынки, все склады Савёловской и все объявления на Авито. Но это как с ремешками от дорогих часов: если продаётся, значит, владелец свои часы утопил. Нужно было найти много людей, утопивших свои серверы. В некоторых случаях даже думали покупать совсем старые списанные серверы с салазками в комплекте, потому что там они хотя бы были в сборе.

Давайте расскажу, что потребляет наш ЦОД в Королёве из мелочей.

Теперь патч-корды. Они — самый частый расходник, судя по статистике закупок. На самом деле, конечно, они никакой не расходник, а элемент инфраструктуры. Поскольку рынок VDS растёт, а мы растём быстрее рынка, абсолютная норма для бизнеса — каждый год сильно увеличивать инфраструктуру. Речь про 30% роста примерно каждый год. А каждый раз, когда растёт количество железа, нужны патч-корды. В первом ЦОДе (который как раз на станции большого кольца) половину патч-кордов мы вообще вручную делали, фирменные-то, конечно, уже приезжают заплавленные. По мере роста инфраструктуры доля обжаты вручную становилась всё меньше, но служат они достаточно долго. Хотя вторая статья расхода патч-кордов — это расшатывание гнёзд, после нескольких втыканий-вытыканий их, бывает, нужно менять. Не потому что они как-то плохо проводят, а потому что если чувствуются люфты, лучше поменять дешёвый расходник на всякий случай, чем потом ловить разные плавающие баги.

Патч-корды мы закупаем 6-й категории, почти все типовые по 3 метра. Раньше экспериментировали с тем, чтобы брать разной длины с разницей в 20 сантиметров и использовать по месту, но потом пришли к тому, что лучше сделать петли, чем при вытаскивании-затаскивании сервера пытаться всё отключить и подключить. Петли, конечно, создают не совсем аккуратную картинку, но бардака не вызывают. Для ряда специфических целей сейчас ещё заказываем 10-метровые, они иногда нужны.

Пару раз докупали оптические пигтейлы. Они нужны для объединения свитчей в стек. Кстати, свитчи раз в год выходят из строя, но благодаря резервированию (минимум два устройства на сервер: из своей стоки и из соседней) этого никто не замечает.

Вторые по расходу — диски. Диски прямо ходовой товар. Как я уже рассказывал, мы имеем гарантию next business day от вендора, но диски всегда держим на каждой площадке в запасе, чтобы поменять сразу средствами ЦОДа. Есть мнение, что диски, бывает, летят сразу пачками, потому что если они из одинаковых серий и одинаково эксплуатируются, то карачун им приходит тоже в одинаковое время. На практике было всего два случая за последние лет пять, когда диски умирали не по одному: один раз погибло сразу 3 SAS-диска Seagate (тогда ещё были HDD). Мы считали, что это из-за рассохшегося пластика вентилятора и передающихся на диски вибраций, но было и альтернативное мнение, что там была убита вся партия, и несколько дисков попали в один сервер. Про это история вот здесь в посте про ЦОД в Королёве.

С другой стороны, диски действительно умирают в похожее время. Только эта разница между вылетами ближе к двум-трём неделям. То есть умер один диск, поменяли, RAID отребилдился, через две недели умирает второй диск, RAID опять ребилдится, и дальше остальные в сервере той же серии живут годами.

Контроллеры, как говорят, обычно не умирают, но у нас случаи были. За последние годы помню пару таких случаев. Один просто достали наглухо мёртвый. Что с ним было — так и не поняли. Вообще они постоянно горячие, возможно, если набрать какое-то количество температурных переходов при неравномерной нагрузке, что-то в металлах может устать. Но это не точно)

Оперативка умирает чаще контроллеров, но сильно реже дисков.

Батарейки умирают совсем редко, но мы их держим.

Из совсем экзотики в какой-то момент нам понадобились экспандеры для видеокарт. Это удлинители, которые позволяют установить видеокарту чуть дальше от того места, в которое планировал производитель. Потому что слот в материнской плате сервера может и есть, но современные видеокарты имеют довольно большой геометрический размер, и могут внутрь сервера просто не поместиться. Поскольку корпоративный сервер никто не проектировал как игровой компьютер, видеокарта в нём далеко не главное. В самосборе проще, но мы только на корпоративном железе.

Мы предлагали линейку VDS с нормальным железом для специфических расчётов, и карты были нужны. Дальше оказалось, что отдельно экспандер купить либо нельзя, либо очень дорого, и настолько дорого, что лучше нельзя. Причём это касается и Хуавея, и Леново. Но выход нашёлся: в комплекте с новым сервером экспандер стоит нормальных денег. Чуть потерпели до следующей партии, заказали 8 серверов и 8 экспандеров. Но попросили не ставить их, а положить отдельно. Вендор, конечно, спросил, почему. Потому что загадочная русская душа.

Кабель для внешних коммуникаций с заезда почти не трогали. От серверной до входных лучей и оптики у нас лежит инфраструктура, которая почти не требует каких-то касаний. Из крупного — был обрыв кабеля, там долго думали, где же диагностировать, пока не разобрались. На заводе решили выкопать что-то, и по старой айтишной традиции экскаватор перебил кабель. Проблема была не столько в самом обрыве, сколько в долгом ребилде маршрутов туда и обратно. Но бегали все по территории весело. Второй обрыв был уже в Швейцарии, ещё в старом ЦОДе (откуда мы уехали). Там ремонтировали железную дорогу около небольшого городка. Оптика у них идёт чуть сбоку от шпал и на глубине около метра. В общем, в один из пакетов трафика попала свая. Поскольку диаметр сваи сильно превышал диаметр оптики, а в этой трассе ещё было и всё остальное инфраструктурное для города, у них оторвало даже телефонную связь. Что доставило нам пару часов волнений с поисками проблемы на нашей стороне. Кстати, когда мы обладаем полной информацией о проблеме, то оповещаем клиентов через личный кабинет и IVR, а когда ещё не знаем, что случилось, как тогда, то ставим уведомление, что проблема есть, мы её ищем. Пока не получим полную информацию о сроках, клиентам ничего не обещаем. Предположения не считаются.

Вот примерно так выглядят будни маленького ЦОДа.

image-loader.svg

© Habrahabr.ru