Дизайн сетей ЦОД. Часть 1: про надежность и связность

3a63e590d66fe671cde2f076b666e476.png

Потребность в обработке информации растет с большой скоростью. Увеличиваются вычислительные мощности, растет пропускная способность каналов связи, появляются новые, требовательные к ресурсам highload приложения — все это выдвигает повышенные требования к мощностям Центров Обработки Данных (ЦОД), и в частности к сетевой инфраструктуре. Но прежде, чем начать рассмотрение различных вариантов дизайна сетей ЦОД, давайте вообще определимся, что же из себя представляет Центр Обработки Данных.

Надежность, как фундамент для ЦОД

Итак, ЦОД это  специализированный объект, представляющий собой связанную систему ИТ-инфраструктуры, инженерной инфраструктуры, оборудование (серверного и сетевого) и части которых размещены в здании или помещении, подключенном к внешним сетям, как инженерным, так и телекоммуникационным. Такое определение нам дает Википедия.

Но на практике под словом ЦОД может пониматься разнообразие различных серверных помещений. У заказчиков приходилось видеть небольшие комнатки с бытовым кондиционированием, которые тоже именовались гордым словом ЦОД. И если брать определение из Википедии, то собственно такие комнатки тоже являются центрами обработки данных.

fc90a478b84a9d3a45388eda8efb355a.png

Поэтому мы немного дополним и детализируем определение. ЦОД это высокотехнологичная площадка, оснащенная специализированными системами кондиционирования, бесперебойного питания, пожаротушения.

Основной характеристикой ЦОД является уровень обеспечения надежности и здесь важно обратить внимание на все факторы, которые могут повлиять на надежность. Обычно, когда говорят про надежность ЦОД, то все вспоминают про обеспечение питания, каналы связи, далее говорят про кондиционирование и пожаротушение. Однако, часто забывают про другие факторы, которые могут повлиять на доступность ресурсов ЦОД, то есть на надежность. Прежде всего это надежность самого здания. Здание должно быть построено должным образом, с учетом требований по прочности перекрытий, также с учетом габаритов оборудования, которая должно в нем размещаться.

Приведу пару примеров для того, чтобы было понятно, о чем идет речь. При размещении серверной стойке в одном ЦОДе-комнатке, о которых мы говорили чуть выше, мы столкнулись с проблемой, когда после подсчета общего веса стойки выяснилось, что перекрытия не рассчитаны на такой вес, и в результате оборудование пришлось перераспределять по другим стойкам.

И другая история, когда в ЦОД одной крупной организации нужно было разместить мейнфрейм, но для того, чтобы доставить это устройство в серверное помещение, его нужно было наклонить, так как иначе оно не пролезало в двери. Все бы ничего, но в мейнфрейм были встроены датчики наклона на батарейках, которые фиксировали наклон больше 8 градусов. И в случае такой фиксации заказчик слетал с поддержки вендора. В результате потребовалось дополнительное участие инженеров вендора в работах для того, чтобы согласовать перемещение.

Все эти истории говорят о том, что при выборе ЦОД необходимо учитывать различные факторы. И продолжая тему надежности поговорим о том, какие уровни надежности ЦОД вообще существуют. По международной классификации Uptime Institute существует 4 уровня надежности ЦОД:

  • Tier I: Basic Capacity (Базовый потенциал, инфраструктура без резервирования).

  • Tier II: Redundant Capacity Components (Дублирование критически важных компонентов, инфраструктура с резервированием).

  • Tier III: Concurrently Maintainable (Инфраструктура с возможностью параллельного ремонта/обслуживания без остановки работы).

  • Tier IV: Fault Tolerant (Отказоустойчивая инфраструктура).

Сразу оговорюсь, здесь речь пойдет только про требования для данных уровней, речи о том, как получить данные сертификаты в текущих условиях вестись не будет. Далее давайте рассмотрим, что из себя представляет каждый из этих уровней более подробно.

Tier I

Первый уровень это инфраструктура начального уровня. В ЦОД, который хочет соответствовать этому уровню, должно быть выделенное под ИТ-оборудование пространство, источники бесперебойного питания, системы охлаждения. Также на случай продолжительных проблем с питанием (несколько часов) должен быть дизельный генератор.

Этот уровень не накладывает никаких дополнительных требований по наличию запасных ресурсов и резервированию. Допустимое время простоя для Tier I составляет 28.8 часов в год, а уровень отказоустойчивости составляет 99.671%. И так как мы не накладываем никаких требований по отказоустойчивости, то важно понимать, что поломка любой из систем для ЦОД уровня Tier I нарушает (или даже останавливает) работу всего объекта.

Во многих организациях даже внутренние серверные превосходят по предоставляемым ресурсам Tier I, так как у них резервирование критических компонентов. И нас следующих уровнях требования к резервированию становятся жестче.

Tier II

На уровне Tier II уже присутствует резервирование критически важных компонентов. Так, активное оборудование (ИБП, дизельгенератор и кондиционирование) резервируется по схеме N+1, присутствует один энерговвод. Допустимое время простая дата-центра, которому присвоен Tier II, — 22 часа в год, а уровень отказоустойчивости, соответственно, — 99.749%.

Этот уровень уже позволяет продолжать работу в случае отказа каких-либо компонентов, однако все работы по ремонту или модернизации будут приводить к полной остановке работы всего ЦОД.

Tier III

В ЦОД уровня Tier III у нас есть возможность ремонта и модернизации оборудования без отключения и остановки работы дата-центра. Основным преимуществом здесь является прозрачность проведения любых работ по профилактике или замене оборудования на объекте. Tier III ЦОД имеет уже два энерговвода, активное оборудование резервируется по схеме N+1, а вот потоки — по 2N. Отказоустойчивость составляет 99.982%, а значит, простой такого дата-центра не превысит 1.6 часа в год.

Также для третьего уровня выдвигаются дополнительные требования, такие как наличие системы контроля доступа, отсутствие оконных проемов, увеличенная несущая способность перекрытий не менее 1225 кг/м2.

По результатам поиска выяснилось, что подавляющее число коммерческих ЦОД в России соответствуют требованиям Tier 3.

Tier IV

И наконец, самый высокий уровень на сегодняшний день. Tier IV представляет собой дата-центр третьего уровня с добавлением концепции отказоустойчивости в топологическую схему. Максимальный показатель доступности это 99.995%. Данный показатель достигается за счет дублированного резервирования инженерных систем (2*(N+1)). Это означает, что дублируются и основные, и дополнительные системы ЦОД и резервные компоненты разнесены по разным помещениям. Допустимое время простоя ЦОД Tier IV составляет всего лишь 26 минут в год.

На сайте Uptime Institute упоминается первый в России ЦОД Технопарк Мордовия, получивший Tier IV. Принципы обеспечения отказоустойчивости в данном ЦОД на примере питания представлены на следующей схеме, также взятой с сайта Uptime Institute.

53427706aed3da1eec84cb974a2d3e9b.png

Также, в новостях проскакивала информация о том, что в России строят другие ЦОД Tier IV, но здесь важно понимать, что использование ЦОД такого уровня оправдано только для систем с повышенными требованиями к надежности, так как размещение оборудования в таком ЦОД будет стоить намного дороже, чем к примеру в ЦОД Tier III.  

Мы довольно много говорили про надежность ЦОД в целом. Такое внимание к данной теме вызвано тем, что без надлежащего обеспечения уровня надежности всех систем обеспечения в ЦОД не стоит и начинать тему построения сетевой архитектуры. Так как например, в случае отключения питания сетевое оборудование не сможет долго работать, а в случае проблем с кондиционированием оно может просто сгореть.

Но перейдем непосредственно к теме дизайна сетей ЦОД. В этой статье мы поговорим об основных требованиях, а в последующих рассмотрим их более детально.

Связность

Термин связность подразумевает наличие каналов связи от ЦОДа до основных площадок обмена трафиком (кстати они тоже являются ЦОДами). Как правило эти каналы представляют собой волоконно-оптические линии связи с достаточно высокой пропускной способностью. Естественно, чем ближе ЦОД находится к этим площадкам, тем меньше задержка сигнала.

Для московского региона основными площадками по обмену трафиком являются М-9 и М-10. Соответственно, при планировании сети ЦОД необходимо прежде всего заложить высокопроизводительные каналы связи до данных площадок.    

Север-Юг-Восток-Запад

Сеть внутри ЦОД должна обеспечивать связанность различных компонентов, таких как серверы, СХД и сетевое оборудование. В следующих статьях мы будем более подробно рассматривать архитектуры этих внутренних сетей, а сейчас я предлагаю рассмотреть некоторые основные понятия.

Начнем с типов трафика, то есть с направлений потоков данных: трафик идущий между внешними клиентами и внутренними узлами и трафик курсирующий только между внутренними узлами. Трафик данных, выходящий из ЦОД во внешнюю систему, находящуюся за пределами ЦОД, называют трафик «Север–Юг» (N-S), а поток данных в пределах сети ЦОД называют трафиком «Восток–Запад» (E-W).

2b62bbc42c5ceace715089311be35d79.png

Очевидно, что трафик типа «Восток–Запад» для владельцев ЦОД бесплатен, в отличие от «Север–Юг», который выходит за пределы ЦОД, поэтому они заинтересованы, в том чтобы как можно больше трафика было именно E-W. В современных дата-центрах доля трафика E-W составляет примерно 80%. Это тоже надо учитывать при проектировании пропускной способности каналов внутренней сети ЦОД.

ЦОДы не существуют «в вакууме», то есть они всегда связаны с другими ЦОДами. Так как для многих серьезных приложений очень критична отказоустойчивость, то их владельцы размещают их в нескольких ЦОДах и настраивают репликацию. Таким, образом, еще одним важным требованием к сетевой архитектуре ЦОД является возможность соединения дата-центров (Data Center Interconnect, DCI). Если по-простому, то DCI-технологии должны обеспечивать на больших расстояниях параметры соединения, аналогичные патчкордам между стойками. Более подробно о DCI мы также поговорим в следующих статьях.

Заключение

В этой статье мы много говорили о надежности, рассмотрели классификацию уровней ЦОД, а также рассмотрели основные требования, которые предъявляются к дизайну сети ЦОД. В следующей статье мы более детально погрузимся в сетевые технологии и рассмотрим различные варианты построения сетевых топологий для ЦОД разных уровней. А прямо сейчас приглашаю вас на бесплатный урок, где рассмотрим технологию ePBR на практике, подключим Firewall и настроим цепочку правил для трафика, а также поэкспериментируем с балансировкой трафика и ePBR.

© Habrahabr.ru