Решение Therascale OCS

В предыдущем материале про Open Compute Project мы рассказали о инициативе Facebook по распространению открытой платформы для построения гипер-ЦОД. Идея проста — существующие решения для эксплуатации пригодны мало, нужно создать то, что подойдет именно тебе.В своем блоге Microsoft много рассказывает, как использовать облачный сервис Azure, построенный на их инфраструктуре. Инфраструктура, как оказалось, тоже разработана «с нуля» под видение Microsoft.

Процесс публикации своей платформы оказался заразным, к инициативе присоединилась компания Microsoft и поделилась своим видением оптимальной инфраструктуры, а мы расскажем об этом подробно.

e11d5fc667116b1b05335659497ec8eb.jpg

Основные особенности

Ширина стандартная, 19 дюймов. Шасси высотой 12U. Единая система охлаждения и питания. Единая система управления серверами. Все обслуживание не затрагивает кабельное хозяйство (если только проблема не в коммутаторе). Используются стандартные PDU. Блоки питания совпадают с нашей стоечной линейкой по форм-фактору. 38b16a46a3b256e41ee578bd01fe4ab5.jpgВид полной стойки

Подробно про архитектуру

bb2fdb2e9f8c1d8f564272bc3a970b91.jpgСтруктура

Шасси — корыто сложной формы, в которое устанавливаются корзины с универсальными объединительными платами для серверов и дисковых полок, плата распределения питания, блоки питания, контроллер удаленного управления и стена текста вентиляторов.

739c6d00e823b67181aa7e12d6c8c959.jpgВид сзади

Шесть больших вентиляторов (140×140*38) объединены в единый блок на откидной дверце, управление идет с контроллера шасси. Дверца закрывает порты ввода-вывода и пространство для кабелей, где проложены специальные каналы для аккуратной разводки и монтажа.

585a335f70adcd38d4891713c899c88c.jpg

Microsoft использует стандартные 19» стойки высотой 50U, из которых 48U заняты непосредственно серверами, а еще 2U выделены для коммутаторов. Блоки питания и PDU расположены с одной стороны стойки и не занимают, в отличие от OCP, места.

af1045582e95856ef6d15c6c8a4c9248.jpg

В каждом шасси встроен сервисный модуль (о нем подробней позже) и расположены 6 блоков питания (точно таких же, как в наших моделях RS130 G4, RS230 G4) по схеме 5+1.

23a2cc93ecf7b5be1ac8df241be3042c.jpgВид корзины сзади

Хорошая идея — вне зависимости от используемых модулей, набор портов на корзине одинаков. Всегда выведены два SAS порта, два порта SFP+ и два порта RJ45, а что к ним будет подключено со второй стороны — определяется на месте.

Сравнение форматов

Open Rack Open CloudServer Обычная стойка 19» Внутренняя ширина 21» 19» 19» Высота стойки 2100 мм (41 OU) 48–52U, 12U/Chassis 42–48U OU/RU OU (48 мм) RU (44.45 мм) RU (44.45 мм) Охлаждение В системе (HS/Fixed) Стена вентиляторов (6 штук) В системе Размер вентилятора 60 мм 140 мм Варьируется Силовая шина 3 пары — — Силовые зоны/бюджет 3, бюджет до 36 кВт 4, бюджет до 28 кВт — Силовая полка Спереди Сзади — Размер силовой полки 3 OU 0 U 0 U Встроенный ИБП Да Да (скоро будет) Нет (но поставить любой никто не мешает) Управление стойкой Да, RMC (но не стойкой целиком) Да, CM — Идентицификация лезвия (Sled ID) Нет Да (в шасси) Нет Кабели Спереди Сзади Спереди или сзади Эффективность системы охлаждения

Полное потребление системы 7200 Вт (24 лезвия x 300 Вт) Внешняя температура (°C) Скорость вентиляторов (%) Потребление вентилятора (Вт) Потребление вентиляторов (Вт) Процент потребления от стойки (%) 25 66 19,2 115,2 1,6 35 93 40,2 241,2 3,35 Система управления

465a5253bf38fcc05d988c41d7b96dca.jpgChassis manager

Сервер управления вставляется и извлекается «на горячую», программная часть построена (что не удивительно) на Windows Server 2012. Исходный код доступен для широкой публики и каждый может внести свои правки (инструментарий используется бесплатный).

43ba625e348a25180acbf2df11a2184a.jpgобщая идея

e2819f9ddabbc790345147f9fb343396.jpgНепосредственно плата

Функционал:

Input/Output (I/O): — 2×1GbE Ethernet (для доступа к сети или управления коммутаторами ToR)— 4 x RS-232 (Подключение к коммутаторам для управления их загрузкой)— Управление питанием (один вход, три выхода для подключения PDU или другого CMM) Windows Server 2012 Горячая замена модуля Железо: — Встроенный процессор Atom S1200— 4GB памяти с ECC— 64GB SSD TPM модуль как опция Встроенные мультиплексоры для коммуникаций с лезвиями Управление питанием лезвий выведено отдельно (так надежней) ec6aed7a7fd67ad55a843ea29d4a25f0.jpgРазводка шин

32f8368d65f63dee1e32788a607634bd.jpgКак это проходит через разъемы

Не забыта и программная часть:

8c82ec90af58c4cbde3cffee583f1f68.jpgЛогическая схема

Out-of-Band часть

CM имеет REST-подобное API и командную строку CLI для масштабирования системы управления Fan Control/Monitor PSU Control/Monitor Chassis Power Management ON/OFF/Reset Serial Console Redirect Blade Identify LED TOR Power Control ON/OFF/Reset Power Capping In-Band часть

BMC лезвия работает со стандартным IPMI over KCS интерфейсом Windows — WMI-IPMI Linux — IPMItool Идентификация, Chassis Power, Event Logging, Temperature Monitor, Power Management, Power Capping, мониторинг HDD и SSD. Facebook полагается на возможности Intel ME, Microsoft пользуется ставшим уже привычнымIPMI с помощью BMC.

Лезвия

b6c800d598c5eed81755ecd884569e91.jpg

Разработаны два типа лезвий, одно с сервером, другое JBOD на 10 дисков.

d1de07a0ed4bdf9468927f4015db734b.jpgВозможные комбинации

Комбинировать, само собой, можно как угодно — хоть два сервера, хоть оба JBOD’ы.

788aa9a2bfaa2d8e1c1f33f8aec87ff0.jpgКабели остаются на месте

Кабели подключаются к бэкплейну, поэтому для замены лезвия достаточно просто извлечь корзину (существенное отличие от OCP). Такой подход снижает время на обслуживание и устраняет возможную ошибку при переподключении кабелей.

Спецификация OCS сервер Процессор 2x Intel Xeon E5–2400 v2 на узел, до 115 Вт Набор микросхем Intel C602 Память 12 DDR3 800/1066/1333/1600 ECC UDIMM/ RDIMM/ LRDIMM слотов на сервер Диски 4 3.5» SATA на сервер Слоты расширения [options=«compact»] * 1 PCIe x16 G3 * SAS mezz * 10G mezz Управление BMC-lite, подключенный к Chassis Manager с помощью шины I2C f5a03dedb882e133f196cd4a1bd2da1d.jpg

Слот PCIe предназначен для вполне определенной цели — использование PCIe Flash карт.

137610fa9676f24ca76c88932398a4ab.jpgТак разведены mezzanine платы

Спецификация OCS JBOD Контроллеры 1 SAS Interface Module (SIM) Внешние порты 2 6Gb/s mini-SAS порта Диски 10 3.5» SAS/SATA с горячей заменой всей корзины Управление SCSI Enclosure Service (SES-2) 26ebd0ae4ca968167dd50e3e166c4fc5.jpgДисковая полка

Сетевая инфраструктура

Все сетевые подключения — 10G, гигабит используется только для управления и то не везде. Важный момент — Microsoft крайне активно работает над популяризацией Software Defined Networking (SDN) технологий, их собственные сервисы основаны на программно- конфигурируемых сетях.

Не зря на прошлом Ethernet Summit их продукт для мониторинга SDN сетей, DEMon, получил шесть наград из шести возможных, а компания числится в списке платиновых спонсоров OpenDaylight.

Заодно напоминаем, что у нас давно объявлен продукт для гибридных сетей с поддержкой SDN — коммутатор Eos 410i со стоимостью порта ниже $100:)

90d0025826590ce38cb98249ed013e34.jpg

Итого

Крупнейшие компании индустрии полагаются на Software Defined Datacenter и Microsoft не исключение. Развитие Ethernet технологий привело к тому, что 10G и RDMA (используется RDMA over Converged Ethernet, RoCE) позволяют обойтись без отдельной FC сети (о приросте от RDMA говорилось здесь: habrahabr.ru/company/etegro/blog/213911/) без потери в производительности. Возможности Windows Storage Spaces таковы, что аппаратные СХД постепенно заменяются решениями на Shared DAS/SAS сетях (подробно писалось тут habrahabr.ru/company/etegro/blog/215333/ и тут habrahabr.ru/company/ etegro/blog/220613/).

Преимущества по версии MS: Дизайн на основе шасси снижает стоимость и энергопотребление

Стандартная стойка EIA 19» Модульный дизайн упрощает развертывание: монтируемые боковины, 1U корзины, блоки питания высокой эффективности, большие вентиляторы для эффективного управления, плата управления с горячей заменой До 24 серверов в шасси, опционально JBOD полки Оптимизировано для контрактного производства Снижение расходов до 40% и на 15% лучшая энергоэффективность по сравнению с традиционными enterprise серверами Ожидаемая экономия 10,000 тонн металла на каждый миллион серверов (тут явно загнули, 10 Кг на один сервер многовато) Все сигнальные и силовые линии передаются через фиксированные разъемыРазделение сервера и шасси упрощает развертывание и восстановление Дизайн «без кабелей» уменьшает возможность человеческой ошибки при обслуживании Снижение числа инцидентов, вызванных неплотно закрепленными кабелями Снижение времени развертывания и обслуживания достигает 50% Сетевые и SAS кабели на едином бэкплейнеПассивная печатная плата упрощает дизайн и снижает риск потери целостности сигнала Поддерживаются различные типы сети и кабелей, 10/40G Ethernet и медные/оптические кабели Кабели разводятся по шасси один раз, при сборке Кабели не трогаются при работе и обслуживании Экономятся сотни километров кабелей на каждом миллионе серверов Безопасная и масштабируемая система управленияСервер в каждом шасси Несколько уровней защиты: TPM при загрузке, SSL транспорт для команд, аутентификация на основе ролей из AD REST API и CLI для масштабирования системы управления На 75% удобней в работе по сравнению с обычными серверами Вывод

Состоялось изобретение очередной инкарнации блейдов. Ключевое отличие от остальных— полностью открытые спецификации платформы и использование стандартных сетевых коммутаторов. В традиционных блейдах от известного круга компаний выбор сетевой части ограничен фантазией разработчиков, в открытом решении можно использовать любой из существующих продуктов, от б/у Джунипера до SDN коммутаторов собственной разработки.

Ну, а мы представили решение на базе Open CloudServer в линейке продукции.

734e759bfb31e6d3e26b88708d9774e4.jpg

© Habrahabr.ru