Смотрим на красивое – мощь от дяди Хуанга, Nvidia HGX H100 в Нидерландах09.08.2024 17:30

Дженсон Хуанг и HGX H100

Привет Хабр! Вспомните как начался ваш путь в IT и первая тяга к технологиям? Скорее всего так или иначе вы либо сами собирали свои первые компьютеры, кропотливо подбирая железо в ограниченном бюджете. Или же наоборот, всё мечтали, что когда-нибудь вам подарят или вы уже сами заработаете на заветный апгрейд вашего Царь-ПК. И когда этот момент настал, какая радость и эйфория на вас накатывала от вида заветной новой железки. От шелеста пластика упаковки, от запаха свежего текстолита и вот пробравшись через все слои защиты из разноцветного картона и пенопласта — она, новая видеокарта. А затем спустя годы процесс повторялся снова и снова, уже и игры не так радуют, а желание всегда сидеть за компьютером обернулось рутинной работой в опен-спейс офисе. Но одно осталось неизменным — новое железо всё также радует сердце уже давно как повзрослевшего ПК-боярина.

И знаете что? Эмоций ничуть не меньше и когда ты облачный провайдер, а в ЦОД пришло долгожданное обновление, с пылу с жару от дяди Хуанга! Но об этом, поговорим уже ниже в посте.

Праздник к нам приходит

* Заветная посылочка прибыла в Нидерландский офис.

Столь радующая глаз сисадминов ITGLOBAL.COM, а также всех причастных к закупке и доставке оборудования, увесистая коробочка с сюрпризом, на деревянном поддоне. Мучительное ожидание о её прибытии уже давно как позади, все формальности пройдены, так и хочется уже приступить к распаковке, а недоумевающие коллеги внезапно заставшие процесс вас только раззадоривают. Но приходится сдерживать себя и не сорваться, в конце концов, для маркетинга ещё фото нужно сделать, а иначе откуда бы для этой статьи фото взялись?

А вот и первый рубеж пройден, но от того напряжение не меньше, а только больше. Ведь встречает нас пока ещё не заветный новый сервер, а комплектующие ему. Направляющие для крепления в стойках, провода и прочая полезная, но не столь интересная мелочёвка, в отличие от ожидающего нас основного блюда. Так что продолжаем погружение вглубь картона с пенопластом, отделяющих нас от заветной цели.

Ну наконец-то, дождались!

Вот и наш красавец, Dell PowerEdge XE9680, внутри себя несущий за основу платформу NVIDIA HGX H100, не путать с DGX H100, хотя и там, начинка схожая. Разница между этими платформами примерно такая же как и у референсной линейки видеокарт Founders Edition и от OEM-производителей — ASUS, MSI, Gigabyte и т.д. DGX — это готовая, референсная платформа от самой NVIDIA, а HGX — платформа для OEM-производителей, в нашем случае это Dell, делающих на её основе свои сервера.

Предназначение впрочем, и у HGX и у DGX одно и то же — для дата-центров с уклоном на ускорение задач связанных с работой ИИ — нейронки тренировать, нейронки крутить, loss (функция потерь) в градиенте снижать. Всё как обычно в общем-то. Так-то никто и не мешает делать любые другие задачи хорошо себя чувствующие от аппаратного ускорения от GPU, их тут благо в достатке — аж 8 штук NVIDIA H100. Но всё остальное от 3D графики до Облачного гейминга, который не то жив, не то мёртв как-то не в моде. Крипта ушла в сторону PoS (Proof of Stake), либо крутится на своих специальных ASIC, оставив в покое геймеров, которым больше не требуется сражаться на смерть с майнерами за видеокарты, а также накопители памяти.

К слову, а помните те мрачные времена, когда видеокарт на всех вроде бы не хватало из-за бума майнинга, пока PoW (Proof of Work) с алгоритмами эффективно работающими на GPU, был популярен? Бум закончился и внезапно оказалось, что склады забиты видеокартами, на которых спроса меньше, чем предложения, но да ладно. Куда интереснее, что в мае 2020, дядя Дженсон Хуанг показал нам свежеиспечёного старшего брата нашего сервера, NVIDIA DGX A100 — самая большая видеокарта в мире на тот момент. Но если быть более точными, 8 видеокарт NVIDIA A100.
Интересно, как далеко ушёл прогресс за всего-то 4 года? Ответ и так очевиден, но от того не меньше завораживает, как былые левиафаны с казалось бы титанической производительностью, столь скоро кажутся пигмеями в тени более свежих моделей.

Для наглядности сравнения, пожалуй сначала вытащим модуль с видеокартами. Просьба убрать чувствительных людей от экрана, созерцание такого количества CUDA-ядер и объёма VRAM в одном месте, может быть вредным для здоровья.

Ох… загляденье не правда ли? Крайне страшное загляденье, когда задумываешься о цене, каждая отдельная H100 стоит около 30k евро, а их тут 8 штук. По общей цене на этом скромном деревянном поддоне лежит почти что небольшой домик на побережье Средиземного моря, впечатляет. Но вернёмся ближе к сути, мы же хотели посмотреть что поменялось за эти 4 года, и там впечатлений будет не меньше.

До 4.5Х раз выше производительность в задачах с применением ИИ, в сравнение с A100!
Правда, и цена повыше стала, рекомендуемая цена у A100 на момент выпуска была около 18 тысяч за модель на 40 гигабайт, с поправкой на инфляцию это около 22 тысяч долларов сейчас. H100 выходит дороже на где-то 36% своего предшественника из 2020.

Возвращаясь от экономики к железу, микросхемы A100 произведены по 7-нанометровому техпроцессу TSMC, N7 FinFET, а H100 по 4-нанометровому. У A100 54.2 миллиарда транзисторов на площади 826 квадратных миллиметра, а у H100 80 миллиардов на всё той же площади. Закон Мура может быть и мёртв, но полупроводники на основе кремния пока ещё отказываются сдаваться, и будут с нами до последнего на ещё неопределённо долгий срок.

В архитектуре всё это транзисторное величие отражается в виде 6912 ядер CUDA и 432 Тензорных ядра 3 поколения и 80 гигабайт HBM3 памяти у — A100. Ау H100 – 14592 ядер CUDA и 456 Тензорных ядер 4 поколения, а также 80 гигабайт HBM3 памяти.

Мощно, и такой мощи нужно соответствующее питание.

Максимальное потребление сервера PowerEdge XE9680 составляет 11.5kW, но как можно заметить по 6 источникам питания мощностью на 2800W и суммарной 16.8kW — Dell позаботились о том, чтобы система питания была с запасом. Плюсом ко всему, всё модульное и спокойно быстро заменяется в случае возникновения на то необходимости.

На что только не пойдёшь, лишь бы нейросетки обучать и запускать. Глядя на то как аппетиты индустрии машинного обучения стремительно обгоняют даже таковые у майнеров, что словно клещи порой паразитируют на энергосистеме, невольно начинаешь думать, что возможно для обучения очередной языковой модели на 100500 триллионов параметров понадобится уже свой отдельная АЭС. А отводимое тепло рекуперировать обратно в паровую турбину, ну или как EQUINIX делает в Париже, на отопление домов, олимпийских бассейнов и прочей инфраструктуры пускать.

Это же касается и пары NVME накопителей с поддержкой PCI 5.0, объёмом 960 гигабайт каждый. Всё под рукой, всё легко заменяется без лишних на то усилий, одним словом — радость сисадмина.

«Два 48-ядерных процессора Intel Xeon Platinum 8468 сложно заменить так же быстро, как остальные компоненты, однако необходимость в этом возникает крайне редко. DDR5 память на 2 терабайта, по сути своей меняется быстро, но добраться до ней с лёту не получится, придётся поработать отвёрткой, раскручивая корпус сервера.

Архитектура SuperPOD

Одним из ключевых преимуществ NVIDIA HGX является его модульная и масштабируемая архитектура — SuperPOD. DGX SuperPOD состоит из модульных блоков (SUs), это позволяет легко и быстро развертывать кластеры различных размеров в зависимости от потребностей.
У внимательного читателя тут возникнет вопрос, причём тут DGX? Ведь в посте до этого речь было о HGX H100, ещё больше вопросов возникнет и если открыть официальную документацию NVIDIA — сплошь везде DGX. Не особо понятно намеренно или нет, но архитектура SuperPOD применима как к модулю видеокарт из OEM-систем HGX, так и к референсным от самой NVIDIA в линейке DGX.

Системы DGX H100 оснащены восемью GPU NVIDIA H100, которые обеспечивают невероятную вычислительную мощь. Использование технологий NVIDIA NVLink и NVSwitch позволяет соединить эти GPU в единую систему с высокой пропускной способностью. Это значит, что каждое GPU может обмениваться данными с другими GPU на скорости до 900 ГБ/с. И да, если вы хотите тренировать гигантские языковые модели или создавать впечатляющие генеративные изображения, 8 H100 справятся с любой задачей. Хотите обучить модель, которая напишет роман или нарисует шедевр? Пожалуйста! Всё это им по зубам.

NVIDIA InfiniBand NDR (с пропускной способностью до 400 Гбит/с) обеспечивает высокую производительность и низкую задержку при взаимодействии между узлами. Эта технология поддерживает адаптивную маршрутизацию и динамическое восстановление сети, что делает её идеальной для построения больших и производительных кластеров.

* Иллюстрация из документации NVIDIA для SuperPOD.

Простота и скорость развертывания

Архитектура DGX SuperPOD позволяет значительно сократить время развертывания. Используя модульные блоки SUs, можно развернуть кластер за считанные недели вместо месяцев. Это достигается за счёт предварительной настройки и тестирования всех компонентов, что позволяет избежать длительных этапов конфигурации и отладки.

Эти преимущества делают DGX SuperPOD идеальным выбором для компаний, которые хотят быстро наращивать вычислительные мощности для своих задач. Благодаря модульной архитектуре, можно начинать с небольшого кластера и постепенно увеличивать его, добавляя новые SUs по мере необходимости.

ITGLOBAL.COM

Клиенты ITGLOBAL.COM смогут воспользоваться всеми преимуществами архитектуры HGX H100 в рамках нашего сервиса AI Cloud.
Хотите, чтобы ваша нейросеть предсказывала биржевые курсы или писала сценарии для фильмов? ITGLOBAL.COM поможет вам в этом!

Мы будем рады предоставить нашим клиентам лучшие решения для задач машинного обучения, с использованием передовых технологии.