[Перевод] Суперкомпьютер Frontier на базе AMD преодолел экзафлопсный барьер и стал самым быстрым в мире

image
Изображение: ORNL

Суперкомпьютер Frontier на базе AMD стал первым официально признанным экзафлопсным суперкомпьютером в мире, достигнув скорости 1,102 ExaFlop/s во время длительной работы Linpack. Это первое место в недавно опубликованном списке Top500 самых быстрых суперкомпьютеров мира, поскольку в этом году число систем на базе AMD в списке значительно увеличилось. Frontier не только обогнал предыдущего лидера, японский Fugaku, но и обошел его — по сути, Frontier быстрее, чем следующие семь суперкомпьютеров в списке, вместе взятые. Примечательно, что в ходе длительного тестирования Linpack FP64 система Frontier достигла 1,1 ExaFlops, а пиковая производительность системы составляет 1,69 ExaFlops, но после дополнительной настройки она может достичь 2 ExaFlops. Для справки, один ExaFlop равен одному квинтиллиону операций с плавающей запятой в секунду.
Frontier также является самой быстрой системой искусственного интеллекта на планете, обеспечивая производительность 6,88 ExaFlops в смешанной точности в бенчмарке HPL-AI. Это равносильно 68 миллионам инструкций в секунду для каждого из 86 миллиардов нейронов мозга, что подчеркивает огромную вычислительную мощь. Похоже, что эта система будет конкурировать за лидерство в области ИИ с недавно анонсированными суперкомпьютерами, ориентированными на ИИ и работающими на суперчипах Grace CPU от Nvidia на базе Arm.

Кроме того, система Frontier Test and Development (Crusher) также заняла первое место в Green500, что означает, что архитектура Frontier является самой энергоэффективной суперкомпьютерной архитектурой в мире (основная система Frontier занимает второе место в Top500). В ходе квалификационных испытаний полная система обеспечила производительность 52,23 Гфлопс на ватт при потреблении 21,1 МВт (мегаватт) электроэнергии. При пиковой загрузке система Frontier потребляет 29 МВт.

image
image

image
Изображение: ORNL

Масштабы суперкомпьютера Frontier впечатляют, но это лишь одно из многих значительных достижений AMD в списке Top500 этого года — системы на базе AMD EPYC теперь входят в пять из десяти лучших суперкомпьютеров в мире и десять из двадцати лучших. Фактически, EPYC от AMD теперь используется в 94 суперкомпьютерах из Top500 в мире, что означает устойчивый рост по сравнению с 73 системами, включенными в список в ноябре 2021 года, и 49 системами, включенными в список в июне 2021 года. Кроме того, AMD используется более чем в половине новых компьютерных систем, включенных в список в этом году. Как видно из приведенного выше альбома, процессоры Intel по-прежнему составляют большинство систем в Top500, а графические процессоры Nvidia также продолжают оставаться доминирующим фактором ускорения.

Однако с точки зрения энергоэффективности в последнем списке Green500 лидирует AMD — компания использует четыре самые эффективные системы в мире, а также занимает восемь мест в первой десятке и 17 мест в первой двадцатке.

image
image
image

Суперкомпьютер Frontier построен компанией HPE и установлен в Национальной лаборатории Ок-Ридж (ORNL) Министерства энергетики (DOE) в штате Теннесси. Система включает 9 408 вычислительных узлов, каждый из которых оснащен одним 64-ядерным процессором AMD «Trento» в паре с 512 ГБ памяти DDR4 и четырьмя графическими процессорами AMD Radeon Instinct MI250X. Эти узлы распределены между 74 шкафами HPE Cray EX, каждый из которых весит 8000 фунтов. В целом, система имеет 602 112 процессорных ядер, связанных с 4,6 петабайтами памяти DDR4.

Кроме того, 37 888 графических процессоров AMD MI250X имеют 8 138 240 ядер и 4,6 петабайт памяти HBM (128 ГБ на GPU). CPU и GPU связаны между собой с помощью сетевой структуры HPE Cray Slingshot-11 на базе Ethernet. Вся система использует прямое водяное охлаждение для снижения тепловыделения, при этом 6 000 галлонов воды перемещаются через систему 350-сильными насосами — эти насосы могут заполнить бассейн олимпийского размера за 30 минут. Вода в системе имеет температуру 85 градусов, что способствует повышению энергоэффективности, поскольку система не использует охладители для снижения температуры воды.

Вся система подключена к невероятно производительной подсистеме хранения данных с емкостью 700 петабайт, пропускной способностью 75 ТБ/с и производительностью 15 миллиардов IOPS. Уровень метаданных распределен между 480 твердотельными накопителями NVMe, которые обеспечивают 10 ПБ общей емкости, а 5400 твердотельных накопителей NVMe обеспечивают 11,5 ПБ емкости для основного высокоскоростного уровня хранения. В то же время 47 700 жестких дисков PMR обеспечивают емкость 679 ПБ.

image
Изображение: ORNL

Сборка Frontier была сложной задачей, поскольку для создания системы ORNL пришлось приобрести 60 миллионов деталей с 685 различными номерами. Во время строительства возник дефицит чипов, который затронул 167 из этих номеров деталей, поэтому ORNL столкнулась с нехваткой двух миллионов деталей. AMD также столкнулась с проблемами, поскольку 15 номеров деталей для ее графических процессоров MI200 оказались в дефиците. Чтобы обойти нехватку, ORNL совместно с ASCR добилась получения рейтинга Defense Priorities and Allocation System (DPAS) для этих деталей, что означает, что правительство США воспользовалось Законом об обороне для закупки деталей в связи с важностью Frontier для национальной обороны.

Несмотря на то, что в настоящее время пиковая мощность системы составляет 29 МВт, механическая установка Frontier может охлаждать до 40 МВт вычислительной мощности, что эквивалентно 30 000 американских домов. Станция может быть расширена до 70 МВт, оставляя место для будущего роста.

В то время как Frontier получает звание первого официально признанного суперкомпьютера Exascale в мире, Китай, как считается, имеет два суперкомпьютера Exacscale, Tianhe-3 и OceanLight, которые преодолели установленный барьер год назад. К сожалению, эти системы не были представлены в комитет Top500 из-за политической напряженности между США и Китаем. Однако отсутствие официальных заявок в Top500 — в качестве доверенного лица была подана заявка от Gordon Bell — привело к определенным сомнениям в том, что это действительно экзафлопсные системы, по крайней мере, в измерении рабочей нагрузки FP64.

На данный момент Frontier официально является самым быстрым суперкомпьютером в мире и первым, кто официально преодолел экзафлопсный барьер. Ожидается, что почти мифический, долго откладываемый Aurora на базе Intel появится в конце этого или в начале следующего года и будет иметь производительность до 2 Экзафлопс, соперничая с Frontier за первое место в рейтинге суперкомпьютеров.

Что ждет AMD дальше? El Capitan, машина с производительностью 2+ ExaFlop, которая, по последним данным, появится в 2023 году. После завершения строительства этот суперкомпьютер на базе Zen 4 будет соперничать с Aurora на базе Intel за звание самого быстрого суперкомпьютера в Top500.

Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?

© Habrahabr.ru