AMD анонсировала 96- и 128-ядерные процессоры EPYC09.11.2021 15:02

8 ноября 2021 года на виртуальном мероприятии Accelerated Data Center Premiere компания AMD представила серверные процессоры EPYC 4-го поколения, которые выпустит в 2022–2023 гг (ядра Zen 4 и Zen 4c). Кроме того, представлены улучшенные версии серверных процессоров текущего 3-го поколения EPYC и GPU-ускорители второй серии AMD Instinct MI200 для высокопроизводительных вычислений в дата-центрах (быстрее, чем Nvidia A100).
Сначала о процессорах EPYC.

Как показано на слайде из выступления исполнительного директора Лизы Су, после текущего поколения Milan будет выпущено «улучшенное» поколение Milan-X на том же ядре Zen 3 (16, 32 и 64 ядра) c топологией 7 нм. Выход Milan-X состоится в I кв. 2022 года, цены пока неизвестны.

Отличительной особенностью Milan-X является изготовление кэша L3 по инновационной технологии многослойной укладки транзисторов 3D V-Cache. В остальном это в точности такие же процессоры Milan на том же сокете SP3.

Раньше, до модификации, в каждом чиплете с 8 ядрами размещалось 32 МБ кэша L3, площадью 6×6 мм. Теперь на него сверху нанесут ещё один слой кэша 64 МБ, доведя общий объём до 96 МБ на один чиплет. Для восьми чиплетов (64 ядра) выходит 768 МБ кэша (всего 806 МБ кэша на сокет). То есть в двухпроцессорных серверах общий объём процессорного кэша L3 составит невероятные 1,5 ГБ.

Если технологию обкатают, её могут использовать для изготовления других компонентов CPU, в том числе в новых моделях десктопных процессоров Ryzen.

Трёхмерный стекинг более чем в 200 раз увеличивает плотность интерконнекта, по сравнению с двухмерной структурой. Это означает повышение энергоэффективности и возможность нарастить количество транзисторов на той же площади, но добавляет +10% задержки при обращении к кэшу.

Компания AMD привела примеры некоторых задач, которые ускоряются до 66% от апгрейда кэша:

По заверениям AMD, производительность 32-ядерного EPYC 75F3 даже текущего поколения без увеличенного кэша в задачах гидроаэродинамики (расчёт свойств жидкости), анализа методом конечных элементов (FEA) и структурного анализа на 33–40% выше, чем у 32-ядерного Xeon 8362.

Microsoft опубликовала бенчмарки виртуальных машин HBv3 VM на новых процессорах Milan-X, которые тоже показывают большой рост производительности в некоторых задачах.

Кстати, во время январской презентации на CES 2021 чипы Ryzen с кэшем 3D V-Cache показывали прибавку производительности 15% в играх. Игры — одна из задач, которая тоже выигрывает от более быстрого и объёмного кэша L3, поэтому все так ждут новых Ryzen в 2022 году.

По слухам, в будущем количество слоёв 3D V-Cache планируется увеличить до четырёх (есть такие настройки в BIOS).

Предполагаемые спецификации Milan-X:

Следующими поколениями серверных процессоров станут Genoa (до 96 ядер, 2022 г) и Bergamo (до 128 ядер, 2023 г) на топологии TSMC 5 нм и новых ядрах Zen 4 и Zen 4c.

По сравнению с нынешним поколением 7 нм компания обещает двойное улучшение энергоэффективности, двойное повышение плотности размещения транзисторов и рост производительности более чем на 25%

Высокопроизводительное ядро Zen 4 с поддержкой памяти DDR5 и шины PCIe Gen 5, возможно, будет без значительных изменений использоваться также и в десктопных процессорах.

Bergamo (128 ядер Zen 4c) — это вычислительный движок специально для облачных приложений (c — это 'cloud'), в том же сокете, что и Genoa на Zen 4, с межпроцессорной шиной CXL 1.1 (Compute Express Link).

Наконец, серия AMD Instinct MI200 — «самый продвинутый в мире ускоритель для дата-центров», как называет его компания AMD. Вторая серия включает две модели, которые слегка отличаются производительностью: AMD Instinct MI250 и AMD Instinct MI250X.

Эти устройства предназначены для научных расчётов в суперкомпьютерах и дата-центрах, рядом с процессорами EPYC. В частности, ускорители MI250X использовались в сборке суперкомпьютера Frontier, предполагаемого к запуску в Ок-Риджской национальной лаборатории. Он станет первым эксафлопсным компьютером США.

В будущем к ним добавится еще модель в другом форм-факторе AMD Instinct MI210 PCie.

В таблице ниже указаны предполагаемые спецификации новых моделей в сравнении с ускорителями текущего поколения AMD Radeon Instinct MI60 и AMD Instinct MI100.

AMD утверждает, что флагманский ускоритель Instinct MI200 значительно быстрее, чем Nvidia A100. В частности, он в несколько раз быстрее в различных научных вычислениях, от астрофизики до молекулярной динамики, и на 20% производительнее в задачах машинного обучения и ИИ, если сравнивать с 400-ваттной SXM-версией A100 с 80 ГБ памяти. Конкретно, Instinct MI200 в 2,4 раза быстрее в OpenMM, в 2,2 раза в LAMMPS, 1,9 раза в HACC и т. д.

Instinct MI250X GPU уже устанавливается в модульные суперкомпьютеры Cray EX от Hewlett Packard Enterprise.