Tachyum продолжает развивать 128-ядерный процессор Prodigy: возможности, перспективы и дата выхода

z3vv-_nrzai6nos2gcdmogelrk4.jpeg


Два года назад на конференции ISC High Performance 2020 словацкая компания Tachyum анонсировала 128-ядерные процессоры Prodigy, а также ИИ-комплекс на их основе. Тогда сообщалось, что эти чипы планируется использовать в крупных ЦОД, высоконагруженных платформах, ИИ-системах и прочих направлениях, где нужна высокая производительность.

По словам разработчиков, процессор и инфраструктура, разработанная под этот чип, способны предоставить необходимые для таких вычислений ресурсы. Суперкомпьютер, основа которого чипы Prodigy, достаточно мощный — 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U. Все это сообщалось ранее, ну, а сейчас появилось много информации о процессоре и ближайшей дате появления чипа в общем доступе.

Особенности архитектуры чипа


Известно, что процессор разрабатывается по современному 7-нм техпроцессу. Старшая версия содержит 128 ядер с частотой работы каждого до 4 ГГц, 12 каналов памяти DDR5–4800, 48 линий PCI Express 5.0 и два контроллера 400GbE. Кроме того, есть и версия с 64 ядрами. Она содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 линии и два сетевых интерфейса 400GbE.

Архитектура процессоров компании не предусматривает возможности внеочередного исполнения. Но если использовать оптимизацию на уровне компилятора, то появляется возможность до 4 внеочередных инструкций (4-way out-of-order issues). Кроме родного софта, процессор может работать с кодом x86, Arm и RISC-V. Правда, «чужой» код чреват потерей производительности на 30–40% в случае бинарной трансляции в Qemu.

Представители компании заявили, что преимущество процессора еще и в меньшем, чем у конкурентов, энергопотреблении.

Сейчас стало известно, что базовая модель процессора, Prodigy T832-LP, имеет 32 ядра и работает на частоте 3,2 ГГц. Теплопакет — 180 Вт. Если же его разогнать до 5,7 ГГц, то показатель уже выше — около 300 Вт. Ну, а если взять и разогнать флагманскую модель чипа, T16128-AIX, со 128 ядрами, то речь идет уже о 950 Вт. К слову, T16128-AIX — 5 нм, а не 7 нм процессор.

tg46iel98bdz7rtakol4pms942q.png


Компания утверждает, что линейка процессоров Prodigy — конкурент мощным чипам от AMD, Intel & NVIDIA. Так, разработчики рассказывают, что их процессор показывает 4-кратное превосходство в отношении процессоров Intel Xeon в высоконагруженных вычислениях. Также процессор в 3 раза превосходит NVIDIA H100, если говорить о том же типе вычислений и в 6 раз — в задачах по работе с искусственным интеллектом. По отношению ко всем другим процессорам чип показывает 10-кратное превосходство при той же мощности.

8hm5xvpooct_rxglr_trcpl5ski.png

Вот несколько основных особенностей чипа:

  • 128 высокопроизводительных унифицированных 64-разрядных ядер с частотой до 5,7 ГГц
  • 16 контроллеров памяти DDR5
  • 64 линии PCIe 5.0
  • Поддержка многопроцессорности для 4-сокетных и 2-сокетных платформ
  • Работа в серверных системах с воздушным и жидкостным охлаждением
  • SPECrate 2017. Целочисленная производительность примерно в 4 раза выше, чем у Intel 8380, и примерно в 3 раза выше, чем у AMD 7763HPC.
  • Производительность операций с плавающей запятой двойной точности в 3 раза выше, чем у NVIDIA H100
  • Производительность AI FP8 в 6 раз выше, чем у NVIDIA H100.


oqjed6swgpv5osjrij2pcobamre.jpeg


Согласно данным производителя, каждое из ядер содержит два 1024-битных блока векторных и 4096-битный блок матричных вычислений. Также стоит упомянуть по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, который формируется» из L2-кешей простаивающих соседних ядер.

Еще немного технических подробностей


На днях были опубликованы показатели характеристик новых процессоров. Так, флагманская модель выдает до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Тот же AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности около 560 Вт. Кроме того, 700-Вт SXM-версия NVIDIA H100 показывает до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.

jdvto4dkwsn_ufjdjmu7hn_1s4c.png


Достоинством линейки Prodigy является универсальность — он может работать и как чип общего назначения, чего нет у Instinct или Hopper.

А что там с поставками?


Чип достаточно сложен в производстве — так что выход на промышленные поставки дело небыстрое. Но компания обещает начать отгрузку первых процессоров уже в конце 2022 или, в крайнем случае, начале 2023 года. Если будет реализован текущий план, то тестовые варианты процессора, которые можно будет протестировать, выпустят в конце лета 2022 года. Правда, их общая площадь не превысит 500 мм2. Затем, в декабре, выпустят уже полноценный чип, его протестируют независимые эксперты. Если все будет хорошо, то стартует процесс массового производства.

Насколько можно судить, средства у компании есть — в прошлом году она получила крупные инвестиции от партнеров, в результате чего капитализация компании выросла сразу в три раза. Конечно, по капитализации о реальности всего проекта судить нельзя, но если есть средства и специалисты — то вполне может все получиться.

Сейчас известно, что процессор без проблем обрабатывает прерывания и исключения, переключая режимы и обеспечивая корректные тайминги. Разработчикам удалось запустить Linux на базе FPGA-прототипа, плюс получилось запустить операционную систему и простое приложение — все это было показано в конце 2021 года.

© Habrahabr.ru