Birentech рассказала о новых чипах BR100 и BR104

На конференции Hot Chips 34 китайская компания Birentech рассказала о своих чипах  BR100 и BR104. Архитектура новинок создана на базе  собственной разработки под кодовым названием Bi Liren. На данный момент BR100 — это первый китайский ускоритель общего назначения, в котором используется чиплетная компоновка и поддерживающая PCI Express 5.0/CXL. Кроме того,   у новых ускорителей будет сопровождение с полноценной программной поддержкой, включая драйвера, библиотеки и популярные фреймворки (например, TensorFlow и PyTorch).

6c06d97b5c7360945e977c0b0a013f10.jpeg

Новый чип состоит из 77 млрд транзисторов, скомпонованных с использованием 7-нм технологического процесса и технологии TSMC 2.5D CoWoS. Площадь чипа — 1074 мм2, правда, компания не говорит, это сам кристалл или в сборке целиком, потому что в составе BR100 есть ещё 64 Гбайт памяти HBM2e.

Кэш в изделии равен 300 Мбайт (256 Мбайт L2). Для примера, у NVIDIA A100 кэш равен 40 Мбайт, а у новейшего H100 он составляет 50 Мбайт. ПСП в китайском устройстве составляет 1,64 Тбайт/с.

Модульная компоновка чипа BR100 состоит из двух так называемых «вычислительных тайлов» и четырёх сборок HBM2e. Кристаллы соединяет интерконнект с пропускной способностью 896 Гбайт/с. Для дальнейшего масштабирования в составе нового ускорителя предусмотрен фирменный интерконнект BLink (8 линий) с производительностью 2,3 Тбайт/с.

В каждом из двух кристаллов по 16 потоковых вычислительных кластеров (SPC), каждый кластер содержит 16 исполнительных блоков (EU). Также каждый блок EU содержит 16 потоковых ядер V-Core и одно тензорное ядро T-Core. В итоге в составе BR100  есть 8192 классических ядра и 512 тензорных. Каждый SPC имеет свой кеш L2 размером 8 Мбайт, что на всю сборку равно 256 Мбайт.

В самих классических ядрах V-Core предусмотрена архитектура Single Instructions, Multiple Thread (SIMT). В ней поддерживаются вычисления в форматах INT16/32, FP16 и FP32. Тензорные ядра T-Core  чипа созданы для выполнения операций типа MMA, свёртки и других задач, характерных для машинного обучения. Предельное количество потоков у BR100 в суперскалярном режиме — 128 тысяч.

a08220d9c3caf3a854fc30d87cfe5c67.jpeg

Кроме уже озвученных цифр, разработчики представили некоторые цифры производительности для BR100. В изделии 256 Тфлопс в режиме FP32, в режиме TF32+ в два раза больше, 1024 Тфлопс в формате BF16 и 2048 Топс в режиме INT8. По заявленным показателями BR100 опережает NVIDIA A100, но пока сравнений обоих устройств нет. Кроме того, в BR100 заявлено превосходство от 2,5х до 2,8х в зависимости от задачи и сценария.

Birentech  рассказала и про свой другой, менее мощный чип BR104. Данный чип в два раза  медленнее старшей модели по всем показателям.  В нём 32 Гбайт памяти против 64, но, в отличие от старшего брата, он монолитный, а не чиплетный. На меньшем чипе компания собирается выпускать ускорители в формате PCIe с TDP в районе 300 Вт, а вот старшая модель будет доступна только в виде OAM-модуля.

3d770667018ea48d4374da58af50c613.jpeg

© Habrahabr.ru