Birentech рассказала о новых чипах BR100 и BR10423.08.2022 19:31

На конференции Hot Chips 34 китайская компания Birentech рассказала о своих чипах BR100 и BR104. Архитектура новинок создана на базе собственной разработки под кодовым названием Bi Liren. На данный момент BR100 — это первый китайский ускоритель общего назначения, в котором используется чиплетная компоновка и поддерживающая PCI Express 5.0/CXL. Кроме того, у новых ускорителей будет сопровождение с полноценной программной поддержкой, включая драйвера, библиотеки и популярные фреймворки (например, TensorFlow и PyTorch).

Новый чип состоит из 77 млрд транзисторов, скомпонованных с использованием 7-нм технологического процесса и технологии TSMC 2.5D CoWoS. Площадь чипа — 1074 мм², правда, компания не говорит, это сам кристалл или в сборке целиком, потому что в составе BR100 есть ещё 64 Гбайт памяти HBM2e.

Кэш в изделии равен 300 Мбайт (256 Мбайт L2). Для примера, у NVIDIA A100 кэш равен 40 Мбайт, а у новейшего H100 он составляет 50 Мбайт. ПСП в китайском устройстве составляет 1,64 Тбайт/с.

Модульная компоновка чипа BR100 состоит из двух так называемых «вычислительных тайлов» и четырёх сборок HBM2e. Кристаллы соединяет интерконнект с пропускной способностью 896 Гбайт/с. Для дальнейшего масштабирования в составе нового ускорителя предусмотрен фирменный интерконнект BLink (8 линий) с производительностью 2,3 Тбайт/с.

В каждом из двух кристаллов по 16 потоковых вычислительных кластеров (SPC), каждый кластер содержит 16 исполнительных блоков (EU). Также каждый блок EU содержит 16 потоковых ядер V-Core и одно тензорное ядро T-Core. В итоге в составе BR100 есть 8192 классических ядра и 512 тензорных. Каждый SPC имеет свой кеш L2 размером 8 Мбайт, что на всю сборку равно 256 Мбайт.

В самих классических ядрах V-Core предусмотрена архитектура Single Instructions, Multiple Thread (SIMT). В ней поддерживаются вычисления в форматах INT16/32, FP16 и FP32. Тензорные ядра T-Core чипа созданы для выполнения операций типа MMA, свёртки и других задач, характерных для машинного обучения. Предельное количество потоков у BR100 в суперскалярном режиме — 128 тысяч.

Кроме уже озвученных цифр, разработчики представили некоторые цифры производительности для BR100. В изделии 256 Тфлопс в режиме FP32, в режиме TF32+ в два раза больше, 1024 Тфлопс в формате BF16 и 2048 Топс в режиме INT8. По заявленным показателями BR100 опережает NVIDIA A100, но пока сравнений обоих устройств нет. Кроме того, в BR100 заявлено превосходство от 2,5х до 2,8х в зависимости от задачи и сценария.

Birentech рассказала и про свой другой, менее мощный чип BR104. Данный чип в два раза медленнее старшей модели по всем показателям. В нём 32 Гбайт памяти против 64, но, в отличие от старшего брата, он монолитный, а не чиплетный. На меньшем чипе компания собирается выпускать ускорители в формате PCIe с TDP в районе 300 Вт, а вот старшая модель будет доступна только в виде OAM-модуля.