Китайский GPU, который (возможно) обойдет NVIDIA

Год назад китайская компания Biren Technology (г. Шанхай) анонсировала выпуск своих графических чипов, направленных на искусственный интеллект и высокопроизводительные вычисления. Процессоры должны были сойти с конвейера в третьем квартале 2021 года, а поступить в продажу — в первой половине 2022-го.

b5b4890cf71f705d47df6c277a77e05f.png

 Несмотря на небольшую задержку, в начале августа компания объявила скорое начало продаж своего GPU общего назначения BR100. Он должен установить мировой рекорд вычислительной мощности: в пике последняя может достичь петафлопсового уровня (на восьмибитных целочисленных операциях), да и по остальным характеристикам процессор сравним с существующими решениями конкурентов и даже их превосходит.

BR100 использует оригинальную аппаратную архитектуру «Bi Liren», разработанную внутри Biren Technology, и является первым китайским GPU, построенным по технологии чиплетов с поддержкой PCIe 5.0 и протокола межсоединения CXL. Еще известно, что процессор изготавливается по 7-нм технологии и содержит 77 миллиардов транзисторов по дизайну TSMC 2.5D CoWoS. На борту также имеется 300 МБ встроенной кэш-памяти, и GPU может быть укомплектован до 64 ГБ памяти HBM2e с пропускной способностью 2,3 ТБ/с.

0e6350ac8790408d9ab8ed8c08ebc6e0.jpg

 Официальный выпуск BR100 знаменует собой первый случай, когда китайская компания побила (до независимых тестов, считаем, что на бумаге) мировой рекорд вычислительной мощности для графических процессоров общего назначения, ранее принадлежавший международным гигантам типа NVIDIA. Примечательный нюанс: компания была основана только в 2019 году, а уже в марте 2021 получила финансирование на более чем 730 миллионов долларов — и является китайским «единорогом». То есть до выхода первого продукта прошло всего три года.

Хотя здесь нечему удивляться: например, бывший глава китайского исследовательского центра AMD и одновременно бывший вице-президент по разработке AMD, а до этого директор по разработке S3 Аллен Ли является одним из руководителей компании. Соучредитель Biren Technology и генеральный директор линейки продуктов для графических процессоров Цзяо Гофан — известный в индустрии технический лидер, а в качестве руководителя группы графических процессоров он разработал 5 поколений классической архитектуры Qualcomm Adreno. Других его коллег в компании тоже отличает внушительный опыт.

В дополнение к чипу Biren Technology также представила OAM- (OCP Acceleration Module) сервер Haixuan, модуль OAM для него — WallWait 100, и программную платформу BIRENSUPA. За счет установки до 8 OAM модулей сервер обеспечит до 8 PFLOPS пиковой вычислительной мощности, а BIRENSUPA, содержащая в себе полный набор от драйверов и компиляторов до библиотек ускорения и набора инструментов, позволит полностью раскрыть потенциал GPU. BIRENSUPA поддерживает основные фреймворки deep learning.  

40482f3839d16840cf19275279d83fde.png

Для массового рынка представлена упрощенная версия чипа BR104 (использование чиплетов позволяет производить на одной и той же линии как старшую, так и младшую модели), его производительность примерно вдвое меньше, чем у BR100. По заявленным характеристикам он также превосходит флагманы международных производителей, а энергопотребление решений на базе этого чипа не должно превышать 300 Вт. 

К примеру, NVIDIA RXT A5500 выдает в операциях одинарной точности (FP32) примерно 35 TFLOPS, а BR104 должен достичь уровня в 128 TFLOPS. Новые же решения от «зеленых» на базе архитектуры Ada Lovelace по предварительным тестам будут примерно в два раза быстрее, но и потреблять до 450 Вт.

951383df43353edc2d1624afa7610983.jpg

По срокам выхода на рынок компания заявила следующее: BR104 уже доступен некоторым китайским производителям для тестов и в ближайшие месяцы решения на его основе будут запущены в массовое производство. Например, компания Wallen Technology анонсировала выпуск своего продукта на основе BR104 в формате PCIe — Wallace 104. Карта оснащена 32 ГБ памяти формата HBM2E со скоростью 819 ГБ/с и интерфейсом PCIe 5.0×16 с поддержкой CXL. Также карта будет поддерживать 32 канала кодирования HEVC/H.264 и 256 каналов декодирования HEVC/H.264.

990ab8cd46f61a8363acb5ff6f36b804.png

OAM-cервер Haixuan проходит интенсивное внутреннее тестирование и по планам будет доступен для партнеров в четвертом квартале этого года. Использовать решения Biren также планируют такие компании как Ping An Technology, China Mobile и ведущие китайские университеты.

Предвосхитим очевидный вопрос: пока неизвестно, появятся ли эти решения в России и сколько они могут у нас стоить. Все новейшие разработки Китай сначала внедряет на внутреннем рынке, прежде всего в госорганах, а выход на внешний рынок рассматривается как дополнительная возможность коммерциализации.

Но если вам интересно, мы расскажем об истории китайских графических процессоров, попробуем разобраться в текущей ситуации на индустриальных рынках и попытаемся совместно с вами спрогнозировать, что нас ждет через пару-тройку лет.

_________

А пока можно арендовать мощные серверы с RTX NVIDIA или AMD EPYC со специальной скидкой от HOSTKEY для читателей «Хабра»: при размещении заказа назовите консультанту тайный пароль »Я С ХАБРА» — и дисконт ваш.

© Habrahabr.ru