Серверы с профессиональными видеокартами NVIDIA RTX A4000 и RTX A5000


Выпуск нового в оборудования, учет рыночных тенденций и внимательное отношение к потребностям пользователей помогают нам разрабатывать новые продукты для более эффективного решения задач корпоративных клиентов. На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU A4000 и А5000. Именно за счет серверов с новыми видеокартами мы расширили свой серверный парк и предлагаем вам оценить производительность и экономичность нового решения.

Все новые GPU NVIDIA создаются на базе текущей архитектуры Ampere.

Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память GDDR6, HBM2 и GDDR6X. Память GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 Nvidia использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. GPU карты используют стандарт PCIe Gen 4, что позволяет убрать узкие места при обмене данными с GPU.

В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора FP32, что обеспечивает рост производительности FP32 по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для объединения карт парами — это приводит к кратному увеличению производительности.

Видеокарты NVIDIA RTX A4000 и RTX A5000 были анонсированы в апреле 2021 года.

RTX-A4000.jpg
RTX-A5000.jpg
Технические характеристики видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000
  Quadro RTX 4000 GTX 1080 ti NVIDIA RTX A4000 NVIDIA RTX A5000 RTX 3090
Архитектура Turing Pascal Ampere Ampere Ampere
Техпроцесс 12 nm FinFET 16 нм FinFET 8 нм 8 нм 8 нм
Графический процессор TU104 GP102 GA102 GA104 GA102
Количество транзисторов 11,800 млн 13,600 млн 17,400 млн 28,300 млн 28,300 млн
Пропускная способность памяти 416.0 Гб/с 484  Гб/с 448 GB/s 768 GB/s 936.2 Гб/с
Разрядность шины видеопамяти 256 бит 352 бит 256 бит 384 бит 384 бит
Память GPU 8 Гб GDDR6 11 ГБ GDDR5X 16 ГБ GDDR6 24 ГБ GDDR6 24 ГБ GDDR6X
Память ECC нет нет да да нет
Ядра CUDA 2304 3584 6 144 8192 10496
Тензорные ядра 288   192 256 328
Ядра RT 36   48 64 82
SP perf 7.1 терафлопс   19,2 терафлопс 27,8 терафлопс 35,6 терафлопс
RT Core performance нет нет 37,4 терафлопс 54,2 терафлопс 69,5 терафлопс
Tensor performance 57.0 терафлопс   153,4 терафлопс 222,2 терафлопс 285 терафлопс
Максимальная мощность 160 Вт 250 Вт 140 Вт 230 Вт 350 Вт
Интерфейс PCIe 3.0×16 PCI Express 3.0×16 PCI-E 4.0×16 PCI-E 4.0×16 PCIe 4.0×16
Разъемы ДП 1.4 (3)   ДП 1.4 (4) ДП 1.4 (4) ДП 1.4 (4)
Форм-фактор 1 слот 2 слота 1 слот 2  слота 2–3 слота
Программное обеспечение vGPU нет нет нет есть неограниченно есть с ограничениями
Nvlink нет нет нет 2x RTX A5000 есть
Поддержка CUDA 7.5 6.1 8.6 8.6 8.6
Поддержка VULKAN есть, 1.2.131 есть, 1.2.131 есть есть есть, 1.2
Цена (руб.) 115 000  66 000  125 000  190 000  215 000

На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями.

Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.

В старших картах от RTX A5000 есть поддержка vGPU — NVIDIA RTX vWS что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями.

В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5–2 раза и потребляют меньше электричества.

Тестирование HOSTKEY

Мы провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 — представителем предыдущего поколения профессиональных видеокарт компании NVIDIA.

Описание тестовой среды:

  • Процессор OctaCore Intel Xeon E-2288G, 3,5 GHz
  • 32 GB DDR4–3200 ECC DDR4 SDRAM 1600 МГц
  • Samsung SSD 980 PRO 1TB (1000 GB, PCI-E 4.0×4)
  • Серверная материнская плата Asus P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
  • Microsoft Windows 10 Professional 64-разрядная.

Tест V-Ray GPU RTX

vpaths.jpg

Tест V-Ray GPU CUDA

vrays.jpg

Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936.2 Гб/с против 768.0 Гб/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).

«Собаки против кошек»

Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:

Полный цикл обучения

qty-videocards.jpg

Полный цикл обучения тесовой нейросети занял от 5 до 30 минут. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU сервер с 8 картами GeForce RTX 2080Ti и потреблением электричества около 2 кВт/час. Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.

Сколько стоит обучить нейросеть в разных местах?

cost-to-train.jpg

На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:

  • AWS — AWS p3.2xlarge
  • Google Cloud — GCP Compute Engine
  • Microsoft Azure — Tesla V100
  • HOSTKEY — RTX А4000, RTX A5000

Мы пока предоставляем GPU сервера на помесячной оплате, но в ближайшее время все эти машины будут доступны и на почасовой оплате с полной автоматизацией их предоставления клиенту при заказе через API.

Заключение

Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производить быструю обработку больших массивов данных.

Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт компании NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени. Объем памяти в 16 Гб у NVIDIA RTX A4000 и 24 Гб у RTX A5000 позволяет обрабатывать большие массивы данных. Мостик NVLink для A5000 объединяет две карты в одну, что позволяет работать с 48Гб высокопроизводительной памяти.

Лицензия на драйверы NVIDIA для профессиональных GPU никак не ограничивает их использование в центрах обработки данных, в отличие от их игровых версий.

HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU сервера для рендеринга сцен, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки — аренда выделенных GPU серверов может на порядок повысить скорость обработки за те же деньги или сэкономить на инфраструктуре существенные финансовые ресурсы.

overclockers.ru прочитано 74708 раз