30.09.2020
По пустоши в поисках брата: изометрическое приключение Beautiful Desolation выйдет на PS4 и Switch

30.09.2020
Видео: «невероятно отзывчивое» управление Сэкбоем и разнообразие уровней в дневнике разработки Sackboy: A Big Adventure

30.09.2020
Критика подействовала: EA пообещала прекратить рекламировать микротранзакции в FIFA 21 в детских журналах

30.09.2020
Глава CD Projekt RED пообещал сотрудникам «хорошую компенсацию» за сверхурочные при создании Cyberpunk 2077

30.09.2020
Ван Хуэй, Huawei: Через пять лет 85% глобальных корпоративных приложений будут развернуты в облаке

30.09.2020
Видеоускоритель Nvidia GeForce RTX 3090: архитектура, описание карты, синтетические, профессиональные и игровые тесты (включая тесты с трассировкой лучей и в 8К)

30.09.2020
Пилот испытал реактивный ранец для воздушной службы медицинской помощи

30.09.2020
Супергеройский провал: с момента релиза онлайн Marvel's Avengers в Steam уменьшился почти в десять раз

30.09.2020
Родственные связи, скрытый клинок и орден Незримых: новые подробности сюжета Assassin’s Creed Valhalla

30.09.2020
От создателей «Ведьмака» и Dying Light: I, the Inquisitor — приключение с пытками и допросами по книгам Яцека Пекары

30.09.2020
В США Cyberpunk 2077 по предзаказам на консолях сильно отстаёт от Call of Duty: Black Ops Cold War

Видеоускоритель Nvidia GeForce RTX 3090: архитектура, описание карты, синтетические, профессиональные и игровые тесты (включая тесты с трассировкой лучей и в 8К)30.09.2020 15:32

Теоретическая часть: особенности архитектуры

Недавно компания Nvidia представила видеокарты нового семейства GeForce RTX 30, основанные на архитектуре Ampere, пришедшей на смену Turing. Предыдущая архитектура стала революционной, впервые предложив аппаратную поддержку трассировки лучей и аппаратного же ускорения задач искусственного интеллекта при помощи тензорных ядер. Но производительности тех GPU порой не хватало даже для использования пары эффектов с применением трассировки, поэтому неудивительно, что Nvidia в Ampere сделала упор именно на производительность.

Как только стали доступны технологии производства полупроводников по более тонким нормам, вместе с возможностью значительного прироста количества транзисторов при сохранении приемлемой площади кристалла, в архитектуре Ampere сразу было реализовано улучшение именно в плане производительности, а не для появления новых возможностей. Хотя и они тоже есть, но все же это явно эволюционное развитие возможностей предыдущей архитектуры Turing. Предлагаемые по приемлемым ценам, новинки дали пользователям долгожданное улучшение соотношения цены и производительности.

Решения семейства Ampere, благодаря специальным решениям и производству по более тонкому техпроцессу, обеспечивают повышенную энергоэффективность и производительность в пересчете на единицу площади кристалла, что особенно полезно в самых требовательных задачах, вроде трассировки лучей в играх, которая сильно просаживает производительность. Игровые решения архитектуры Ampere примерно в 1,5–1,7 раза быстрее Turing в традиционных задачах растеризации, и до двух раз быстрее при трассировке лучей.

Первым графическим процессором на основе архитектуры Ampere стал большой «вычислительный» чип GA100, вышедший в мае и показавший мощный прирост производительности в различных вычислительных задачах. Но это все-таки чисто вычислительный чип, предназначенный для узкоспециализированных применений. А игровые видеокарты серии GeForce RTX 30 на базе архитектуры Ampere были представлены директором компании Дженсеном Хуангом во время виртуального мероприятия Nvidia в начале сентября.

Всего было представлено три модели: RTX 3090, RTX 3080 и RTX 3070, мы с вами уже рассмотрели среднюю из них, сегодня узнаем все о топовой, ну, а время младшей придет в октябре. Модели RTX 3090 и RTX 3080 сделаны на базе разных модификаций чипа GA102, имеющих отличающееся количество активных вычислительных блоков. Если даже младшая RTX 3070 должна быть примерно на уровне флагмана предыдущей линейки RTX 2080 Ti, то топовая RTX 3090 и вовсе на 50% обходит дорогущий Titan RTX.

Самая производительная модель новой линейки имеет 10496 вычислительных CUDA-ядер, 24 ГБ локальной видеопамяти нового стандарта GDDR6X и отлично подходит для игр в самом высоком 8K-разрешении. Это модель класса Titan с ценой в $1499 (136 990 руб.), но имеющая обычное цифровое наименование — в этот раз Nvidia решила (пока?) не выпускать Titan. Трехслотовая модель с огромным кулером способна справиться с любыми задачами, игровыми и не только. Новинка предназначена для игры как минимум в 4K-разрешении, и даже может обеспечить 60 FPS в 8K-разрешении во многих играх, особенно с применением DLSS.

Основой рассматриваемой сегодня модели видеокарты стал новый графический процессор архитектуры Ampere, но так как она имеет достаточно много общего с предыдущими архитектурами Turing, Volta и местами даже Pascal, то перед прочтением материала мы советуем ознакомиться с нашими предыдущими статьями:

Графический ускоритель GeForce RTX 3090
Кодовое имя чипа	GA102
Технология производства	8 нм (Samsung »8N Nvidia Custom Process»)
Количество транзисторов	28,3 млрд
Площадь ядра	628,4 мм²
Архитектура	унифицированная, с массивом процессоров для потоковой обработки любых видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12 Ultimate, с поддержкой уровня возможностей Feature Level 12_2
Шина памяти	384-битная: 12 независимых 32-битных контроллеров памяти с поддержкой памяти типа GDDR6X
Частота графического процессора	до 1695 МГц (турбо-частота)
Вычислительные блоки	82 потоковых мультипроцессора (из 84 в полном чипе), включающих 10496 CUDA-ядер (из 10752 ядер) для целочисленных расчетов INT32 и вычислений с плавающей запятой FP16/FP32/FP64
Тензорные блоки	328 тензорных ядер (из 336) для матричных вычислений INT4/INT8/FP16/FP32/BF16/TF32
Блоки трассировки лучей	82 RT-ядра (из 84) для расчета пересечения лучей с треугольниками и ограничивающими объемами BVH
Блоки текстурирования	328 блоков (из 336) текстурной адресации и фильтрации с поддержкой FP16/FP32-компонент и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP)	14 широких блоков ROP на 112 пикселей с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16/FP32-форматах буфера кадра
Поддержка мониторов	поддержка HDMI 2.1 и DisplayPort 1.4a (со сжатием DSC 1.2a)

Спецификации референсной видеокарты GeForce RTX 3090
Частота ядра	до 1695 МГц
Количество универсальных процессоров	10496
Количество текстурных блоков	328
Количество блоков блендинга	112
Эффективная частота памяти	19,5 ГГц
Тип памяти	GDDR6X
Шина памяти	384-бит
Объем памяти	24 ГБ
Пропускная способность памяти	936 ГБ/с
Вычислительная производительность (FP32)	до 35,6 терафлопс
Теоретическая максимальная скорость закраски	193 гигапикселей/с
Теоретическая скорость выборки текстур	566 гигатекселей/с
Шина	PCI Express 4.0
Разъемы	один HDMI 2.1 и три DisplayPort 1.4a
Энергопотребление	до 350 Вт
Дополнительное питание	два 8-контактных разъема
Число слотов, занимаемых в системном корпусе	3
Рекомендуемая цена	$1499 (136 990 рублей)

Это вторая модель нового поколения и ее название соответствует принципу наименования решений компании, так как ниже нее стоит менее дорогая RTX 3080. Правда, в прошлом поколении модели RTX 2090 не было вообще, а был отдельный Titan RTX. Соответственно, рекомендованная цена для GeForce RTX 3090 ближе не к RTX 2080, а что-то среднее между RTX 2080 Ti и Titan RTX, так как они являются топовыми представителями своих поколений — $1499. Для нашего рынка рекомендация по цене в 136990 рублей сначала могла показаться завышенной, но из-за резкого падения курса национальной валюты в последнее время, как бы ее еще корректировать в большую сторону не пришлось.

В любом случае, у RTX 3090 на рынке просто нет конкурентов, и на нее Nvidia может ставить цену по своему усмотрению. Точнее, соперник то у нее есть, и довольно сильный, но это — модель этой же линейки в виде RTX 3080, которая даже по теоретической производительности уступает топовому решению от силы 20%-25%. А стоит то она гораздо дешевле! Поэтому если кому-то достаточно 10 ГБ видеопамяти и несколько меньшей производительности, то у него появляется немалый соблазн сэкономить. С другой стороны, если вам нужен максимум производительности и большой объем памяти, а вопрос цены на третьем месте, то выбора просто не остается.

О конкурентах со стороны компании AMD пока что сказать нечего. Radeon VII давно устарел и снят с производства, Radeon RX 5700 XT является решением более низкого уровня, а больше у них ничего и нет. Так что ждем решений на базе архитектуры RDNA2, и особенно любопытен будет большой чип «Big Navi», хотя и далеко еще не факт, что и он сможет конкурировать с GeForce RTX 3090.

Nvidia выпустила видеокарты новой серии и в собственном дизайне под наименованием Founders Edition. Они предлагают любопытные системы охлаждения и строгий дизайн, которого не найти у большинства производителей видеокарт, гонящихся за количеством и размером вентиляторов, а также разноцветной подсветкой. Самое интересное в GeForce RTX 30, продаваемых под брендом Nvidia — совершенно новый дизайн системы охлаждения с двумя вентиляторами, расположенными необычным образом: первый более-менее привычно выдувает воздух через решетку с торца платы, а вот второй установлен с обратной стороны и протягивает воздух прямо сквозь видеокарту.

Таким образом, тепло отводится от компонентов на карте в гибридную испарительную камеру, где оно распределяется по всей длине радиатора. Левый вентилятор выводит нагретый воздух через большие вентиляционные отверстия в креплении, а правый вентилятор направляет воздух к выдувному вентилятору корпуса, где он обычно установлен в большинстве современных систем. Эти два вентилятора работают на разной скорости, которая настраивается для них индивидуально.

Подобное решение заставило инженеров менять всю конструкцию. Если обычные печатные платы проходят во всю длину видеокарт, то в случае продувного вентилятора пришлось разработать короткую печатную плату, с уменьшенным слотом NVLink, новыми разъемами питания (переходник на два обычных 8-контактных PCI-E прилагается). При этом, разместить на карте большое количество фаз для питания и микросхем памяти, было очень непросто. Но эти изменения дали возможность большого выреза для вентилятора на печатной плате, чтобы потоку воздуха ничего не мешало.

Nvidia утверждает, что дизайн кулеров Founders Edition привел к заметно более тихой работе, чем стандартные кулеры с двумя осевыми вентиляторами с одной стороны, при этом эффективность охлаждения у них выше. Поэтому новые решения устройств охлаждения позволили повысить производительность без роста температуры и шума по сравнению с видеокартами предыдущего поколения Turing. Так, по данным компании, при уровне потребления 350 Вт рассматриваемая сегодня новинка или на 30 градусов холоднее модели Titan RTX, или на 20 дБА тише. Это мы проверим далее.

Видеокарта модели RTX 3090 доступна в розничных магазинах с 24 сентября, но в связи с недостаточным объемом производства и пока еще высоким спросом, продукт по хорошей цене еще придется поискать. Видеокарты GeForce RTX 30 Founders Edition должны начать продаваться на русскоязычном сайте Nvidia с 6 октября. Естественно, что партнеры компании выпускают карты собственного дизайна: Asus, Colorful, EVGA, Gainward, Galaxy, Gigabyte, Innovision 3D, MSI, Palit, PNY и Zotac.

Некоторые из видеокарт будут продаваться участвующими в акции продавцами с 17 сентября по 20 октября в комплекте с игрой Watch Dogs: Legion и годовой подпиской на сервис GeForce Now. Также графическими процессорами серии GeForce RTX 30 будут оснащены игровые системы компаний Acer, Alienware, Asus, Dell, HP, Lenovo и MSI и системы ведущих российских сборщиков, включая Boiling Machine, Delta Game, Hyper PC, InvasionLabs, OGO! и Edelweiss.

Архитектурные особенности

При производстве GA102 используется техпроцесс 8 нм компании Samsung, он дополнительно оптимизирован именно для Nvidia. Старший игровой чип Ampere содержит 28,3 миллиарда транзисторов и имеет площадь 628,4 мм² — это хороший шаг вперед по сравнению с 12 нм у Turing, но тот же техпроцесс 7 нм на TSMC по плотности все же превосходит 8 нм у Samsung, если судить по чипам одной архитектуры Ampere, сравнивая игровой GA102 и большой чип GA100, который производится именно на тайваньских фабриках.

Скорее всего, Nvidia выбрала техпроцесс Samsung, исходя из себестоимости и доступности массового производства больших чипов. Выход годных на заводе Samsung вполне может быть лучше, условия для такого жирного клиента наверняка особые, а у TSMC производственные мощности техпроцесса 7 нм уже заняты другими компаниями. Так что игровые Ampere производятся на фабриках Samsung скорее всего из-за несогласия Nvidia с предложенными тайваньцами ценами или другими условиями.

Как и предыдущие чипы компании, GA102 состоит из укрупненных кластеров Graphics Processing Cluster (GPC), которые включают несколько кластеров текстурной обработки Texture Processing Cluster (TPC), которые содержат потоковые процессоры Streaming Multiprocessor (SM), блоки растеризации Raster Operator (ROP) и контроллеры памяти. Полный чип GA102 содержит семь кластеров GPC, 42 кластера TPC и 84 мультипроцессора SM. Каждый GPC содержит шесть TPC, каждый из пары SM, а также один движок PolyMorph Engine для работы с геометрией.

GPC — это высокоуровневый кластер, включающий все ключевые блоки для обработки данных внутри него, каждый из них имеет выделенный движок растеризации Raster Engine и теперь включает два раздела ROP по восемь блоков каждый — в новой архитектуре Ampere эти блоки не привязаны к контроллерам памяти, а находятся прямо в GPC. В итоге, полный GA102 содержит 10752 потоковых CUDA-ядра, 84 RT-ядер второго поколения и 336 тензорных ядер третьего поколения. Подсистема памяти полного GA102 содержит двенадцать 32-битных контроллеров памяти, что дает 384-бит в общем. Каждый 32-битный контроллер связан с разделом кэш-памяти второго уровня объемом в 512 КБ, что дает общий объем L2-кэша в 6 МБ для полной версии GA102.

Но пока что мы говорили о полном чипе, а даже топовая модель видеокарты GeForce RTX 3090 использует слегка урезанный по количеству блоков вариант GA102. Эта модификация получила незначительно сниженные характеристики, в которой активных кластеров GPC осталось семь, а количество блоков SM снизилось лишь на два — то есть, в одном из GPC просто отключили один из кластеров TPC с парой мультипроцессоров. Соответственно, в итоге отличается и количество других блоков: 10496 CUDA-ядер, 328 тензорных ядер и 82 RT-ядра. Текстурных блоков осталось 328 штук, а вот блоки ROP активны все — 112. Эти показатели заметно выше, чем у RTX 3080, но это все равно не полный чип.

Еще одно важнейшее отличие от GeForce RTX 3080 заключается в наличии 24 ГБ быстрой GDDR6X-памяти, которая подключена по полной 384-битной шине, что дает чуть ли не терабайт пропускной способности. В отличие от 10 ГБ у «средней» модели RTX 3080, этого объема точно хватит на все. Хотя Nvidia уверяет, что ни одна игра в 4K-разрешении не требует большего объема памяти, но скоро выйдут консоли нового поколения с большим объемом памяти и быстрыми SSD, и некоторые мультиплатформенные или портированные с них игры могут начать требовать большего, чем 10 ГБ локальной видеопамяти.

Пропускная способность также увеличилась и достигла 936 ГБ/с. Но для столь мощного GPU и этого может не всегда хватать, особенно при удвоении общей производительности. Кроме того, хотя Micron указывает эффективную рабочую частоту памяти как 21 ГГц, Nvidia в своих продуктах использует довольно консервативные 19,5 для RTX 3090 — интересно, в чем тут дело? В сырости нового типа памяти и/или ее слишком высоком энергопотреблении?

Подробно рассматривать архитектурные улучшения Ampere в этой статье мы не будем, все написано в теоретическом материале по GeForce RTX 3080. Основным нововведением Ampere является удвоение FP32-производительности для каждого мультипроцессора SM, по сравнению с семейством Turing, что привело к значительному повышению пиковой производительности. Почти то же самое касается и RT-ядер — хотя их число и не изменилось, внутренние улучшения привели к удвоению темпа поиска пересечений лучей с геометрией. Улучшенные тензорные ядра хоть и не удвоили производительность при обычных условиях, но темп вычислений удвоился, а также появилась возможность удвоения скорости обработки так называемых разреженных матриц.

Все остальные архитектурные особенности игровых решений Ampere, включая изменения в мультипроцессорах SM, блоках ROP, системе кэширования и текстурирования, тензорных и RT-ядрах, подробно рассмотрены в теоретическом обзоре RTX 3080. Там же приведены сведения о новом типе памяти GDDR6X, который применяется в старших чипах новой линейки. Все улучшения привели к достижению довольно высокой энергоэффективности, вся архитектура Ampere делалась с упором на это, включая доработанный техпроцесс Samsung, дизайн чипов и печатных плат, оптимизацию ПО и многое другое.

Добавим лишь небольшое дополнение про интереснейший набор технологий RTX IO, обеспечивающих быструю передачу и распаковку ресурсов на GPU, что повышает производительность системы ввода-вывода в десятки раз, по сравнению с привычными HDD и традиционными API. RTX IO в будущем обеспечит очень быструю загрузку ресурсов игры и позволит создавать гораздо более разнообразные и детализированные виртуальные миры.

RTX IO распаковывает данные при помощи потоковых процессоров GPU, это осуществляется асинхронно — при помощи высокопроизводительных вычислительных кернелов, используя механизмы прямого доступа к памяти архитектур Turing и Ampere, также помогает в процессе улучшенный набор инструкций и новая архитектура мультипроцессоров SM, позволяющая использовать расширенные асинхронные вычислительные возможности.

У Nvidia все необходимое для работы этой технологии было и раньше в их собственной технологии GPUDirect Storage, но за исключением распаковки сжатых данных на GPU. Именно в этом и заключается принципиально новая возможность RTX IO и DirectStorage API. При использовании GPU Nvidia и ранее можно было осуществить подобный подход в операционных системах Linux, но в Windows есть определенные фундаментальные архитектурные ограничения, не позволяющие реализовать прямой обмен данными в полной мере.

Поэтому разработчикам придется ждать, пока Microsoft реализует эти возможности в их собственном DirectStorage API. Впрочем, это не должно сильно помешать, так как вряд ли в ближайшие годы появятся игры, даже портированные с консолей следующего поколения, которые смогут полностью использовать возможности быстрых SSD. Пока что разработчики все еще ориентируются на механические HDD-накопители, но так как рыночная доля SSD (NVMe, в частности) растет быстро, то пройдет пара-тройка лет, и такие игры точно появятся.

Поддержка технологии DLSS в 8K

Совсем недавно 4K-разрешение казалось очень высоким, а теперь 8K-телевизоры уже предлагаются на рынке в исполнении компаний LG, Samsung и Sony, и цены на них начинаются от $2999. Распространению 8K мешает не только отсутствие соответствующего контента в подобном разрешении, но и высочайшая требовательность. Такие условия не только предъявляют вчетверо больше требований к мощности GPU, но и повышенный объем видеопамяти для загрузки всех необходимых ресурсов повышенного качества. Даже простое декодирование 8K-видео в форматах H.265 и VP9 может быть слишком требовательной задачей, не говоря уже о его кодировании и уж тем более 3D-рендеринге.

Зачем вообще нужно высокое разрешение? Разве не важнее само качество затенения, освещения, качественного наложения теней и так далее? Конечно важнее, но все эти улучшения труднее увидеть в низких разрешениях, когда изображение расплывчатое. Увеличение разрешения позволяет повысить общие четкость и детализацию, а вместе с этим и реалистичность. Конечно, это не стоит делать, снижая качество графики, все должно быть сбалансировано. Но именно в высоких разрешениях, вроде 8K, и можно увидеть мелкие детали.

Устройства вывода с поддержкой 8K-разрешения (7680×4320 пикселей) выводят 33 миллиона пикселей несколько раз в секунду, по сравнению с парой миллионов для Full HD и 8 миллионами для 4K. Так что вполне можно себе предположить приличный шаг в улучшении четкости, если учитывать разницу между Full HD и 4K, которую все уже видели. Столь большое количество пикселей позволяет увидеть максимальное количество деталей в сгенерированной картинке. Например, по 8K-скриншоту из игры Watch Dogs: Legion:

Видеокарта GeForce RTX 3090 в принципе является наиболее подходящей для 8K-разрешения. Во-первых, вместо двух кабелей для подключения к устройствам с разъемом HDMI 2.1 на всех Ampere можно использовать лишь один кабель. Во-вторых, это максимально производительный графический процессор на сегодня, а даже 4K-разрешение требует подобной мощности, не говоря уже о 8K. И в-третьих, зачастую 3D-приложения в высоком разрешении используют очень много видеопамяти, а GeForce RTX 3090 имеет более чем вдвое больший объем видеопамяти, по сравнению с прошлым флагманом компании — RTX 2080 Ti с его 11 ГБ. Новая модель несет 24 ГБ памяти нового типа GDDR6X с высокой пропускной способностью, которая также важна для 8K. Так что Nvidia не так уж далека от истины, когда называет этот GPU первым подходящим для 8K. Но все не так просто, ведь даже в 4K порой недостаточно производительности, особенно при включенной трассировке лучей.

Давно известно, что трассировка лучей — это крайне затратный и ресурсоемкий процесс. Настолько, что компания Nvidia сделала аппаратную поддержку так называемого Deep Learning Super Sampling (DLSS) в своем предыдущем поколении Turing. Этот метод повышения производительности использует возможности выделенных тензорных ядер для работы нейросети, которая дорисовывает недостающие пиксели при переводе изображения из более низкого разрешения в требуемое.

Например, для того, чтобы получить приемлемую производительность с применением трассировки в 4К, картинка отрисовывается в меньшем разрешении (вплоть до Full HD в случае производительного режима DLSS) и далее восстанавливается до полноценного разрешения при помощи заранее подготовленной нейросети, которая работает с использованием информации из предыдущих кадров и способна отображать даже мелкие детали. В итоге, картинка получается схожей с той, что получается при рендеринге в полном разрешении, при этом общая производительность будет намного выше. А сам по себе алгоритм DLSS требует совсем немного ресурсов GPU.

Вместе с выходом решений архитектуры Ampere были добавлены некоторые улучшения и в технологию DLSS — в частности, была проведена оптимизация под тензорные ядра третьего поколения и улучшенные асинхронные вычисления, а также появился новый режим для разрешения 8K. Он использует рендеринг изображения с в 9 раз меньшим количеством пикселей и затем восстанавливает его до полного разрешения 8K. Именно такой подход и позволяет получить качество высокого разрешения при сохранении 60 FPS даже в играх с поддержкой трассировки лучей.

При работе DLSS в 8K применяется улучшенная модель для нейросети, которая использует рендеринг в разрешении 2560×1440 и затем растягивает его до 7680×4320 с использованием мощи тензорных ядер. Даже на 4K-мониторе видно, насколько лучше становится качество в восстановленном при помощи DLSS изображении. Это и неудивительно, ведь оно предлагает в 16 раз больше пикселей чем Full HD, и вчетверо больше 4K.

Вообще, DLSS 2.1 включает три улучшения: новый режим Ultra Performance, позволяющий запускать игры в разрешении 8K при помощи DLSS на GeForce RTX 3090; поддержку VR-приложений и динамического разрешения, когда разрешение рендеринга входного кадра для DLSS изменяется постоянно, но выходное всегда фиксировано — так что если игровой движок поддерживает динамическое разрешение, то эта DLSS позволяет довольно легко отмасштабировать его до разрешения дисплея с максимально возможным качеством.

В играх с поддержкой технологии, у пользователей появится выбор из четырех режимов качества DLSS: Quality, Balanced, Performance и Ultra Performance. Поддержка последней версии технологии DLSS, включая режим Ultra Performance для 8K, должна появиться в следующих играх: Boundary, Bright Memory Infinite, Control, Call of Duty: Black Ops Cold War, Cyberpunk 2077, Death Stranding, Justice, Fortnite, Minecraft RTX, Ready or Not, Scavengers, Watch Dogs: Legion и Wolfenstein: Youngblood.

Применение в профессиональном ПО

Видеокарта модели GeForce RTX 3090 предназначена не только для богатых энтузиастов игр на ПК, но и различных представителей современной индустрии, использующих мощь современных графических процессоров в собственной работе: дизайнеры, 3D-аниматоры, ИИ-разработчики, ученые и многие другие, нацеленные на использование самых мощных GPU в мире. Именно GeForce RTX 3090 и является таковым, предлагая максимум всего. Аналогично своему условному предшественнику в виде Titan RTX, новинка несет на борту 24 ГБ быстрой памяти, важной для всех перечисленных категорий пользователей, в частности для обработки видеоданных в формате 8K HDR, а также предлагает высочайшую производительность в вычислительных приложениях, в том числе с аппаратной поддержкой трассировки лучей.

Новое семейство видеокарт GeForce RTX 30 приносит улучшенные возможности по ускорению рендеринга в таких популярных приложениях, как Blender Cycles, Chaos V-Ray и Autodesk Arnold. Помимо вдвое более производительных RT-ядер и удвоенного темпа исполнения математических вычислений в GPU новой архитектуры Ampere, отдельно отметим новую возможность для ускорения смазывания в движении (motion blur) для трассированных изображений, которая ускоряется на RTX 30 в несколько раз, вплоть до пяти. А огромный объем видеопамяти в 24 ГБ позволяет загрузить в нее большие 3D-проекты для аппаратной обработки полностью, без необходимости использования медленной системной памяти.

Новая архитектура Ampere помогает ускорять и приложения искусственного интеллекта, также применяемые в 3D-графике в виде технологии DLSS и постфильтров шумоподавления. Например, технология DLSS повышает производительность рендеринга в реальном времени не только в играх, но и в приложениях визуализации, вроде D5 Render. Тензорные ядра третьего поколения помогают ускорить процесс шумоподавления в рендерерах Blender Cycles, Chaos V-Ray и Autodesk Arnold, а также повысить разрешение видеороликов или улучшить качество замедленного видео в Davinci Resolve.

Серия GeForce RTX 30 отлично подходит для всех перечисленных применений, ведь в число новых возможностей входит поддержка PCI Express четвертого поколения, удваивающая производительность каналов между GPU и остальной системой, что помогает при передача огромных объемов данных при обработке видеороликов высокого разрешения. Для этой же цели будет полезен очень большой объем локальной видеопамяти в 24 ГБ. Многие приложения по работе с видеоданными позволят комфортно работать с множеством эффектов при обработке 8K-видео. А в приложениях с применением трассировки лучей средняя производительность решений на базе архитектуры Ampere в 1,8–2,4 раза выше, чем у аналогичных GPU из семейства Turing:

Мы уже писали о том, что в архитектуре Ampere появилось аппаратное ускорение эффекта смазывания в движении при трассировке лучей. Одним из первых рендереров с поддержкой такой возможности стал Blender Cycles, и в результате процесс ускоряется вплоть до пяти раз. Это в теории, а в реальных сценах поменьше, конечно. Использование RTX-ускорения в рендерере Cycles дает высококачественное смазывание без артефактов при высокой скорости. Blender — это очень популярное ПО для 3D-моделирования, анимации и рендеринга, которое может использовать возможности ускорения трассировки лучей на GPU при помощи Nvidia Optix, как для финального рендеринга, так и при предпросмотре прямо в окне Blender, что дает возможность удобной оценки получаемых материалов, освещения и теней.

Еще один популярный рендерер — OctaneRender. Это независимый рендерер, использующий возможности CUDA и RTX и доступный в большинстве популярных приложений по созданию 3D-контента: Autodesk Maya и 3ds Max, Maxon Cinema 4D, DAZ 3D, Side Effects Houdini, Unreal Engine и других. Также Octane включает полноценный внешний редактор рендеринга, позволяющий отрисовывать сцены без необходимости запуска стороннего ПО. Предварительная версия OctaneRender 2020.1.5 получила поддержку второго поколения RTX, включая аппаратное ускорение трассировки лучей на RT-ядрах и оптимизации работы ИИ на тензорных ядрах — для шумоподавления.

В результате на Ampere достигается производительность примерно вдвое выше, чем на соответствующих Turing. Использование технологий Nvidia для рендеринга с трассировкой лучей и со смазыванием в движении, а также ускоренном при помощи ИИ шумоподавлении, 3D-приложения вроде Blender позволяют специалистам повысить производительность труда и быстрее получать итоговый результат. Также в приложения по созданию цифрового контента потихоньку внедряется и технология DLSS. Это позволяет получить в программе визуализации D5 Render неплохие 35 FPS вместо 19 FPS без DLSS в одной из сцен. То же самое касается и Autodesk VRED 2021, позволяющем получить трассированные изображения высокого качества в реальном времени.

Отметим также относительно новую форму искусства Машинима (Machinima — сочетание machine и cinema), в которой для создания кинематографических шедевров применяются игровые движки и модели и текстуры из игр же. Машинима стала популярной в 90-е годы, и имеет немало поклонников. Компания Nvidia, желающая поддержать таких энтузиастов, представила специальное средство для создания подобных роликов — Omniverse Machinima.

Оно значительно упрощает подобную работу, предоставляя инструменты для просмотра и движок с поддержкой трассировки лучей, корректных физических взаимодействий, включая симуляцию жидкостей и частиц, продвинутых материалов и т. д. Все желающие смогут использовать ресурсы из списка поддерживаемых игр, и при помощи ИИ и собственных действий создавать качественную анимацию кинематографического качества при помощи мощных графических процессоров серии RTX 30.

Создание контента подобной сложности всегда представляло определенные проблемы из-за ограничений игровых ресурсов и имеющихся инструментов для анимации. Довольно сложно создать долгую и реалистичную анимацию современного уровня, но теперь, благодаря внедрению технологий Nvidia, создатели Machinima будут иметь под рукой богатый набор инструментов с расширенными возможностями для создания собственных историй в реальном времени. Для анимации персонажей достаточно веб-камеры, микрофона и специального алгоритма обработки с применением ИИ.

При помощи Nvidia Omniverse можно импортировать ресурсы из поддерживаемых игр и сторонних библиотек ресурсов, а затем автоматически анимировать персонажей при помощи использования специального средства позирования с применением возможностей ИИ и записей с веб-камеры. Лица персонажей можно оживить при использовании технологии Nvidia Audio2Face просто с помощью аудиозаписи с голосом.

Также можно имитировать физические взаимодействия высокой реалистичности с применением систем частиц и симуляции поведения жидкостей. После создания всех сцен, итоговый фильм можно отрисовать с применением трассировки пути при помощи рендерера Omniverse RTX. Бета-версия Nvidia Omniverse Machinima должна появиться в октябре.

Особенности видеокарты Nvidia GeForce RTX 3090 Founders Edition

Сведения о производителе: Компания Nvidia Corporation (торговая марка Nvidia) основана в 1993 году в США. Штаб-квартира в Санта-Кларе (Калифорния). Разрабатывает графические процессоры, технологии. До 1999 года основной маркой была Riva (Riva 128/TNT/TNT2), с 1999 года и по настоящее время — GeForce. В 2000 году были приобретены активы 3dfx Interactive, после чего торговые марки 3dfx/Voodoo перешли к Nvidia. Своего производства нет. Общая численность сотрудников (включая региональные офисы) — около 5000 человек.

Объект исследования: ускоритель трехмерной графики (видеокарта) Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X

Характеристики карты

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ 384-битной GDDR6X
GPU	GeForce RTX 3090 (GA102)
Интерфейс	PCI Express x16 4.0
Частота работы GPU (ROPs), МГц	1395—1695(Boost)—1995(Max)
Частота работы памяти (физическая (эффективная)), МГц	4875 (19500)
Ширина шины обмена с памятью, бит	384
Число вычислительных блоков в GPU	82
Число операций (ALU/CUDA) в блоке	128
Суммарное количество блоков ALU/CUDA	10496
Число блоков текстурирования (BLF/TLF/ANIS)	328
Число блоков растеризации (ROP)	112
Число блоков Ray Tracing	82
Число тензорных блоков	328
Размеры, мм	310×125×53
Количество слотов в системном блоке, занимаемые видеокартой	3
Цвет текстолита	черный
Энергопотребление пиковое в 3D, Вт	364
Энергопотребление в режиме 2D, Вт	38
Энергопотребление в режиме «сна», Вт	11
Уровень шума в 3D (максимальная нагрузка), дБА	34,7
Уровень шума в 2D (просмотр видео), дБА	18,0
Уровень шума в 2D (в простое), дБА	18,0
Видеовыходы	1×HDMI 2.1, 3×DisplayPort 1.4a
Поддержка многопроцессорной работы	SLI (NVlink)
Максимальное количество приемников/мониторов для одновременного вывода изображения	4
Питание: 8-контактные разъемы	1 (12-контактный) c адаптером на 2 8-контактных разъема
Питание: 6-контактные разъемы	0
Максимальное разрешение/частота, Display Port	7680×4320@60 Гц
Максимальное разрешение/частота, HDMI	7680×4320@60 Гц
Максимальное разрешение/частота, Dual-Link DVI	2560×1600@60 Гц (1920×1200@120 Гц)
Максимальное разрешение/частота, Single-Link DVI	1920×1200@60 Гц (1280×1024@85 Гц)
Средняя розничная стоимость карты Palit	около 150 тысяч рублей на момент подготовки обзора

Память

Карта имеет 24 ГБ памяти GDDR6X SDRAM, размещенной в 24 микросхемах по 8 Гбит на обеих сторонах PCB (по 12 на каждой). Микросхемы памяти Micron (GDDR6X, MT61K256M32JE-21) рассчитаны на условную номинальную частоту работы в 5250 (21000) МГц. Расшифровщик кодов на упаковках FBGA находится здесь.

Особенности карты и сравнение с Nvidia GeForce RTX 2080 Ti

<

Полный текст статьи читайте на iXBT

Nvidia GeForce RTX 3090 Founders Edition 24 ГБ	Nvidia GeForce RTX 2080 Ti 11 ГБ