Итоги 2014 года: графические ускорители. Мы ждем перемен!

Год 2013-й принес второе поколение мощных GPU, построенных по отточенному техпроцессу 28 нм, — NVIDIA GK110 и AMD Hawaii (последние, между прочим, невиданного до той поры физического размера), а 2014-й мы встретили в ожидании первых продуктов на базе нового техпроцесса. В итоге конвейер 20 нм действительно заработал на тайваньской TSMC, но только лишь для мобильных систем-на-чипе. Как NVIDIA, так и AMD пока стоят в сторонке, хотя и были слухи, что «красные» по традиции первыми сделают рывок и выпустят 20-нанометровые GPU в конце 2014 года. Эти планы теперь отложены на 2015 год, но — если верить слухам, которые все лучше согласуются друг с другом по мере того, как приближается вероятная дата релиза новых устройств, — ожидание сполна вознаградится.

Но будем последовательными. Вспомним же наиболее яркие события в целом застойного для индустрии графики 2014 года, а затем обобщим все, что мы надеемся увидеть в следующем.

⇡#Что было

Дебют NVIDIA Maxwell

Для NVIDIA потенциал техпроцесса 28 нм далеко не исчерпан. В рамках архитектуры Kepler удалось выпустить такой крупный процессор, как GK110, состоящий из 7,1 млрд транзисторов, не выйдя за рамки теплового пакета 250 Вт, который является ориентиром для мощных дискретных GPU. Но Maxwell показал, что еще есть пространство для дополнительных оптимизаций.

В чипах Maxwell NVIDIA переработала топологию потокового мультипроцессора (SMM) — унифицированного строительного блока GPU, упростив логику планировщиков нагрузки. В результате удалось существенно сократить площадь SMM, сохранив около 90% исходной производительности. Как итог — практически удвоенный показатель производительности на единицу мощности в сравнении с Kepler, причем не только на бумаге, но и на практике.

Пока существует четыре десктопных видеоадаптера семейства Maxwell — GeForce GTX 750/750 Ti, GeForce GTX 970 и GTX 980. Остальные позиции в модельном ряду NVIDIA занимают продукты на базе Kepler. В целом «зеленая» линейка сейчас довольно сложно структурирована и включает одновременно представителей серий GeForce 600, GeForce 700 и GeForce 900. Путаницу усиливает тот факт, что NVIDIA пропустила серию GeForce 800 для десктопных адаптеров.

Игровые видеокарты начального уровня GeForce GTX 750 и GTX 750 Ti на чипе GM107 стали пробным шаром для Maxwell, который впервые продемонстрировал потрясающую энергоэффективность новой архитектуры. В тестах GTX 750 Ti одержал победу над GeForce GTX 650 Ti и Radeon R7 260X, энергопотребление которых практически вдвое выше.

NVIDIA GeForce GTX 750 Ti

Гораздо более важно, что NVIDIA удалось перенести преимущества Maxwell на более крупный GPU — GM204. Согласно действующей номенклатуре, это второй по старшинству чип в линейке: он включает 5,2 млрд транзисторов (для сравнения, GK110 — 7,1 млрд). Несмотря на это, GeForce GTX 980 стал эквивалентной заменой GeForce GTX 780 Ti по производительности , притом, что по энергопотреблению эта карта сравнима с GeForce GTX 770. Но если посмотреть другой стороны, то на практике GTX 980 не дает практически никакого прироста быстродействия по сравнению с GTX 780 Ti. Единственная реальная польза — это то, что благодаря удешевлению производства цена флагманской платы с одним GPU на момент релиза опустилась до привычной отметки $549.

NVIDIA GeForce GTX 980

GeForce GTX 970, в котором у GM204 отключена часть вычислительных блоков, — в практическом плане куда более интересная карта, чем GTX 980. Блоки, конечно, отключены, но в результате GTX 970 мало уступает в реальной производительности своему старшему родственнику и играет на равных с Radeon R9 290X. При этом официальная цена карты — скромные для без пяти минут флагмана $329.

AMD могла ответить на эту атаку только одним способом — сбросить цены на Radeon R9 290/290X до такого же уровня. Выставить равного соперника для GeForce GTX 980 «красные» пока не в состоянии. Тем не менее AMD сохраняет прочную позицию в сфере GP-GPU (неграфических вычислений), поскольку архитектура GCN изначально заточена под такие приложения. NVIDIA, напротив, в последних итерациях своего кремния сократила управляющую логику, которая имеет большое значение для большинства расчетных задач.

GM204 также наделили специфическими функциями рендеринга, которые NVIDIA использует для ускорения VXGI (Voxel Global Illumination) — метода глобального освещения на базе вокселов, работающего в реальном времени. Демонстрации весьма впечатляют, но, как обычно бывает с эксклюзивными технологиями, внедрение VXGI в реальных играх зависит от того, войдут ли необходимые алгоритмы в новый feature level DirectX 12 (об этом мы поговорим ниже).

VXGI в действии

⇡#Двухчиповые видеоадаптеры на NVIDIA GK110 и AMD Hawaii

Когда одиночные GPU не могут обеспечить прогресс вычислительной мощности, на помощь приходит проверенное решение — двухпроцессорные графические карты. И хотя систему SLI/CrossFire можно было собрать из двух отдельных видеокарт GeForce GTX 780/780 Ti или Radeon R9 290/290X сразу, как только они появились в продаже, двухголовый монстр — это вопрос престижа производителя.

NVIDIA было легче справиться с задачей, ведь GK110 — более холодный чип по сравнению с Hawaii, гордостью AMD. Трехслотовая система охлаждения выглядит пугающе, но благодаря ей GTX TITAN Z может заменить сборку из двух дискретных GTX TITAN Black в одном корпусе. TITAN Z позиционируется как микс игровой и профессиональной видеокарты, что подкрепляют полностью разблокированные блоки FP64 в графических процессорах. Вот только цена обескураживает: ни много ни мало 3 тысячи долларов (на тысячу больше пары TITAN Black). TITAN Z может быть востребован как ускоритель неграфических вычислений для компактных рабочих станций, но не будем кривить душой: это притянутое за уши оправдание для такой безумной наценки.

NVIDIA GeForce GTX TITAN Z

Работая над конкурирующим продуктом — R9 295×2 — AMD пошла на радикальные меры: два GPU Hawaii на одной плате ничуть не потеряли в частотах по сравнению с одиночными видеокартами, а стало быть, и тепловыделение достигает 300 Вт на брата. Но вместо того, чтобы наращивать габариты воздушного кулера, Radeon R9 295×2 сделали первым графическим адаптером, который оснащается системой жидкостного охлаждения в референсной конфигурации.

С практической точки зрения Radeon R9 295×2, оцененный в $1 500 при близкой к показателям TITAN Z производительности, явно выигрывает у последнего. Правда, купить два R9 295×2 для игр по цене одного TITAN Z — бессмысленное предприятие. Сборки из четырех GPU никогда не были рекомендованы для этой цели, и ПО просто не оптимизировано под такие конфигурации. А вот для компактного вычислительного кластера AMD предложила идеальное железо. Благо «красные» не ограничивают GPU Hawaii по производительности в расчетах FP64 в любых продуктах.

AMD Radeon R9 295×2

DirectX 12

Выпустив API Mantle, AMD простимулировала развитие DirectX. До этого момента уже складывалось впечатление, что для наиболее универсального API наступил конец истории. Действительно, крупного обновления DirectX не знал с 2009 года. Грядущий релиз DirectX 12 сосредоточен не на расширении функций рендеринга, а на оптимизации runtime-библиотеки API.

AMD показала, что при определенной нагрузке DirectX 11 является бутылочным горлышком, ограничивающим производительность системы. Речь идет о ситуациях, когда экранное пространство наполнено множеством отдельных объектов, пусть и с простой геометрией. В таком случае время центрального процессора расходуется совсем не так эффективно, как при использовании того же Mantle.

Переработанный конвейер рендеринга Direct3D 12 лишен этого недостатка. Кроме того, API в целом стал более низкоуровневым, чем Direct3D 11. Некоторые функции, которые библиотека Direct3D 11 выполняет сама, теперь возложены на графический движок приложения, что, с одной стороны, дает возможность более эффективно распоряжаться ресурсами, а с другой — усложняет задачу разработчика.

Потенциально все GPU, работающие под управлением DirectX 11, совместимы с DirectX 12. Но следует различать собственно runtime-библиотеку API и новый feature level — набор функций рендеринга. Microsoft приняла в стандарт несколько технологий, которые, впрочем, не будут особо заметны на экране. В будущие GPU их будут внедрять на аппаратном уровне.

Cпецификации API уже финализированы в достаточной степени, чтобы разработчики приложений могут заранее приступить к внедрению DX12. Mircosoft пообещала появление первых игр с поддержкой DX12 в конце 2015 года. Будущее Mantle в связи с этой новостью выглядит туманным, хотя игры с его поддержкой продолжают выходить.

⇡#Что будет

AMD внедряет техпроцесс 20 нм и «трехмерную» память

В 2015-м AMD твердо намерена выпустить коммерчески доступные видеокарты, произведенные по техпроцессу 20 нм. Согласно неофициальным источникам, уже в первой половине года ожидается выход нового флагмана «красных» — Radeon R9 390X на чипе Bermuda. Примечательно, что в качестве подрядчика по производству микросхем слухи указывают не TSMC, а компанию GlobalFoundries, которой AMD некогда владела.

Ожидается, что R9 390X, как и положено наследнику, превзойдет Radeon R9 290X, основанный на GPU Hawaii, по числу вычислительных блоков. Данные совершенно спекулятивные — основаны они отчасти на результатах просочившихся в прессу бенчмарков, но вот: 4224 потоковых процессора, 264 текстурных блока, 96 ROP. Напомним, что действующий лидер среди GPU AMD — Hawaii, содержит 2816 потоковых процессоров, 176 текстурных блоков, 64 ROP.

В норме для того, чтобы столь крупный GPU, как Bermuda, смог работать на адекватных частотах, без перехода на более тонкий производственный узел не обойтись. Смущает одно. Если судить по очередному «сливу», AMD укомплектует Radeon R9 390X гибридной воздушно-водяной системой охлаждения. Столь массивное тепловыделение — это явно не то, чего следует ожидать от нового прогрессивного техпроцесса, поэтому оптимисты, ждущие в лице R9 390X первый крупный кристалл, выпущенный по норме 20 нм, могут все же проиграть свои ставки.

Кохуж вероятного прототипа AMD Radeon R9 390X

Кстати, прогрессивный техпроцесс — это еще не все, чем нас поразит будущий флагман AMD. Предположительно в R9 390X будет применяться оперативная память типа HBM (High Bandmidth Memory — то же, что и Stacked DRAM) производства SK hynix. В этой технологии несколько кристаллов памяти соединяются сквозными контактами. За счет экономии площади чипа и упрощения разводки платы ширину шины устройства многократно увеличили. Сборка чипов GDDR 5 общей емкостью 1 Гбайт обладает 1024-битной шиной с пропускной способностью 128 Гбайт/с. Radeon R9 390X располагает четырьмя такими сборками, что дает в совокупности 512–533 Гбайт/с (в зависимости от частоты). Для сравнения: в GeForce GTX 780 Ti этот параметр составляет 336 Гбайт/с, а в GTX 980 — всего 224 Гбайт/с.

Графический процессор под кодовым названием Fiji, некогда считавшийся кандидатом на роль нового флагмана AMD, обрел очертания в виде чипа второго эшелона с 3840 потоковыми процессорами, который ляжет в основу адаптера Radeon R9 380X. Как и флагман, R9 380X также получит высокоскоростную память HBM.

NVIDIA: от 28 к 16 нм

Согласно номенклатуре GPU NVIDIA, чип GM204, лежащий в основе действующего флагмана «зеленых», — это продукт второго эшелона. «Инсайды» и следы в базах бенчмарков говорят, что топовый графический процессор в линейке Maxwell получит кодовое название GM200. По свежей информации, чип несет 3072 ядра CUDA и обладает 384-битной шиной памяти. Тактовая частота GPU составляет 1,1/1,39 ГГц. На плате найдут место 12 Гбайт памяти GDDR 5 с эффективной частотой 6 ГГц. Также засветился облегченный вариант адаптера с 2688 ядрами CUDA.

Ожидается, что GM204 повторит путь GK110, топового GPU семейства Kepler, и сперва увидит свет под маркой GeForce GTX TITAN II. Альтернативный вариант позиционирования — GeForce GTX 980 Ti. В архитектуре Maxwell NVIDIA совершила маленькое чудо, увеличив производительность на единицу мощности практически вдвое по сравнению с архитектурой Kepler. Высказываются ожидания, что ускоритель на базе полностью разблокированного чипа GM200 на 50% превзойдет GeForce GTX TITAN Black по вычислительной способности.

Благодаря достоинствам Maxwell NVIDIA в общем-то не испытывает настоятельной необходимости переходить на техпроцесс 20 нм. Скорее всего, GM200 займет нишу  с энергопотреблением в районе 250 Вт, которую покинул GK110.

Если судить по предварительным результатам бенчмарков (принимать которые следует со здоровой долей скпетицизма), GM200 в полновесной конфигурации можно рассматривать как соперника AMD Bermuda топовой версии XT. И все же продукт AMD имеет зримое преимущество, которое можно отнести на счет высокопроизводительной памяти.

Если предсказания не разойдутся с реальностью, то это значит, что NVIDIA придется уступить лидерство в сфере дискретной графики вплоть до внедрения технологии FinFet 16 нм в топовых GPU. Такая производственная линия уже действует на TSMC, и в конце 2015 — начале 2016 года NVIDIA может пожать первые плоды. Скорее всего, новый техпроцесс будут испытывать на GPU помельче: на сжатой версии GM204 и чипе третьего эшелона семейства Maxwell — GM206.

NVIDIA Pascal

В отдаленной перспективе маячит архитектура Pascal. Нечто похожее на опытный образец NVIDIA показала на GPU Developers Conference в этом году. Плата размером с две кредитки демонстрирует новый форм-фактор для вычислительных кластеров с шиной NVLINK. По сравнению с PCIe 3.0 NVLINK обеспечит троекратное увеличение энергоэффективности и пропускную способность в 5–12 раз больше. NVIDIA заручилась поддержкой IBM, которая внедрит NVLINK в будущих поколениях процессоров Power. С другими производителями CPU ведутся переговоры. Для десктопных компьютеров Pascal будет выпущен в привычном формате платы расширения PCIe.

Прототип платы с GPU Pascal

GPU Pascal, как и будущие продукты AMD, оснащается трехмерными чипами DRAM и принесет радикальное увеличение производительности на ватт по сравнению с архитектурой Maxwell. Никаких подробностей о финальных устройствах и сроках выхода не сообщают.

Приложение. Актуальные линейки дискретных видеоадаптеров AMD и NVIDIA

Дискретные видеоадаптеры AMD Модель

Графический процессор

Видеопамять

Шина ввода/вывода

TDP, Вт

Кодовое название

Число транзис-торов, млн

Тех-процесс, нм

Тактовая частота, МГц: High State / Boost State

Число потоковых процессоров

Число текстурных блоков

Число ROP

Разряд-ность шины, бит

Тип микросхем

Тактовая частота: реальная (эффективная), МГц

Объем, Мбайт

Radeon R5 230

Caicos

370

40

625/–

160

8

4

64

GDDR3 SDRAM

533 (1066)

1024/2048

PCI Express 2.1×16

19

Radeon R7 240

Oland PRO

1040

28

730/780

320

20

8

128

GDDR3/GDDR5 SDRAM

900 (1800) / 1125 (4500)

1024/2048

PCI Express 3.0×16

30

Radeon R7 250

Oland XT

1040

28

1000/1050

320

20

8

128

GDDR3/GDDR5 SDRAM

900 (1800) / 1150 (4600)

1024/2048

PCI Express 3.0×16

75

Radeon R7 250X

Cape Verde XT

1500

28

1000/-

640

40

16

128

GDDR5 SDRAM

1125 (4500)

1024/2048

PCI Express 3.0×16

95

Radeon R7 260

Bonaire

2080

28

-/1000

768

48

16

128

GDDR5 SDRAM

1500 (6000)

1024/2048

PCI Express 3.0×16

95

Radeon R7 260X

Bonaire XTX

2080

28

-/1100

896

56

16

128

GDDR5 SDRAM

1625 (6500)

1024/2048

PCI Express 3.0×16

115

Radeon R7 265

Curacao PRO

2800

28

900/925

1024

64

32

256

GDDR5 SDRAM

1400 (5600)

2048

PCI Express 3.0×16

150

Radeon R9 270

Curacao PRO

2800

28

900/925

1280

80

32

256

GDDR5 SDRAM

1400 (5600)

2048

PCI Express 3.0×16

150

Radeon R9 270X

Curacao XT

2800

28

1000/1050

1280

80

32

256

GDDR5 SDRAM

1400 (5600)

2048

PCI Express 3.0×16

180

Radeon R7 280

Tahiti PRO

4313

28

827/933

1792

112

32

384

GDDR5 SDRAM

1250 (5000)

3072

PCI Express 3.0×16

200

Radeon R9 280X

Tahiti XT2 / Tahiti XTL

4313

28

850/1000

2048

128

32

384

GDDR5 SDRAM

1500 (6000)

3072

PCI Express 3.0×16

250

Radeon R9 285

Tonga PRO

НД

28

918/-

1792

112

32

256

GDDR5 SDRAM

1375 (5500)

2048

PCI Express 3.0×16

190

Radeon R9 290

Hawaii PRO

6020

28

-/947

2560

160

64

512

GDDR5 SDRAM

1250 (5000)

4096

PCI Express 3.0×16

250

Radeon R9 290X

Hawaii XT

6020

28

-/1000

2816

176

64

512

GDDR5 SDRAM

1250 (5000)

4096

PCI Express 3.0×16

250

Radeon R9 295×2

Vesuvius (2 × Hawaii XT)

2 × 6020

28

НД/1018

2 × 2816

2 × 176

2 × 64

2 × 512

GDDR5 SDRAM

1250 (5000)

2 × 4096

PCI Express 3.0×16

500

Дискретные видеоадаптеры NVIDIA Модель

Графический процессор

Видеопамять

Шина ввода/вывода

TDP, Вт

Кодовое название

Число транзисторов, млн

Тех-процесс, нм

Тактовая частота, МГц: Base Clock / Boost Clock

Число ядер CUDA

Число текстурных блоков

Число ROP

Разряд- ность шины, бит

Тип микросхем

Тактовая частота: реальная (эффективная), МГц

Объем, Мбайт

GeForce GT 610

GF119

292

40

810/-

48

8

4

64

GDDR3 SDRAM

900 (1800)

1024

PCI Express 2.0×16

29

GeForce GT 730 (128-bit)

GF108

585

40

700/-

96

16

4

128

GDDR3 SDRAM

900 (1800)

1024

PCI-Express 2.0×16

49

GeForce GT 720

GK208

1300

28

797/-

192

16

8

64

GDDR3 / GDDR5 SDRAM

900 (1800) / 1250 (5000)

1024/2048

PCI-Express 2.0×16

19

GeForce GT 730 (64-bit)

GK208

1300

28

902/-

384

16

8

64

GDDR3 / GDDR5 SDRAM

900 (1800) / 1250 (5000)

1024/2048

PCI-Express 2.0×16

23/25

GeForce GT 740

GK107

1300

28

902/-

384

32

16

128

GDDR3 / GDDR5 SDRAM

900 (1800) / 1250 (5000)

1024/2048

PCI-Express 3.0×16

65

GeForce GTX 750

GM107

1870

28

1020/1085

512

32

16

128

GDDR5 SDRAM

1250 (5000)

1024

PCI-Express 3.0×16

55

GeForce GTX 750 Ti

GM107

1870

28

1020/1085

640

40

16

128

GDDR5 SDRAM

1350 (5000)

2048

PCI-Express 3.0×16

60

GeForce GTX 660

GK106

2 540

28

980/1033

960

80

24

192

GDDR5 SDRAM

1502 (6008)

2048

PCI-Express 3.0×16

140

GeForce GTX 760

GK104

3 540

28

980/1033

1152

96

32

256

GDDR5 SDRAM

1502 (6008)

2048

PCI-Express 3.0×16

170

GeForce GTX 670

GK104

3 540

28

915/980

1344

112

32

256

GDDR5 SDRAM

1502 (6008)

2048

PCI-Express 3.0×16

170

GeForce GTX 970

GM204

5 200

28

1050/1178

1664

104

64

256

GDDR5 SDRAM

1750 (7000)

4096

PCI-Express 3.0×16

145

GeForce GTX 980

GM204

5 200

28

1126/1216

2048

128

64

256

GDDR5 SDRAM

1750 (7000)

4096

PCI-Express 3.0×16

165

GeForce GTX TITAN Black

GK110

7 100

28

889/980

2880

240

48

384

GDDR5 SDRAM

1750 (7000)

6144

PCI-Express 3.0×16

250

GeForce GTX TITAN Z

GK110

7 100

28

705/876

2880

240

48

2 × 384

GDDR5 SDRAM

1750 (7000)

2 × 6144

PCI-Express 3.0×16

375

Виджет от SocialMart

⇣ Содержание

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Материалы по теме

Полный текст статьи читайте на 3DNews