Итоги 2014 года: графические ускорители. Мы ждем перемен!
Год 2013-й принес второе поколение мощных GPU, построенных по отточенному техпроцессу 28 нм, — NVIDIA GK110 и AMD Hawaii (последние, между прочим, невиданного до той поры физического размера), а 2014-й мы встретили в ожидании первых продуктов на базе нового техпроцесса. В итоге конвейер 20 нм действительно заработал на тайваньской TSMC, но только лишь для мобильных систем-на-чипе. Как NVIDIA, так и AMD пока стоят в сторонке, хотя и были слухи, что «красные» по традиции первыми сделают рывок и выпустят 20-нанометровые GPU в конце 2014 года. Эти планы теперь отложены на 2015 год, но — если верить слухам, которые все лучше согласуются друг с другом по мере того, как приближается вероятная дата релиза новых устройств, — ожидание сполна вознаградится.
Но будем последовательными. Вспомним же наиболее яркие события в целом застойного для индустрии графики 2014 года, а затем обобщим все, что мы надеемся увидеть в следующем.
⇡#Что было
Дебют NVIDIA Maxwell
Для NVIDIA потенциал техпроцесса 28 нм далеко не исчерпан. В рамках архитектуры Kepler удалось выпустить такой крупный процессор, как GK110, состоящий из 7,1 млрд транзисторов, не выйдя за рамки теплового пакета 250 Вт, который является ориентиром для мощных дискретных GPU. Но Maxwell показал, что еще есть пространство для дополнительных оптимизаций.
В чипах Maxwell NVIDIA переработала топологию потокового мультипроцессора (SMM) — унифицированного строительного блока GPU, упростив логику планировщиков нагрузки. В результате удалось существенно сократить площадь SMM, сохранив около 90% исходной производительности. Как итог — практически удвоенный показатель производительности на единицу мощности в сравнении с Kepler, причем не только на бумаге, но и на практике.
Пока существует четыре десктопных видеоадаптера семейства Maxwell — GeForce GTX 750/750 Ti, GeForce GTX 970 и GTX 980. Остальные позиции в модельном ряду NVIDIA занимают продукты на базе Kepler. В целом «зеленая» линейка сейчас довольно сложно структурирована и включает одновременно представителей серий GeForce 600, GeForce 700 и GeForce 900. Путаницу усиливает тот факт, что NVIDIA пропустила серию GeForce 800 для десктопных адаптеров.
Игровые видеокарты начального уровня GeForce GTX 750 и GTX 750 Ti на чипе GM107 стали пробным шаром для Maxwell, который впервые продемонстрировал потрясающую энергоэффективность новой архитектуры. В тестах GTX 750 Ti одержал победу над GeForce GTX 650 Ti и Radeon R7 260X, энергопотребление которых практически вдвое выше.
NVIDIA GeForce GTX 750 Ti
Гораздо более важно, что NVIDIA удалось перенести преимущества Maxwell на более крупный GPU — GM204. Согласно действующей номенклатуре, это второй по старшинству чип в линейке: он включает 5,2 млрд транзисторов (для сравнения, GK110 — 7,1 млрд). Несмотря на это, GeForce GTX 980 стал эквивалентной заменой GeForce GTX 780 Ti по производительности , притом, что по энергопотреблению эта карта сравнима с GeForce GTX 770. Но если посмотреть другой стороны, то на практике GTX 980 не дает практически никакого прироста быстродействия по сравнению с GTX 780 Ti. Единственная реальная польза — это то, что благодаря удешевлению производства цена флагманской платы с одним GPU на момент релиза опустилась до привычной отметки $549.
NVIDIA GeForce GTX 980
GeForce GTX 970, в котором у GM204 отключена часть вычислительных блоков, — в практическом плане куда более интересная карта, чем GTX 980. Блоки, конечно, отключены, но в результате GTX 970 мало уступает в реальной производительности своему старшему родственнику и играет на равных с Radeon R9 290X. При этом официальная цена карты — скромные для без пяти минут флагмана $329.
AMD могла ответить на эту атаку только одним способом — сбросить цены на Radeon R9 290/290X до такого же уровня. Выставить равного соперника для GeForce GTX 980 «красные» пока не в состоянии. Тем не менее AMD сохраняет прочную позицию в сфере GP-GPU (неграфических вычислений), поскольку архитектура GCN изначально заточена под такие приложения. NVIDIA, напротив, в последних итерациях своего кремния сократила управляющую логику, которая имеет большое значение для большинства расчетных задач.
GM204 также наделили специфическими функциями рендеринга, которые NVIDIA использует для ускорения VXGI (Voxel Global Illumination) — метода глобального освещения на базе вокселов, работающего в реальном времени. Демонстрации весьма впечатляют, но, как обычно бывает с эксклюзивными технологиями, внедрение VXGI в реальных играх зависит от того, войдут ли необходимые алгоритмы в новый feature level DirectX 12 (об этом мы поговорим ниже).
VXGI в действии
⇡#Двухчиповые видеоадаптеры на NVIDIA GK110 и AMD Hawaii
Когда одиночные GPU не могут обеспечить прогресс вычислительной мощности, на помощь приходит проверенное решение — двухпроцессорные графические карты. И хотя систему SLI/CrossFire можно было собрать из двух отдельных видеокарт GeForce GTX 780/780 Ti или Radeon R9 290/290X сразу, как только они появились в продаже, двухголовый монстр — это вопрос престижа производителя.
NVIDIA было легче справиться с задачей, ведь GK110 — более холодный чип по сравнению с Hawaii, гордостью AMD. Трехслотовая система охлаждения выглядит пугающе, но благодаря ей GTX TITAN Z может заменить сборку из двух дискретных GTX TITAN Black в одном корпусе. TITAN Z позиционируется как микс игровой и профессиональной видеокарты, что подкрепляют полностью разблокированные блоки FP64 в графических процессорах. Вот только цена обескураживает: ни много ни мало 3 тысячи долларов (на тысячу больше пары TITAN Black). TITAN Z может быть востребован как ускоритель неграфических вычислений для компактных рабочих станций, но не будем кривить душой: это притянутое за уши оправдание для такой безумной наценки.
NVIDIA GeForce GTX TITAN Z
Работая над конкурирующим продуктом — R9 295×2 — AMD пошла на радикальные меры: два GPU Hawaii на одной плате ничуть не потеряли в частотах по сравнению с одиночными видеокартами, а стало быть, и тепловыделение достигает 300 Вт на брата. Но вместо того, чтобы наращивать габариты воздушного кулера, Radeon R9 295×2 сделали первым графическим адаптером, который оснащается системой жидкостного охлаждения в референсной конфигурации.
С практической точки зрения Radeon R9 295×2, оцененный в $1 500 при близкой к показателям TITAN Z производительности, явно выигрывает у последнего. Правда, купить два R9 295×2 для игр по цене одного TITAN Z — бессмысленное предприятие. Сборки из четырех GPU никогда не были рекомендованы для этой цели, и ПО просто не оптимизировано под такие конфигурации. А вот для компактного вычислительного кластера AMD предложила идеальное железо. Благо «красные» не ограничивают GPU Hawaii по производительности в расчетах FP64 в любых продуктах.
AMD Radeon R9 295×2
DirectX 12
Выпустив API Mantle, AMD простимулировала развитие DirectX. До этого момента уже складывалось впечатление, что для наиболее универсального API наступил конец истории. Действительно, крупного обновления DirectX не знал с 2009 года. Грядущий релиз DirectX 12 сосредоточен не на расширении функций рендеринга, а на оптимизации runtime-библиотеки API.
AMD показала, что при определенной нагрузке DirectX 11 является бутылочным горлышком, ограничивающим производительность системы. Речь идет о ситуациях, когда экранное пространство наполнено множеством отдельных объектов, пусть и с простой геометрией. В таком случае время центрального процессора расходуется совсем не так эффективно, как при использовании того же Mantle.
Переработанный конвейер рендеринга Direct3D 12 лишен этого недостатка. Кроме того, API в целом стал более низкоуровневым, чем Direct3D 11. Некоторые функции, которые библиотека Direct3D 11 выполняет сама, теперь возложены на графический движок приложения, что, с одной стороны, дает возможность более эффективно распоряжаться ресурсами, а с другой — усложняет задачу разработчика.
Потенциально все GPU, работающие под управлением DirectX 11, совместимы с DirectX 12. Но следует различать собственно runtime-библиотеку API и новый feature level — набор функций рендеринга. Microsoft приняла в стандарт несколько технологий, которые, впрочем, не будут особо заметны на экране. В будущие GPU их будут внедрять на аппаратном уровне.
Cпецификации API уже финализированы в достаточной степени, чтобы разработчики приложений могут заранее приступить к внедрению DX12. Mircosoft пообещала появление первых игр с поддержкой DX12 в конце 2015 года. Будущее Mantle в связи с этой новостью выглядит туманным, хотя игры с его поддержкой продолжают выходить.
⇡#Что будет
AMD внедряет техпроцесс 20 нм и «трехмерную» память
В 2015-м AMD твердо намерена выпустить коммерчески доступные видеокарты, произведенные по техпроцессу 20 нм. Согласно неофициальным источникам, уже в первой половине года ожидается выход нового флагмана «красных» — Radeon R9 390X на чипе Bermuda. Примечательно, что в качестве подрядчика по производству микросхем слухи указывают не TSMC, а компанию GlobalFoundries, которой AMD некогда владела.
Ожидается, что R9 390X, как и положено наследнику, превзойдет Radeon R9 290X, основанный на GPU Hawaii, по числу вычислительных блоков. Данные совершенно спекулятивные — основаны они отчасти на результатах просочившихся в прессу бенчмарков, но вот: 4224 потоковых процессора, 264 текстурных блока, 96 ROP. Напомним, что действующий лидер среди GPU AMD — Hawaii, содержит 2816 потоковых процессоров, 176 текстурных блоков, 64 ROP.
В норме для того, чтобы столь крупный GPU, как Bermuda, смог работать на адекватных частотах, без перехода на более тонкий производственный узел не обойтись. Смущает одно. Если судить по очередному «сливу», AMD укомплектует Radeon R9 390X гибридной воздушно-водяной системой охлаждения. Столь массивное тепловыделение — это явно не то, чего следует ожидать от нового прогрессивного техпроцесса, поэтому оптимисты, ждущие в лице R9 390X первый крупный кристалл, выпущенный по норме 20 нм, могут все же проиграть свои ставки.
Кохуж вероятного прототипа AMD Radeon R9 390X
Кстати, прогрессивный техпроцесс — это еще не все, чем нас поразит будущий флагман AMD. Предположительно в R9 390X будет применяться оперативная память типа HBM (High Bandmidth Memory — то же, что и Stacked DRAM) производства SK hynix. В этой технологии несколько кристаллов памяти соединяются сквозными контактами. За счет экономии площади чипа и упрощения разводки платы ширину шины устройства многократно увеличили. Сборка чипов GDDR 5 общей емкостью 1 Гбайт обладает 1024-битной шиной с пропускной способностью 128 Гбайт/с. Radeon R9 390X располагает четырьмя такими сборками, что дает в совокупности 512–533 Гбайт/с (в зависимости от частоты). Для сравнения: в GeForce GTX 780 Ti этот параметр составляет 336 Гбайт/с, а в GTX 980 — всего 224 Гбайт/с.
Графический процессор под кодовым названием Fiji, некогда считавшийся кандидатом на роль нового флагмана AMD, обрел очертания в виде чипа второго эшелона с 3840 потоковыми процессорами, который ляжет в основу адаптера Radeon R9 380X. Как и флагман, R9 380X также получит высокоскоростную память HBM.
NVIDIA: от 28 к 16 нм
Согласно номенклатуре GPU NVIDIA, чип GM204, лежащий в основе действующего флагмана «зеленых», — это продукт второго эшелона. «Инсайды» и следы в базах бенчмарков говорят, что топовый графический процессор в линейке Maxwell получит кодовое название GM200. По свежей информации, чип несет 3072 ядра CUDA и обладает 384-битной шиной памяти. Тактовая частота GPU составляет 1,1/1,39 ГГц. На плате найдут место 12 Гбайт памяти GDDR 5 с эффективной частотой 6 ГГц. Также засветился облегченный вариант адаптера с 2688 ядрами CUDA.
Ожидается, что GM204 повторит путь GK110, топового GPU семейства Kepler, и сперва увидит свет под маркой GeForce GTX TITAN II. Альтернативный вариант позиционирования — GeForce GTX 980 Ti. В архитектуре Maxwell NVIDIA совершила маленькое чудо, увеличив производительность на единицу мощности практически вдвое по сравнению с архитектурой Kepler. Высказываются ожидания, что ускоритель на базе полностью разблокированного чипа GM200 на 50% превзойдет GeForce GTX TITAN Black по вычислительной способности.
Благодаря достоинствам Maxwell NVIDIA в общем-то не испытывает настоятельной необходимости переходить на техпроцесс 20 нм. Скорее всего, GM200 займет нишу с энергопотреблением в районе 250 Вт, которую покинул GK110.
Если судить по предварительным результатам бенчмарков (принимать которые следует со здоровой долей скпетицизма), GM200 в полновесной конфигурации можно рассматривать как соперника AMD Bermuda топовой версии XT. И все же продукт AMD имеет зримое преимущество, которое можно отнести на счет высокопроизводительной памяти.
Если предсказания не разойдутся с реальностью, то это значит, что NVIDIA придется уступить лидерство в сфере дискретной графики вплоть до внедрения технологии FinFet 16 нм в топовых GPU. Такая производственная линия уже действует на TSMC, и в конце 2015 — начале 2016 года NVIDIA может пожать первые плоды. Скорее всего, новый техпроцесс будут испытывать на GPU помельче: на сжатой версии GM204 и чипе третьего эшелона семейства Maxwell — GM206.
NVIDIA Pascal
В отдаленной перспективе маячит архитектура Pascal. Нечто похожее на опытный образец NVIDIA показала на GPU Developers Conference в этом году. Плата размером с две кредитки демонстрирует новый форм-фактор для вычислительных кластеров с шиной NVLINK. По сравнению с PCIe 3.0 NVLINK обеспечит троекратное увеличение энергоэффективности и пропускную способность в 5–12 раз больше. NVIDIA заручилась поддержкой IBM, которая внедрит NVLINK в будущих поколениях процессоров Power. С другими производителями CPU ведутся переговоры. Для десктопных компьютеров Pascal будет выпущен в привычном формате платы расширения PCIe.
Прототип платы с GPU Pascal
GPU Pascal, как и будущие продукты AMD, оснащается трехмерными чипами DRAM и принесет радикальное увеличение производительности на ватт по сравнению с архитектурой Maxwell. Никаких подробностей о финальных устройствах и сроках выхода не сообщают.
Приложение. Актуальные линейки дискретных видеоадаптеров AMD и NVIDIA
Дискретные видеоадаптеры AMD Модель
Графический процессор
Видеопамять
Шина ввода/вывода
TDP, Вт
Кодовое название
Число транзис-торов, млн
Тех-процесс, нм
Тактовая частота, МГц: High State / Boost State
Число потоковых процессоров
Число текстурных блоков
Число ROP
Разряд-ность шины, бит
Тип микросхем
Тактовая частота: реальная (эффективная), МГц
Объем, Мбайт
Radeon R5 230
Caicos
370
40
625/–
160
8
4
64
GDDR3 SDRAM
533 (1066)
1024/2048
PCI Express 2.1×16
19
Radeon R7 240
Oland PRO
1040
28
730/780
320
20
8
128
GDDR3/GDDR5 SDRAM
900 (1800) / 1125 (4500)
1024/2048
PCI Express 3.0×16
30
Radeon R7 250
Oland XT
1040
28
1000/1050
320
20
8
128
GDDR3/GDDR5 SDRAM
900 (1800) / 1150 (4600)
1024/2048
PCI Express 3.0×16
75
Radeon R7 250X
Cape Verde XT
1500
28
1000/-
640
40
16
128
GDDR5 SDRAM
1125 (4500)
1024/2048
PCI Express 3.0×16
95
Radeon R7 260
Bonaire
2080
28
-/1000
768
48
16
128
GDDR5 SDRAM
1500 (6000)
1024/2048
PCI Express 3.0×16
95
Radeon R7 260X
Bonaire XTX
2080
28
-/1100
896
56
16
128
GDDR5 SDRAM
1625 (6500)
1024/2048
PCI Express 3.0×16
115
Radeon R7 265
Curacao PRO
2800
28
900/925
1024
64
32
256
GDDR5 SDRAM
1400 (5600)
2048
PCI Express 3.0×16
150
Radeon R9 270
Curacao PRO
2800
28
900/925
1280
80
32
256
GDDR5 SDRAM
1400 (5600)
2048
PCI Express 3.0×16
150
Radeon R9 270X
Curacao XT
2800
28
1000/1050
1280
80
32
256
GDDR5 SDRAM
1400 (5600)
2048
PCI Express 3.0×16
180
Radeon R7 280
Tahiti PRO
4313
28
827/933
1792
112
32
384
GDDR5 SDRAM
1250 (5000)
3072
PCI Express 3.0×16
200
Radeon R9 280X
Tahiti XT2 / Tahiti XTL
4313
28
850/1000
2048
128
32
384
GDDR5 SDRAM
1500 (6000)
3072
PCI Express 3.0×16
250
Radeon R9 285
Tonga PRO
НД
28
918/-
1792
112
32
256
GDDR5 SDRAM
1375 (5500)
2048
PCI Express 3.0×16
190
Radeon R9 290
Hawaii PRO
6020
28
-/947
2560
160
64
512
GDDR5 SDRAM
1250 (5000)
4096
PCI Express 3.0×16
250
Radeon R9 290X
Hawaii XT
6020
28
-/1000
2816
176
64
512
GDDR5 SDRAM
1250 (5000)
4096
PCI Express 3.0×16
250
Radeon R9 295×2
Vesuvius (2 × Hawaii XT)
2 × 6020
28
НД/1018
2 × 2816
2 × 176
2 × 64
2 × 512
GDDR5 SDRAM
1250 (5000)
2 × 4096
PCI Express 3.0×16
500
Дискретные видеоадаптеры NVIDIA Модель
Графический процессор
Видеопамять
Шина ввода/вывода
TDP, Вт
Кодовое название
Число транзисторов, млн
Тех-процесс, нм
Тактовая частота, МГц: Base Clock / Boost Clock
Число ядер CUDA
Число текстурных блоков
Число ROP
Разряд- ность шины, бит
Тип микросхем
Тактовая частота: реальная (эффективная), МГц
Объем, Мбайт
GeForce GT 610
GF119
292
40
810/-
48
8
4
64
GDDR3 SDRAM
900 (1800)
1024
PCI Express 2.0×16
29
GeForce GT 730 (128-bit)
GF108
585
40
700/-
96
16
4
128
GDDR3 SDRAM
900 (1800)
1024
PCI-Express 2.0×16
49
GeForce GT 720
GK208
1300
28
797/-
192
16
8
64
GDDR3 / GDDR5 SDRAM
900 (1800) / 1250 (5000)
1024/2048
PCI-Express 2.0×16
19
GeForce GT 730 (64-bit)
GK208
1300
28
902/-
384
16
8
64
GDDR3 / GDDR5 SDRAM
900 (1800) / 1250 (5000)
1024/2048
PCI-Express 2.0×16
23/25
GeForce GT 740
GK107
1300
28
902/-
384
32
16
128
GDDR3 / GDDR5 SDRAM
900 (1800) / 1250 (5000)
1024/2048
PCI-Express 3.0×16
65
GeForce GTX 750
GM107
1870
28
1020/1085
512
32
16
128
GDDR5 SDRAM
1250 (5000)
1024
PCI-Express 3.0×16
55
GeForce GTX 750 Ti
GM107
1870
28
1020/1085
640
40
16
128
GDDR5 SDRAM
1350 (5000)
2048
PCI-Express 3.0×16
60
GeForce GTX 660
GK106
2 540
28
980/1033
960
80
24
192
GDDR5 SDRAM
1502 (6008)
2048
PCI-Express 3.0×16
140
GeForce GTX 760
GK104
3 540
28
980/1033
1152
96
32
256
GDDR5 SDRAM
1502 (6008)
2048
PCI-Express 3.0×16
170
GeForce GTX 670
GK104
3 540
28
915/980
1344
112
32
256
GDDR5 SDRAM
1502 (6008)
2048
PCI-Express 3.0×16
170
GeForce GTX 970
GM204
5 200
28
1050/1178
1664
104
64
256
GDDR5 SDRAM
1750 (7000)
4096
PCI-Express 3.0×16
145
GeForce GTX 980
GM204
5 200
28
1126/1216
2048
128
64
256
GDDR5 SDRAM
1750 (7000)
4096
PCI-Express 3.0×16
165
GeForce GTX TITAN Black
GK110
7 100
28
889/980
2880
240
48
384
GDDR5 SDRAM
1750 (7000)
6144
PCI-Express 3.0×16
250
GeForce GTX TITAN Z
GK110
7 100
28
705/876
2880
240
48
2 × 384
GDDR5 SDRAM
1750 (7000)
2 × 6144
PCI-Express 3.0×16
375
Виджет от SocialMart
⇣ Содержание
Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
Полный текст статьи читайте на 3DNews