Обзор NVIDIA GeForce GTX 980: энергетическая революция
В номенклатуре дискретных видеоадаптеров NVIDIA произошло нечто необычное: видеокарты GeForce минуют 800-ю серию и сразу переходят к линейке GeForce 900. Сделано это для того, чтобы синхронизировать наименования десктопных и мобильных SKU. В ноутбуках уже используются адаптеры 800-й серии на базе GPU архитектуры Kepler, а поскольку новые десктопные адаптеры основаны на архитектуре Maxwell, эту разницу следовало подчеркнуть, сразу запустив серию GeForce 900.
Сегодня NVIDIA представила две модели, в основе которых лежит графический процессор GM204. Судя по этому коду, чип принадлежит к той же категории, что и GK104, первенца архитектуры Kepler — это GPU второго эшелона. За более производительным ядром должно быть зарезервировано наименование GM201 или GM210. Ну, а пока NVIDIA предлагает GM204 в качестве полноценной замены GK110 — топового ядра предыдущей архитектуры, в игровых видеоадаптерах. Пример GeForce GTX 680 показал, что относительно компактное ядро нового поколения может справиться с такой задачей, но в прошлый раз GK104 поспособствовал переход с техпроцесса 40 на 28 нм. Сейчас NVIDIA полагается исключительно на архитектурные изменения, которые призваны увеличить производительность, по прежнему оставаясь на производственном узле 28 нм. Это и есть краеугольный камень Maxwell — радикальное увеличение производительности на ватт. Вплоть до 100%, если верить NVIDIA.
Поставки GeForce GTX 770, 780 и 780 Ti с сегодняшнего дня официально прекращаются. На смену им приходят GeForce GTX 970 и GTX 980. Новые адаптеры изначально стоят дешевле, чем их предшественники: $329 (14 990 р. для России) за GTX 970 и $549 (23 990 р.) за GTX 980. Осталось убедиться в том, что они обладают, как минимум, не худшей производительностью. Начнем с GTX 980. Обзор GeForce GTX 970 вы увидите в ближайшее время.
Архитектура Maxwell
С архитектурой Maxwell мы уже познакомились на примере процессора GM107, который был представлен ранее в составе карт GeForce GTX 750 и 750 Ti. В целом, как и следовало ожидать, GM204 представляет собой увеличенный аналог GM107, а устройство строительных блоков GPU осталось неизменным. Повторим описание архитектуры Maxwell, данное в обзоре GTX 750 Ti, дополненное той информацией, которую мы получили позднее.
Maxwell является первым плодом стратегии NVIDIA, в соответствии с которой новые архитектуры GPU создаются в первую очередь с расчетом на мобильные и ультрамобильные устройства, и во главе угла стоит энергоэффективность.
Если судить по представленным блок-схемам, основное новшество Maxwell заключается в эффективной реорганизации исполнительных компонентов GPU. На глобальном уровне GM204 следует принципам, заложенным еще в Kepler (подробнее о них можно прочитать в обзоре GeForce GTX 680). Вся вычислительная логика сосредоточена в структуре под названием Graphics Processing Cluster (GPC), которых в GM204 четыре. Вне GPC расположен весь back-end процессора в виде блоков ROP и нескольких 64-битных контроллеров памяти, а также Giga Thread Engine, выполняющий функции смены контекста, одновременного исполнения kernel«ов и распределения потоков нагрузки между GPC.
Блок-схема NVIDIA GM204
Первое количественное отличие от Kepler здесь состоит в кеше L2, увеличенном с 256 до 2048 Кбайт, что должно компенсировать узкую, 128-битную шину, а также сократить расход энергии на транзакции с весьма прожорливой памятью, каковой является GDDR5 SDRAM.
На уровне GPC значимых нововведений по сравнению с Kepler не заметно. Есть несколько Stream Multiprocessors (которые теперь называются аббревиатурой SMM, а не SMX), и есть единственный Raster Engine, выполняющий первоначальные стадии рендеринга: определение граней полигонов, проекцию и отсечение невидимых пикселов.
Главные изменения произошли внутри потоковых мультипроцессоров. Идея состоит в том, чтобы сместить соотношение управляющей и вычислительной логики в пользу первого компонента. Как и в Kepler, потоковый мультипроцессор (SMM в терминологии Maxwell) содержит четыре планировщика, но число ядер CUDA уменьшилось с 192 до 128, а текстурных блоков — с 16 до 8.
Известно, что отдельно взятый планировщик за такт может обратиться к одному (а при наличии параллелизма в потоке — сразу к двум) из следующих массивов вычислительных блоков:
32 ядра CUDA. 8 блоков Load/Store. 8 SFU. 4 текстурных блока. Ключевое нововведение Maxwell состоит в том, что исполнительные блоки теперь не являются одинаково доступными для адресации любому планировщику. Каждый планировщик теперь получил в свое распоряжение фиксированную часть ресурсов: 32 ядра CUDA, 8 блоков Load/Store и SFU (Special Function Units, выполняющие, к примеру, тригонометрические операции). Только текстурные блоки и ядра CUDA, совместимые с вычисленниями FP64, по-прежнему являются общими ресурсами.
Какие преимущества по сравнению с Kepler дает такая организация? Во-первых, потоковый мультипроцессор Maxwell, избавившись от 64 ядер CUDA, меньше полагается на параллелизм инструкций: четыре планировщика даже в пессимистичном сценарии способны обслужить 128 ядер CUDA. Разделение исполнительных блоков на отдельные «домены» также позволило сократить логику, которая соединяет с ними планировщики (crossbars), и которая координирует действия самих планировщиков. Планировщики также оптимизированы с целью уменьшения латентности исполнения инструкций. В конечном счете эти изменения позволили сохранить 90% производительности отдельного потокового мультипроцессора при существенно меньшей площади SMM.
Maxwell базируется на оптимизациях энергопотребления, представленных в архитектуре Kepler. После архитектуры Fermi NVIDIA отказалась от динамических планировщиков внутри GPU, переложив всю работу по планированию внеочередного исполнения инструкций на компилятор в составе драйвера. Такой подход позволил существенно сократить мощность и не оказывает большого негативного влияния на собственно шейдерные вычисления. В то же время задачи общего назначения (GP-GPU), не связанные с графикой, не всегда предсказуемы для компилятора, поэтому в то время, как архитектура GCN от AMD наращивает производительность за счет дополнительного ILP (параллелизма на уровне инструкций), чипы Kepler/Maxwell достигают равной эффективности только за счет грубой силы в виде большого количества CUDA-ядер.
Что касается именно GM204, то поскольку это чип второй категории, а более крупное ядро на базе Maxwell, возможно, ожидает нас в будущем, NVIDIA нашла приемлемым оставить в каждом SMM только четыре ядра CUDA с поддержкой F64. В результате производительность GM204 в вычислениях двойной точности по сравнению с FP32 даже меньше, чем у GK104 — 1/32 против 1/24.
SMX (Kepler, GK104)
SMM (Maxwell, GM204)
⇡#Технические характеристики
Рассмотрим конфигурацию GM204 более внимательно. По числу вычислительных блоков чип представляет собой промежуточный вариант между GK104 и GK110. В нем нет такого количества ядер CUDA, как в GK110, но выше частоты: 1126 МГц базовой частоты по штатным спецификациям — это, прямо скажем, впечатляет для техпроцесса 28 нм и 5,2 млрд транзисторов. Кроме того, GM204 имеет даже больше ROP, чем топовый Kepler — 64 против 48. Это явно пойдет на пользу видеоадаптеру в 4К-разрешениях.
На основе GM204 NVIDIA выпустила два видеоадаптера — GTX 970 и GTX 980, которые различаются числом активных вычислительных блоков и тактовыми частотами. TDP новинок составляет 145 и 165 Вт соответственно — тоже впечатляет, если учесть, что новинки заменяют в линейке GeForce модели с энергопотреблением от 230 до 250 Вт. Впрочем, забегая вперед, отметим, что в реальности запросы GM204 оказались повыше.
Конфигурация шины памяти обеих адаптеров на GM204 аналогична GeForce GTX 770: разрядность 256 бит и эффективная частота 7 ГГц. Цели экономии пропускной способности, помимо увеличенного кэша L2, служит новый алгоритм компрессии без потерь.
Модель Графический процессор Видеопамять Шина ввода/ вывода TDP, Вт
Кодовое название
Число транзисторов, млн
Техпроцесс, нм
Тактовая частота, МГц: High State /Boost State
Число шейдерных потоковых процессоров
Число текстурных блоков
Число ROP
Разрядность шины, бит
Тип микросхем
Тактовая частота: реальная (эффективная), МГц
Объем, Мбайт
GeForce GTX 980
GM204
5 200
28
1126/1216
2048
128
64
256
GDDR5 SDRAM
1750 (7000)
4096
PCI-Express 3.0×16
165
GeForce GTX 970
GM204
5 200
28
1050/1178
1664
104
64
256
GDDR5 SDRAM
1750 (7000)
4096
PCI-Express 3.0×16
145
GeForce GTX 780 Ti
GK110
7100
28
875/928
2880
240
48
384
GDDR5 SDRAM
1750 (7000)
3072
PCI-Express 3.0×16
250
GeForce GTX 780
GK110
7100
28
863/900
2304
192
48
384
GDDR5 SDRAM
1502 (6008)
3072
PCI-Express 3.0×16
250
GeForce GTX 770
GK104
3540
28
1046/1085
1536
128
32
256
GDDR5 SDRAM
1502 (7010)
2048
PCI-Express 3.0×16
230
Штрихом к архитектуре Maxwell стал усовершенствованный аппаратный кодек H.264 — NVENC. GPU способен кодировать видео 1080p на скорости в 6–8 раз быстрее реального времени (4х для Kepler) и декодировать в 8–10 раз быстрее. Поддерживаются и 4K-разрешения. Кроме того, в Maxwell предусмотрен новый режим энергопотребления GC5, предназначенный для снижения мощности при легкой нагрузке — такой как декодирование видео силами NVENC. NVIDIA еще не внедрила в кремний поддержку стандарта H.265. Он ускорятся лишь частично, с выполнением доли операций на CPU.
Увы, дела с поддержкой fixed-function-логики для кодирования видео даже в профессиональных приложениях обстоят из рук вон плохо, хотя само железо давно присутствует в чипах NVIDIA и AMD. Одно из немногих применений NVENC — запись игрового процесса с помощью NVIDIA ShadowPlay или GameStream — трансляция видеопотока на консоль или планшет NVIDIA SHIELD.
В GM204 также реализованы на аппаратном уровне некоторые новые технологии рендеринга, наиболее интересной из которых является глобальное освещение на основе вокселов. К сожалению, по причине крайне сжатых сроков подготовки обзоры, мы сейчас не можем вдаваться в подробности. Обещаем раскрыть тему более подробно в грядущем обзоре GeForce GTX 970.
⇡#Внешний вид, конструкция
В отличие от большинства референсных образцов, GeForce GTX 980 прибыл к нам не в простом антистатическом пакете, а в стильной подарочной коробке. Любо-дорого взглянуть.
Сама видеокарта следует стилистике предшествующих топовых продуктов от NVIDIA, но есть нововведение: задняя поверхность PCB покрыта рифленой алюминиевой пластиной, как у GTX TITAN Z. Только в отличие от двухпроцессорного монстра, здесь пластина имеет только декоративную и защитную функции: на задней поверхности нет чипов DRAM.
NVIDIA сконструировала практически идеальный радиальный кулер («турбинка», или blower), эффективность и высокие акустические качества которого были проверены не раз. Ну, а помимо практических достоинств, увесистую видеокарту в цельнометаллическом кожухе просто приятно взять в руки. Но система охлаждения GeForce GTX 980 кое-в-чем отличается от тех образцов, которые были представлены в референсных версиях GeForce GTX 770 и GTX TITAN.
Массивная крыльчатка продувает большую часть забираемого воздуха через радиатор GPU и выбрасывает за пределы корпуса ПК. В основание радиатора вмонтированы три тепловые трубки, а не испарительная камера, как прежде — это главное изменение. Кроме того, с времен GeForce GTX 780 Ti и TITAN Black — последних однопроцессорных адаптеров на базе GK110, NVIDIA поменяла форму крепежной планки и расположение видеовыходов. Решетка имеет более крупные ячейки и распространилась на площадь, которую в предшествующих продуктах занимал второй разъем DVI. Часть воздуха исходит в противоположном от планки направлении, охлаждая небольшой блок ребер, смонтированных на раме, покрывающей печатную плату.
Алюминиевая рама отводит тепло от микросхем памяти, все из которых находятся на лицевой поверхности платы, и мощных транзисторов системы питания.
⇡#Плата
Видеопамять объемом 4 Гбайт набрана микросхемами Samsung K4G41325FC-HC28, для которых 7 ГГц являются штатной эффективной частотой. Система питания довольно скромная для видеоадаптера такого класса и включает четыре фазы для питания GPU, одну — для видеопамяти, и еще одну — для PLL. Производителя и модель контроллера питания по маркировке определить не удалось.
Следующая страница →
⇣ Содержание
Виджет от SocialMart
Материалы по теме
Полный текст статьи читайте на 3DNews