Обзор NVIDIA GeForce GTX 980: энергетическая революция

В номенклатуре дискретных видеоадаптеров NVIDIA произошло нечто необычное: видеокарты GeForce минуют 800-ю серию и сразу переходят к линейке GeForce 900. Сделано это для того, чтобы синхронизировать наименования десктопных и мобильных SKU. В ноутбуках уже используются адаптеры 800-й серии на базе GPU архитектуры Kepler, а поскольку новые десктопные адаптеры основаны на архитектуре Maxwell, эту разницу следовало подчеркнуть, сразу запустив серию GeForce 900.

Сегодня NVIDIA представила две модели, в основе которых лежит графический процессор GM204. Судя по этому коду, чип принадлежит к той же категории, что и GK104, первенца архитектуры Kepler — это GPU второго эшелона. За более производительным ядром должно быть зарезервировано наименование GM201 или GM210. Ну, а пока NVIDIA предлагает GM204 в качестве полноценной замены GK110 — топового ядра предыдущей архитектуры,  в игровых видеоадаптерах. Пример GeForce GTX 680 показал, что относительно компактное ядро нового поколения может справиться с такой задачей, но в прошлый раз GK104 поспособствовал переход с техпроцесса 40 на 28 нм. Сейчас NVIDIA полагается исключительно на архитектурные изменения, которые призваны увеличить производительность, по прежнему оставаясь на производственном узле 28 нм. Это и есть краеугольный камень Maxwell — радикальное увеличение производительности на ватт. Вплоть до 100%, если верить NVIDIA.

Поставки GeForce GTX 770, 780 и 780 Ti с сегодняшнего дня официально прекращаются. На смену им приходят GeForce GTX 970 и GTX 980. Новые адаптеры изначально стоят дешевле, чем их предшественники:  $329 (14 990 р. для России) за GTX 970 и $549 (23 990 р.) за GTX 980. Осталось убедиться в том, что они обладают, как минимум, не худшей производительностью. Начнем с GTX 980. Обзор GeForce GTX 970 вы увидите в ближайшее время.

Архитектура Maxwell

С архитектурой Maxwell мы уже познакомились на примере процессора GM107, который был представлен ранее в составе карт GeForce GTX 750 и 750 Ti. В целом, как и следовало ожидать, GM204 представляет собой увеличенный аналог GM107, а устройство строительных блоков GPU осталось неизменным. Повторим описание архитектуры Maxwell, данное в обзоре GTX 750 Ti, дополненное той информацией, которую мы получили позднее.

Maxwell является первым плодом стратегии NVIDIA, в соответствии с которой новые архитектуры GPU создаются в первую очередь с расчетом на мобильные и ультрамобильные устройства, и во главе угла стоит энергоэффективность.

Если судить по представленным блок-схемам, основное новшество Maxwell заключается в эффективной реорганизации исполнительных компонентов GPU. На глобальном уровне GM204 следует принципам, заложенным еще в Kepler (подробнее о них можно прочитать в обзоре GeForce GTX 680). Вся вычислительная логика сосредоточена в структуре под названием Graphics Processing Cluster (GPC), которых в GM204 четыре. Вне GPC расположен весь back-end процессора в виде блоков ROP и нескольких 64-битных контроллеров памяти, а также Giga Thread Engine, выполняющий функции смены контекста, одновременного исполнения kernel«ов и распределения потоков нагрузки между GPC.

  Блок-схема NVIDIA GM204

Первое количественное отличие от Kepler здесь состоит в кеше L2, увеличенном с 256 до 2048 Кбайт, что должно компенсировать узкую, 128-битную шину, а также сократить расход энергии на транзакции с весьма прожорливой памятью, каковой является GDDR5 SDRAM.

На уровне GPC значимых нововведений по сравнению с Kepler не заметно. Есть несколько Stream Multiprocessors (которые теперь называются аббревиатурой SMM, а не SMX), и есть единственный Raster Engine, выполняющий первоначальные стадии рендеринга: определение граней полигонов, проекцию и отсечение невидимых пикселов.

Главные изменения произошли внутри потоковых мультипроцессоров. Идея состоит в том, чтобы сместить соотношение управляющей и вычислительной логики в пользу первого компонента. Как и в Kepler, потоковый мультипроцессор (SMM в терминологии Maxwell) содержит четыре планировщика, но число ядер CUDA уменьшилось с 192 до 128, а текстурных блоков — с 16 до 8.

Известно, что отдельно взятый планировщик за такт может обратиться к одному (а при наличии параллелизма в потоке — сразу к двум) из следующих массивов вычислительных блоков:

32 ядра CUDA. 8 блоков Load/Store. 8 SFU. 4 текстурных блока. Ключевое нововведение Maxwell состоит в том, что исполнительные блоки теперь не являются одинаково доступными для адресации любому планировщику. Каждый планировщик теперь получил в свое распоряжение фиксированную часть ресурсов: 32 ядра CUDA, 8 блоков Load/Store и SFU (Special Function Units, выполняющие, к примеру, тригонометрические операции). Только текстурные блоки и ядра CUDA, совместимые с вычисленниями FP64, по-прежнему являются общими ресурсами.

Какие преимущества по сравнению с Kepler дает такая организация? Во-первых, потоковый мультипроцессор Maxwell, избавившись от 64 ядер CUDA, меньше полагается на параллелизм инструкций: четыре планировщика даже в пессимистичном сценарии способны обслужить 128 ядер CUDA. Разделение исполнительных блоков на отдельные «домены» также позволило сократить логику, которая соединяет с ними планировщики (crossbars), и которая координирует действия самих планировщиков. Планировщики также оптимизированы с целью уменьшения латентности исполнения инструкций. В конечном счете эти изменения позволили сохранить 90% производительности отдельного потокового мультипроцессора при существенно меньшей площади SMM.

Maxwell базируется на оптимизациях энергопотребления, представленных в архитектуре Kepler. После архитектуры Fermi NVIDIA отказалась от динамических планировщиков внутри GPU, переложив всю работу по планированию внеочередного исполнения инструкций на компилятор в составе драйвера. Такой подход позволил существенно сократить мощность и не оказывает большого негативного влияния на собственно шейдерные вычисления. В то же время задачи общего назначения (GP-GPU), не связанные с графикой, не всегда предсказуемы для компилятора, поэтому в то время, как архитектура GCN от AMD наращивает производительность за счет дополнительного ILP (параллелизма на уровне инструкций),  чипы Kepler/Maxwell достигают равной эффективности только за счет грубой силы в виде большого количества CUDA-ядер.

Что касается именно GM204, то поскольку это чип второй категории, а более крупное ядро на базе Maxwell, возможно, ожидает нас в будущем, NVIDIA нашла приемлемым оставить в каждом SMM только четыре ядра CUDA с поддержкой F64. В результате производительность GM204 в вычислениях двойной точности по сравнению с FP32 даже меньше, чем у GK104 — 1/32 против 1/24.

SMX (Kepler, GK104)

SMM (Maxwell, GM204)

  ⇡#Технические характеристики

Рассмотрим конфигурацию GM204 более внимательно. По числу вычислительных блоков чип представляет собой промежуточный вариант между GK104 и GK110. В нем нет такого количества ядер CUDA, как в GK110, но выше частоты: 1126 МГц базовой частоты по штатным спецификациям — это, прямо скажем, впечатляет для техпроцесса 28 нм и 5,2 млрд транзисторов. Кроме того, GM204 имеет даже больше ROP, чем топовый Kepler — 64 против 48. Это явно пойдет на пользу видеоадаптеру в 4К-разрешениях.

На основе GM204 NVIDIA выпустила два видеоадаптера — GTX 970 и GTX 980, которые различаются числом активных вычислительных блоков и тактовыми частотами. TDP новинок составляет 145 и 165 Вт соответственно — тоже впечатляет, если учесть, что новинки заменяют в линейке GeForce модели с энергопотреблением от 230 до 250 Вт. Впрочем, забегая вперед, отметим, что в реальности запросы GM204 оказались повыше.

Конфигурация шины памяти обеих адаптеров на GM204 аналогична GeForce GTX 770:  разрядность 256 бит и эффективная частота 7 ГГц. Цели экономии пропускной способности, помимо увеличенного кэша L2, служит новый алгоритм компрессии без потерь.

Модель Графический процессор Видеопамять Шина ввода/ вывода TDP, Вт

Кодовое название

Число транзисторов, млн

Техпроцесс, нм

Тактовая частота, МГц:  High State /Boost State

Число шейдерных потоковых процессоров

Число текстурных блоков

Число ROP

Разрядность шины, бит

Тип микросхем

Тактовая частота: реальная (эффективная), МГц

Объем, Мбайт

GeForce GTX 980

GM204

5 200

28

1126/1216

2048

128

64

256

GDDR5 SDRAM

1750 (7000)

4096

PCI-Express 3.0×16

165

GeForce GTX 970

GM204

5 200

28

1050/1178

1664

104

64

256

GDDR5 SDRAM

1750 (7000)

4096

PCI-Express 3.0×16

145

GeForce GTX 780 Ti

GK110

7100

28

875/928

2880

240

48

384

GDDR5 SDRAM

1750 (7000)

3072

PCI-Express 3.0×16

250

GeForce GTX 780

GK110

7100

28

863/900

2304

192

48

384

GDDR5 SDRAM

1502 (6008)

3072

PCI-Express 3.0×16

250

GeForce GTX 770

GK104

3540

28

1046/1085

1536

128

32

256

GDDR5 SDRAM

1502 (7010)

2048

PCI-Express 3.0×16

230

Штрихом к архитектуре Maxwell стал усовершенствованный аппаратный кодек H.264 — NVENC. GPU способен кодировать видео 1080p на скорости в 6–8 раз быстрее реального времени (4х для Kepler) и декодировать в 8–10 раз быстрее. Поддерживаются и 4K-разрешения. Кроме того, в Maxwell предусмотрен новый режим энергопотребления GC5, предназначенный для снижения мощности при легкой нагрузке — такой как декодирование видео силами NVENC. NVIDIA еще не внедрила в кремний поддержку стандарта H.265. Он ускорятся лишь частично, с выполнением доли операций на CPU.

Увы, дела с поддержкой fixed-function-логики для кодирования видео даже в профессиональных приложениях обстоят из рук вон плохо, хотя само железо давно присутствует в чипах NVIDIA и AMD. Одно из немногих применений NVENC — запись игрового процесса с помощью NVIDIA ShadowPlay или GameStream — трансляция видеопотока на консоль или планшет NVIDIA SHIELD.

В GM204 также реализованы на аппаратном уровне некоторые новые технологии рендеринга, наиболее интересной из которых является глобальное освещение на основе вокселов. К сожалению, по причине крайне сжатых сроков подготовки обзоры, мы сейчас не можем вдаваться в подробности. Обещаем раскрыть тему более подробно в грядущем обзоре GeForce GTX 970.

  ⇡#Внешний вид, конструкция

В отличие от большинства референсных образцов, GeForce GTX 980 прибыл к нам не в простом антистатическом пакете, а в стильной подарочной коробке. Любо-дорого взглянуть.

Сама видеокарта следует стилистике предшествующих топовых продуктов от NVIDIA, но есть нововведение: задняя поверхность PCB покрыта рифленой алюминиевой пластиной, как у GTX TITAN Z. Только в отличие от двухпроцессорного монстра, здесь пластина имеет только декоративную и защитную функции:  на задней поверхности нет чипов DRAM.

NVIDIA сконструировала практически идеальный радиальный кулер («турбинка», или blower), эффективность и высокие акустические качества которого были проверены не раз. Ну, а помимо практических достоинств, увесистую видеокарту в цельнометаллическом кожухе просто приятно взять в руки. Но система охлаждения GeForce GTX 980 кое-в-чем отличается от тех образцов, которые были представлены в референсных версиях GeForce GTX 770 и GTX TITAN.

Массивная крыльчатка продувает большую часть забираемого воздуха через радиатор GPU и выбрасывает за пределы корпуса ПК. В основание радиатора вмонтированы три тепловые трубки, а не испарительная камера, как прежде — это главное изменение. Кроме того, с времен GeForce GTX 780 Ti и TITAN Black — последних однопроцессорных адаптеров на базе GK110,  NVIDIA поменяла форму крепежной планки и расположение видеовыходов. Решетка имеет более крупные ячейки и распространилась на площадь, которую в предшествующих продуктах занимал второй разъем DVI. Часть воздуха исходит в противоположном от планки направлении, охлаждая небольшой блок ребер, смонтированных на раме, покрывающей печатную плату.

Алюминиевая рама отводит тепло от микросхем памяти, все из которых находятся на лицевой поверхности платы, и мощных транзисторов системы питания.

⇡#Плата

Видеопамять объемом 4 Гбайт набрана микросхемами Samsung K4G41325FC-HC28, для которых 7 ГГц являются штатной эффективной частотой. Система питания довольно скромная для видеоадаптера такого класса и включает четыре фазы для питания GPU, одну — для видеопамяти, и еще одну — для PLL. Производителя и модель контроллера питания по маркировке определить не удалось.

Следующая страница →

⇣ Содержание

Виджет от SocialMart

Материалы по теме

Полный текст статьи читайте на 3DNews