Справочная информация о семействе видеокарт AMD Radeon RX 400

Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400

Спецификации графических процессоров семейства Radeon 400

кодовое имя Polaris 10 Polaris 11
базовая статья здесь -
технология (нм) 14
транзисторов (млрд) 5,7 ?
универсальных процессоров 2304 896
текстурных блоков 144 48
блоков блендинга 32 16
шина памяти 256 128
типы памяти DDR3
GDDR5
системная шина PCI Express 3.0×16 PCI Express 3.0×8
интерфейсы DVI Dual-Link
HDMI 2.0b
DisplayPort 1.4
D3D Feature Level 12_0
точность вычислений FP32/FP64

Спецификации референсных карт семейства Radeon 400

карта чип блоков ALU/TMU/ROP частота ядра, МГц частота памяти, МГц объем памяти, ГБ ПСП, ГБ/c
(бит)
текстури-
рование, Гтекс
филлрейт, Гпикс TDP, Вт
Radeon RX 480 Polaris 10 XT 2304/144/32 1120(1266) 2000(8000) 4/8 GDDR5 256 (256) 182 41 150
Radeon RX 470 Polaris 10 Pro 2048/128/32 926(1206) 1650(6600) 4 GDDR5 211 (256) 154 38 120
Radeon RX 460 Polaris 11 896/48/16 1090(1200) 1750(7000) 2/4 GDDR5 112 (128) 58 19 75

Графический ускоритель AMD Radeon RX 480

Параметр Значение
Кодовое имя чипа Polaris 10 XT (Ellesmere)
Технология производства 14 нм FinFET
Количество транзисторов 5,7 млрд.
Площадь ядра 232 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_0
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5-памяти
Частота графического процессора 1120 (1266) МГц
Вычислительные блоки 36 вычислительных блоков GCN, включающих 144 SIMD-ядер, состоящих в целом из 2304 ALU для расчетов с плавающей запятой (поддерживаются целочисленные и плавающие форматы, с точностью FP16, FP32 и FP64)
Блоки текстурирования 144 текстурных блока, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP) 32 блока ROP с поддержкой режимов сглаживания с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт, а в режиме без цвета (Z only) — 128 отсчетов за такт
Поддержка мониторов Интегрированная поддержка до шести мониторов, подключенных по интерфейсам DVI, HDMI 2.0b и DisplayPort 1.3/1.4 Ready
card.jpg
Спецификации референсной видеокарты Radeon RX 480
Параметр Значение
Частота ядра 1120 (1266) МГц
Количество универсальных процессоров 2304
Количество текстурных блоков 144
Количество блоков блендинга 32
Эффективная частота памяти 7000–8000 (4×1750–2000) МГц
Тип памяти GDDR5
Шина памяти 256-бит
Объем памяти 4/8 ГБ
Пропускная способность памяти 224–256 ГБ/с
Вычислительная производительность (FP32) до 5,8 терафлопс
Теоретическая максимальная скорость закраски 41 гигапиксел/с
Теоретическая скорость выборки текстур 182 гигатекселя/с
Шина PCI Express 3.0
Разъемы Один разъем HDMI и три DisplayPort
Энергопотребление до 150 Вт
Дополнительное питание Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $199/$229 (для рынка США)

Название первой модели видеокарты компании AMD нового поколения соответствует их текущей системе наименований. Ее имя отличается от предшественников измененным символом в первой части индекса и цифрой поколения — RX 480. Если со вторым изменением все понятно, ведь поколение действительно новое, то замена R9 на RX не совсем логична, на наш взгляд, ведь эта цифра раньше показывала уровень видеокарты: R7 были медленнее, чем R9, но все они выпускались в рамках одного поколения.

Первая модель в новом семействе Radeon 400 становится в текущей линейке компании на место предыдущих решений, аналогичных по позиционированию. Так как выпущенная видеокарта относится скорее к среднему уровню по цене и скорости с учетом нового поколения, то для будущих решений на GPU еще большей мощности решили оставить индекс 490.

Референсный вариант Radeon RX 480 будет предлагаться по рекомендованной цене в $199 в случае 4 ГБ варианта и $229 для 8-гигабайтной модели, и эти цены весьма и весьма привлекательны! По сравнению с топовыми видеокартами предыдущего поколения, это очень хороший ценник, так как Radeon RX 480 по скорости не должна уступать таким моделям, как Radeon R9 390 и GeForce GTX 970. Но конкурировать новинке приходится еще и с GeForce GTX 1060, выпущенной через несколько дней. Впрочем, RX 480 в любом случае стала одним из лучших предложений по производительности в своем классе.

Референсные видеокарты Radeon RX 480 будут поставляться в версиях с 4 ГБ памяти GDDR5 с эффективной частотой в 7 ГГц, и с 8 ГБ памяти с частотой в 8 ГГц. Но по мере поступления в продажу видеокарт собственного производства партнеров AMD, появятся и другие варианты, но все они будут оснащены GDDR5-памятью с частотой как минимум 7 ГГц — такова воля AMD.

Решение по установке 4 и 8 ГБ памяти очень мудрое. Младший вариант позволит немного сэкономить, ведь 4 ГБ на данный момент можно считать «золотой серединой», а преимущество от 8 ГБ памяти у второго варианта Radeon RX 480 раскроется в перспективе. Хотя и 4-гигабайтный вариант видеокарты обеспечит приемлемую производительность в современных играх, но 8 ГБ памяти позволят иметь приличный запас на будущее, так как требования к объему видеопамяти у игр постоянно растут. В качестве примера, преимущество в котором уже заметно, можно привести игру Rise of the Tomb Raider в DirectX 12-версии, при очень высоких настройках и разрешении 2560×1440 пикселей:

perf-8gb.png

Больший объем видеопамяти у Radeon RX 480 8 ГБ и Radeon R9 390 помогает избежать крайне неприятных падений производительности и рывков FPS, по сравнению с 4-гигабайтными вариантами, включая решения конкурентов GeForce GTX 970 и GTX 960. Именно Radeon RX 480 8 ГБ дает возможность получения плавного игрового процесса с отсутствием притормаживаний, связанных с подгрузкой данных, не помещающихся в локальную видеопамять. И так как игровые консоли нынешнего поколения имеют по 8 ГБ общей памяти, то преимущество от большего объема памяти будет только расти со временем, и 8-гигабайтный вариант Radeon RX 480 отлично подойдет для игр, которые будут выходить в следующие несколько лет.

Для дополнительного питания платой используется один 6-контактный разъем, а значение типичного энергопотребления у модели Radeon RX 480 на графическом процессоре Polaris 10 установлено на уровне 150 Вт. Партнеры AMD выпускают и фабрично разогнанные версии этой видеокарты, отличающиеся и системами охлаждения и питания, хотя по скорости они не слишком далеко ушли от референсного варианта.

Архитектурные особенности

Графический процессор Polaris 10 относится к четвертому поколению архитектуры Graphics Core Next, самому совершенному на данный момент. Базовым блоком архитектуры является вычислительный блок Compute Unit (CU), из которых собраны все графические процессоры AMD. Вычислительный блок CU имеет выделенное локальное хранилище данных для обмена данными или расширения локального регистрового стека, а также кэш-память первого уровня с возможностью чтения и записи и полноценный текстурный конвейер с блоками выборки и фильтрации, он разделен на подразделы, каждый из которых работает над своим потоком команд. Каждый из таких блоков занимается планированием и распределением работы самостоятельно.

В своей основе, архитектура Polaris изменилась не слишком сильно, хотя не основные блоки видеочипа изменились заметнее — были серьезно улучшены блоки кодирования и декодирования видеоданных и вывода информации на устройства отображения. В остальном, это очередное поколение известной архитектуры Graphics Core Next (GCN), уже четвертое по счету. Пока что в состав семейства вошли два чипа: Polaris 10 (ранее известный как Ellesmere) и Polaris 11 (ранее известный как Baffin).

И все же некоторые аппаратные изменения в GPU были внесены. В список улучшений и изменений входит: улучшенная обработка геометрии, поддержка нескольких проекций при рендеринге VR с разным разрешением, обновленный контроллер памяти с улучшенным сжатием данных, модифицированная предвыборка инструкций и улучшенная буферизация, планирование и приоритезация вычислительных задач в асинхронном режиме, поддержка операций над данными в формате FP16/Int16. Рассмотрим схему нового графического процессора (по клику на изображении доступна увеличенная версия иллюстрации):

diag-sm.png

В состав полноценного графического процессора Polaris 10 входит один командный процессор Graphics Command Processor, четыре асинхронных вычислительных движка Asynchronous Compute Engines (ACE), два планировщика задач Hardware Scheduler (HWS), 36 вычислительных блоков Compute Unit (CU), четыре геометрических процессора, 144 текстурных модуля TMU (включающих по четыре блока загрузки и сохранения данных LSU на каждый TMU) и 32 блоков ROP. Подсистема памяти нового графического процессора компании AMD включает восемь 32-битных контроллеров GDDR5-памяти, дающих общую 256-битную шину памяти, и кэш-память второго уровня объемом в 2 МБ.

Заявлено улучшение геометрических движков в Polaris — в частности, появился так называемый ускоритель отбрасывания геометрических примитивов Primitive Discard Accelerator, который работает в самом начале графического конвейера, отбрасывая невидимые треугольники (например, с нулевой площадью). Также в новом GPU был введен новый индексный кэш для дублированной (instanced) геометрии, который оптимизирует перемещения данных и освобождает ресурсы внутренних шин передачи данных и увеличивает эффективность использования ПСП при дублировании геометрии (instancing).

perf-tess.png

Ускоритель отбрасывания геометрических примитивов помогает увеличить скорость обработки геометрии, особенно в задачах вроде тесселяции с мультисэмплингом. На диаграмме видно, что в разных условиях новый блок позволяет увеличить производительность до трех раз. Впрочем, это синтетические данные заинтересованной стороны, лучше смотреть по игровым результатам независимых тестов.

Также в четвертом поколении GCN была улучшена эффективность исполнения шейдеров — введена предвыборка инструкций, улучшающая кэширование инструкций, снижающая простои конвейера и увеличивающая общую вычислительную эффективность. Еще был увеличен размер буфера инструкций для массива инструкций (wavefront), увеличивающий однопоточную производительность, введена поддержка операций над данными в форматах FP16 и Int16, помогающая снизить нагрузку на память, повысить скорость вычислений и улучшить энергоэффективность. Последнюю возможность можно применять в широком круге задач графики, машинного зрения и обучения.

В очередной раз был улучшен и планировщик заданий hardware scheduler (HWS), использующийся при асинхронных вычислениях. В его задачи входит: разгрузка CPU от задач планирования, приоритезация задач реального времени (виртуальная реальность или обработка звука), параллельное выполнение задач и процессов, менеджмент ресурсов, координация и балансирование загрузки исполнительных блоков. Функциональность этих блоков можно обновить при помощи микрокода.

Кроме того, что объем кэш-памяти второго уровня был увеличен вдвое до 2 МБ, была изменена обработка и кэширование данных в L2-кэше и увеличена общая эффективность работы подсистемы кэш-памяти и локальной видеопамяти. Контроллер памяти получил поддержку GDDR5-памяти с эффективной тактовой частотой до 8 ГГц, что в случае Polaris означает пропускную способность шины памяти до 256 ГБ/с. Но и на этом в AMD не остановились, дополнительно улучшив алгоритмы сжатия данных без потерь (Delta Color Compression — DCC), которым поддерживаются режимы сжатия с соотношением 2:1, 4:1 и 8:1.

perf-dcc.png

Внутричиповое сжатие данных увеличивает общую эффективность работы, обеспечивает более полное использование шины данных и сказывается на энергоэффективности. В частности, если в Radeon R9 290X внутреннего сжатия информации не было и эффективная ПСП равна его физической ПСП, то в случае решения на чипе Fiji сжатие позволило сэкономить почти 20% ПСП, а в случае Polaris и до 35–40%.

memory-eff.png

Если сравнивать Radeon RX 480 с Radeon R9 290, то новое решение потребляет заметно меньше энергии для обеспечения той же эффективной пропускной способности, по сравнению с видеокартой предыдущего поколения. В результате, у новинки заметно выше и производительность в пересчете на бит — хотя у Radeon R9 290 выше пиковая ПСП, но она куда энергоэффективнее используется в Polaris 10 — общее потребление энергии интерфейсом памяти составляет 58% от потребления старого GPU.

В целом, изменения четвертого поколения GCN в графическом процессоре Polaris связаны с применением продвинутого технологического процесса 14 нм FinFET, микроархитектурными изменениями, оптимизациями физического дизайна и техник управления питанием. Все это принесло свои плоды в виде значительного прироста производительности и эффективности, по сравнению с предыдущими решениями. Если брать самый низкий уровень, то вычислительные блоки CU в Polaris 10 (Radeon RX 480) примерно на 15% производительнее блоков чипа Hawaii (Radeon R9 290).

perf-watt.png

Сложно судить, насколько велик вклад той или иной оптимизации в общий прирост скорости, но если брать все оптимизации в комплексе, то разница в энергоэффективности между Radeon RX 470 и Radeon R9 270X, по оценке специалистов компании AMD, достигает 2,8-кратной. Причем, они оценивают вклад FinFET-техпроцесса меньше вклада своих оптимизаций. Вероятно, было выбрано самое выгодное сравнение, а для других моделей прирост по энергоэффективности несколько меньше. Например, если сравнить показатели RX 480 и R9 290, то разница по энергоэффективности будет ближе к двукратной. В любом случае, такие огромные приросты бывают раз в несколько лет, и уже поэтому у нас нет никаких сомнений в том, что продажи Radeon RX 480 будут успешными.

Технологический процесс и его оптимизация

Как мы уже говорили, главное в Polaris — это не изменения в аппаратных блоках, а большой шаг вперед из-за применения в производстве этого GPU нового техпроцесса 14 нм с использованием транзисторов с вертикально расположенным затвором (FinFET — Fin Field Effect Transistor), также известных как транзисторы с трехмерной структурой затвора или 3D-транзисторы.

Динамическое энергопотребление растет линейно с ростом количества вычислительных блоков, и кубически при повышении частоты при помощи повышения напряжения (так, прирост частоты и напряжения на 15% увеличивает потребление более чем наполовину!), и в результате графические процессоры зачастую работают на более низких тактовых частотах, зато используют чипы большей плотности, чтобы поместить в них большее количество вычислительных устройств, которые работают параллельно.

Последние пять лет графические процессоры выпускались при помощи 28 нм техпроцессов, а промежуточный 20 нм не дал требуемых параметров. Освоения еще более совершенных техпроцессов пришлось ждать довольно долго, и вот, для производства графических процессоров семейства Polaris, компания AMD выбрала производства компаний Samsung Electronics и GlobalFoundries с их 14 нм FinFET-техпроцессом, который обеспечивает производство одних из самых плотных микропроцессоров. Применение FinFET-транзисторов имеет решающее значение для снижения энергопотребления и снижения напряжения GPU примерно на 150 мВ, по сравнению с предыдущим поколением, сокращая мощность на треть.

finfet.png

На иллюстрации схематично показано условное изменение размеров одного и того же GPU, произведенного с применением различных техпроцессов. Компании Samsung Electronics и GlobalFoundries разделяют заказы на выпуск 14 нм центральных и графических процессоров компании AMD, так как техпроцесс у них одинаковый и наладить одновременное производство несложно, разделяя между ними заказы исходя из выхода годных чипов и других параметров, что должно позволить решить потенциальные проблемы с недостаточными объемами производства.

Архитектура Polaris изначально разрабатывалась под возможности FinFET-техпроцессов, и должна использовать все их возможности. Если описывать вкратце, то FinFET-транзистор — это транзистор с каналом, окруженным затвором через прослойку в виде изолятора с трех сторон — по сравнению с планарным, где поверхность сопряжения — это одна плоскость. FinFET-транзисторы имеют более сложное устройство, и трудностей при реализации новой технологии было предостаточно, для освоения соответствующих техпроцессов потребовалось пять лет.

Зато новая форма транзисторов обеспечивает больший выход годных, меньшие утечки и заметно лучшую энергоэффективность, что является основной задачей современной микроэлектроники. Количество транзисторов в графических процессорах на квадратный миллиметр площади удваивалось примерно каждые два года, вместе с этим удвоились и статические утечки (static leakage). Для решения части этих проблем использовались специальные средства, вроде островков из транзисторов с разным напряжением питания и схем управления тактовыми сигналами (clock gating), которые помогали снизить токи утечек в режимах простоя или сна. Но эти техники не помогают при активных состояниях работы и способны снизить максимальную производительность.

В FinFET-процессах многие проблемы решены, что позволяет добиться революционного улучшения в производительности и потреблении энергии, по сравнению с предыдущими чипами, произведенными при помощи традиционных технологий. Новые техпроцессы позволяют не просто повысить производительность, но и снизить вариативность характеристик (разницу в характеристиках всех произведенных чипов одной модели) — сравните разброс параметров для FinFET-техпроцесса 14 нм и привычного 28 нм у TSMC:

process_vs.jpg

На этой диаграмме видны как большая средняя производительность для FinFET-продуктов, так и меньшие утечки в среднем, и меньший разброс в показателях производительности и величине утечек для разных образцов. Улучшение вариативности этих характеристик для GPU в случае FinFET означает, что можно повысить итоговую частоту для всех продуктов, в то время как для планарных транзисторов приходилось обращать большее внимание на худшие показатели и снижать референсные характеристики для всех конечных продуктов.

В итоге графические процессоры, произведенные при помощи техпроцессов с применением FinFET-транзисторов, обеспечивают фундаментальный рост характеристик производительности и энергоэффективности, по сравнению с аналогами, в производстве которых были использованы традиционные планарные транзисторы. По оценке специалистов AMD, применение FinFET-техпроцессов позволяет обеспечить или на 50–60% меньшее потребление энергии, или на 20–35% большую производительность при прочих равных.

Новые техпроцессы с применением FinFET-транзисторов помогают не только снизить потребление энергии и значительно улучшить энергоэффективность, но и открыть новые форм-факторы и форматы для применения будущих графических процессоров. Так, в будущем возможно появление относительно тонких и легких игровых ноутбуков, которые не будут требовать значительного снижения настроек качества 3D-графики, достаточно мощных настольных ПК ультракомпактного размера, ну, а привычные игровые видеокарты смогут обходиться меньшим количеством разъемов питания.

Но для того, чтобы добиться большей энергоэффективности, недостаточно просто перевести чип на более «тонкий» техпроцесс, требуются многочисленные изменения в его дизайн. К примеру, в Polaris применяется адаптивное тактирование GPU. Графические процессоры работают при низком напряжении и высокой силе тока, и поставлять качественное напряжение от схем питания довольно сложно. Разброс в напряжении может достигать 10–15% от номинального значения, и среднее напряжение приходится повышать для того, чтобы перекрыть эту разницу, и на это тратится впустую куча энергии.

adaptive-clock.png

Адаптивное тактирование в решениях AMD восстанавливает эти потери со снижением энергозатрат на четверть. Для этого, в дополнение к уже существующим сенсорам энергопотребления и температуры добавляется еще и сенсор частоты. В результате работы алгоритма достигается максимальная энергоэффективность для всего чипа.

Также производится калибровка блока питания при загрузке системы. При испытаниях процессора запускается специальный код для анализа напряжения, и интегрированными мониторами питания записывается значение напряжение. Затем при загрузке ПК запускается тот же код и замеряется полученное напряжение, и регуляторы напряжения на плате устанавливают такое же напряжение, какое было при тестировании. Это исключает затраты энергии, которая расходуется из-за разницы в системах.

Есть в Polaris и адаптивная компенсация старения транзисторов — обычно графические процессоры требуют запаса тактовой частоты порядка 2–3% для приспособления к старению транзисторов чипа, да и другие компоненты также демонстрируют старение (например, GPU получает более низкое напряжение от системы). Современные решения AMD умеют делать самостоятельную калибровку и адаптироваться к изменяющимся условиям со временем, что обеспечивает надежную работу видеокарты в течение продолжительного времени и немного повышенную производительность.

Radeon WattMan — новые возможности разгона и мониторинга

Важной составляющей любого современного видеодрайвера являются настройки для разгона, позволяющие выжать из GPU все его возможности. Ранее этим заведовал раздел AMD Overdrive в драйверах решений этой компании, а вместе с выходом новых решений в AMD решили кардинально обновить и этот раздел драйвера, назвав его Radeon WattMan.

Radeon WattMan — это новая утилита AMD для разгона, позволяющая изменять напряжение GPU, частоту графического процессора и видеопамяти, скорость вращения вентилятора системы охлаждения и целевую температуру. Radeon WattMan основан на возможностях, виденных ранее в Radeon Software, но предлагает несколько новых функций по тонкому разгону — с иными возможностями по управлению напряжением и частотой GPU. Также в WattMan появился удобный мониторинг активности GPU, тактовых частот, температур и скорости вентилятора.

Удобно сделано то, что как и в других настройках Radeon Software Crimson Edition, можно задать собственный профиль разгона для каждого приложения или игры, который будет применен при их запуске. А после завершения работы приложения, настройки вернутся к глобальным по умолчанию. Radeon WattMan можно найти в Radeon Settings, он заместил текущую панель AMD OverDrive, и совместим с серией AMD Radeon RX 400.

wattman-sm.png

Возможно как простое управление частотой GPU, так и тонкая настройка кривой частот. Простая настройка частоты работает по умолчанию и позволяет изменять заданные инженерами AMD значения, оптимальные для каждого состояния GPU. Изменение кривой частоты возможно с точностью в 0,5%. Есть и динамическое изменение кривой частоты, когда тактовая частота ядра GPU и видеопамяти может изменять

Полный текст статьи читайте на iXBT