Видеоускоритель AMD Radeon RX 460: новый техпроцесс уже и в ускорителях бюджетного сегмента!

Новый техпроцесс уже и в ускорителях бюджетного сегмента!


Содержание

Представляем базовый детальный материал с исследованием AMD Radeon RX 460.

Справочные материалы

Объект исследования: Ускоритель трехмерной графики (видеокарта) Sapphire Nitro+ Radeon RX 460 4G D5 4 ГБ 128-битной GDDR5 PCI-E

Сведения о разработчике: Компания ATI Technologies (торговая марка ATI) основана в 1985 году в Канаде как Array Technology Inc. В том же году была переименована в ATI Technologies. Штаб-квартира в г. Маркхам (Торонто). C 1987 года компания сконцентрировалась на выпуске графических решений для ПК. Начиная с 2000 года основным брендом графических решений ATI становится Radeon, под которым выпускаются GPU как для настольных ПК, так и для ноутбуков. В 2006 году компанию ATI Technologies покупает компания AMD, в которой образуется подразделение AMD Graphics Products Group (AMD GPG). C 2010 года AMD отказывается от бренда ATI, оставив лишь Radeon. Штаб-квартира AMD в Саннивейл (Калифорния), а у AMD GPG остается главным офисом бывший офис AMD в Маркхаме (Канада). Своего производства нет. Общая численность сотрудников AMD GPG (включая региональные офисы) около 2000 человек.

Часть 1: Теория и архитектура

Почти сразу же после выхода статьи о Radeon RX 470 мы рассмотрим еще одну модель видеокарты компании AMD — Radeon RX 460, самую доступную из новой линейки. После весьма длительного ожидания переноса производства графических процессоров на новые FinFET-техпроцессы анонсы новых решений посыпались, как из рога изобилия. Производители микроэлектронных чипов смогли наладить массовое производство сравнительно сложных и крупных GPU лишь к середине текущего года, и на данный момент и AMD и Nvidia уже выпустили по три новых видеокарты и по паре новых графических процессоров. В отличие от калифорнийцев, компания AMD пока что решилась на выпуск менее дорогих и сложных видеокарт, надеясь на лучшие продажи.

Они поставили себе задачу спроектировать графические процессоры для ценовых сегментов от $100 до $250, достаточно мощные для современных игр, но не слишком дорогие и очень энергоэффективные. Это решение имеет смысл, ведь по данным компании, примерно 84% игроков покупают видеокарты именно по цене от $100 до $300. В AMD продвигают свои более мощные решения как призванные сделать доступной виртуальную реальность, обеспечив достаточной мощью и обычные 3D-игры, а младшие предназначены для компактных ПК с небольшим потреблением энергии и для игровых ноутбуков, на которых они обеспечивают мощность, аналогичную возможностям игровых консолей.

chips.jpg

Как мы уже писали ранее, инженеры AMD спроектировали две модели графических процессоров: Polaris 10 и Polaris 11, соответствующие определенным уровням возможностей и производительности. Старший чип серии Polaris обеспечит ПК-игроков достаточной мощностью для VR-приложений и всех современных игр, а менее производительный младший GPU предназначен для более простых домашних систем, а также тонких и легких ноутбуков, предлагая при этом возможности и производительность, превосходящие параметры игровых приставок.

Из трех анонсированных летом видеокарт, уже вышли средняя и старшая, а сегодня мы рассмотрим самую недорогую модель Radeon RX 460 — весьма энергоэффективную видеокарту с низким потреблением энергии, отлично приспособленную для нетребовательных игр, вроде киберспортивных проектов, таких как Dota 2, CS: GO, LoL, WoT и других. Кроме этого, графический процессор Polaris 11, имеющий мощность более чем 2 терафлопа и 128-битную шину памяти, предназначен и для будущих мобильных решений, которые мы увидим в продаже уже очень скоро.

esports.jpg

Главной задачей, стоящей перед проектировщиками новинки, было обеспечение достаточно высокой производительности в таких проектах, а также других играх предыдущих лет, вроде GTA V. Судя по собственным тестам компании, они добились требуемой скорости рендеринга, обеспечив более чем 90 FPS в киберспортивных проектах при высоких настройках качества — что означает прирост на 20–30%, по сравнению с одной из устаревших видеокарт компании:

perf_games.jpg

В сочетании с применением дисплея, поддерживающего технологию AMD FreeSync, в таких условиях будет обеспечена идеальная плавность и минимальные задержки между действиями игрока и их отображением на экране — AMD заявляет их снижение вплоть до двукратного, по сравнению с видеокартами предыдущих поколений. А именно это и нужно киберспортсменам, чтобы быть конкурентоспособными в многопользовательских сражениях.

Кроме этого, решения компании AMD отличаются тем, что во многих самых современных играх с поддержкой новых графических API низкого уровня: DirectX 12 и Vulkan, видеокарты AMD Radeon на чипах архитектуры GCN чаще всего превосходят аналоги от компании Nvidia. Причем, преимущество видеокарт семейства Polaris при переходе на новые API даже стало еще выше, чем у предыдущих поколений графических процессоров AMD. Это касается как игр с поддержкой DirectX 12, так и Vulkan. К примеру, в игре DOOM решения Radeon обеспечивают большие приросты по сравнению с OpenGL-версией игры, что позволяет им обходить конкурирующие видеокарты GeForce.

perf_vulkan.png

По сравнению с предыдущими версиями графических API: DirectX 11 и OpenGL, новые версии значительно снижают нагрузку на центральный процессор игровой системы при обработке команд API. «Консолеподобный» DirectX 12 API дает разработчикам игр прямой доступ к возможностям аппаратного обеспечения — графическим процессорам. И при наличии у тех достаточного умения, они могут пустить сэкономленные ресурсы или на более высокую частоту кадров и сниженные задержки, или на улучшение качества изображения. Мы уже не раз отмечали, что в новых графических API у AMD Radeon RX 460 есть явное преимущество как перед старым решением AMD, так и перед конкурирующей видеокартой GeForce GTX 750 Ti:

perf_dx12.png

Так как основой модели Radeon RX 460 является графический процессор Polaris 11, имеющий архитектуру GCN четвертого поколения, точно как и у ранее рассмотренного Polaris 10, которая во многих деталях схожа с ранее вышедшими решениями компании AMD, то перед прочтением теоретической части статьи будет полезно ознакомиться и с предыдущими материалами по прошлым видеокартам компании, основанным на архитектуре GCN текущего и предыдущих поколений:

Рассмотрим подробные характеристики видеоплаты Radeon RX 460, основанной на графическом процессоре нового поколения Polaris 11.

Графический ускоритель Radeon RX 460
Параметр Значение
Кодовое имя чипа Polaris 11 (Baffin)
Технология производства 14 нм FinFET
Количество транзисторов 3 млрд.
Площадь ядра 123 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_0
Шина памяти 128-битная: два независимых 64-битных контроллера памяти с поддержкой GDDR5-памяти
Частота графического процессора 1090 (1200) МГц
Вычислительные блоки 14 (из 16 имеющихся) вычислительных блока GCN, включающих 56 (из 64) SIMD-ядер, состоящих в целом из 896 (из 1024) ALU для расчетов с плавающей запятой (поддерживаются целочисленные и плавающие форматы, с точностью FP16, FP32 и FP64)
Блоки текстурирования 56 (из 64) текстурных блоков, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP) 16 блоков ROP с поддержкой режимов сглаживания с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 16 отсчетов за такт, а в режиме без цвета (Z only) — 64 отсчетов за такт
Поддержка мониторов Интегрированная поддержка до шести мониторов, подключенных по интерфейсам DVI, HDMI 2.0b и DisplayPort 1.3/1.4 HDR Ready
card.jpg
Спецификации видеокарты Radeon RX 460
Параметр Значение
Частота ядра 1090 (1200) МГц
Количество универсальных процессоров 896
Количество текстурных блоков 56
Количество блоков блендинга 16
Эффективная частота памяти 7000 (4×1750) МГц
Тип памяти GDDR5
Шина памяти 128-бит
Объем памяти 2/4 ГБ
Пропускная способность памяти 112 ГБ/с
Вычислительная производительность (FP32) 2–2,2 терафлопс
Теоретическая максимальная скорость закраски до 19,2 гигапиксел/с
Теоретическая скорость выборки текстур до 57,6 гигатекселя/с
Шина PCI Express 3.0×8
Разъемы Один разъем HDMI и три DisplayPort
Энергопотребление менее 75 Вт
Дополнительное питание отсутствует
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $99/$119 (для рынка США) и 8299 руб/10299  (для рынка России)

Название вышедшей сегодня на рынок видеокарты AMD полностью соответствует принятой компанией системе наименований. Оно отличается от предшественников измененным символом в первой части индекса и суффиксом RX. И все вроде бы логично: поколение новое, а видеокарта бюджетного уровня, поэтому средняя цифра 6. Зачем раньше было нужно разделять линейку на R7 и R9 — непонятно.

Младшая видеокарта семейства Radeon 400 заняла в текущей линейке компании место ниже старших Radeon RX 480 и RX 470 — заменив решения предыдущего поколения, аналогичного рыночного позиционирования. Видеокарты модели Radeon RX 470 будут предлагаться на североамериканском рынке по рекомендованной цене от $99, если говорить о вариантах с 2 ГБ памяти, и от $119 для четырехгигабайтного варианта. В целом, предложение довольно удачное по соотношению цены и производительности, хотя оно и не слишком сильно ушло от решений предыдущего поколения схожей мощности. Надеемся на снижение цен по мере снижения себестоимости производства GPU на новом техпроцессе и насыщения рынка новинками обеих компаний.

По скорости рендеринга Radeon RX 460 должна быть где-то примерно на уровне Radeon R7 370, и быстрее R7 260X. С прямыми конкурентами из стана Nvidia у очередной новинки AMD дела снова обстоят не очень хорошо, так как калифорнийская компания пока что выпустила из нового поколения только дорогие варианты, и даже самый дешевый среди них — GeForce GTX 1060 — стоит намного дороже. Придется пока что сравнивать Radeon RX 460 c GeForce GTX 950 и GTX 750 Ti, где-то между ними новинка и должна быть по скорости рендеринга, как мы предполагаем.

Видеокарта модели Radeon RX 460 будет предлагаться в двух версиях с разным объемом видеопамяти: 2 ГБ и 4 ГБ, во всех случаях применяется память типа GDDR5, для референсного варианта она имеет эффективную частоту в 7000 МГц. Младший вариант с 2 ГБ хоть и позволяет сэкономить 20%, но этого объема памяти откровенно не хватит даже для Full HD-разрешения во многих играх, а вот 4 ГБ на данный момент мы считаем идеальным объемом видеопамяти, вполне достаточным для Full HD-разрешения в большинстве случаев даже для самых современных игр и высоких настроек качества рендеринга. И преимущество 4-гигабайтного варианта Radeon RX 460 со временем будет только расти, так что мы бы не советовали покупать младшую модель вовсе, по крайней мере любителям игр. Иначе можно столкнуться с неприятными просадками в производительности и рваной частотой кадров в итоге.

В отличие от видеокарт на основе чипа Polaris 10, младшая модель не требует дополнительного питания вовсе, будучи ограничена значением типичного энергопотребления в 75 Вт. Впрочем, варианты плат партнеров могут использовать один 6-контактный разъем для дополнительного питания, чтобы получение энергии по слоту PCI Express не превысило стандарты, и для обеспечения стабильной работы в режиме разгона, и такие варианты в продажу поступят. Для вывода информации на дисплеи и другие устройства отображения можно использовать разъемы HDMI 2.0b и DisplayPort 1.4 HDR Ready, и партнеры компании вольны сами определять их набор в каждом конкретном случае.

Остается добавить информацию только об одном, хоть и любопытном, но несущественном ограничении младшего графического процессора Polaris 11 — вероятно, по причине экономии средств, в AMD решили ограничить возможности подключения этого GPU по шине PCI Express, и в итоге этот чип поддерживает исключительно режим x8, а не x16, как основная масса графических процессоров. С практической точки зрения, пользователи не заметят никакой разницы между режимами работы PCI-E x8 и x16 в подавляющем большинстве случаев, так что на это ограничение не стоит обращать особого внимания.

Архитектурные особенности

Графический процессор Polaris 11, ранее известный как Baffin, относится к четвертому поколению архитектуры Graphics Core Next, самому совершенному из архитектур компании AMD. Базовым блоком архитектуры является вычислительный блок Compute Unit (CU), из которых собраны все графические процессоры AMD. Вычислительный блок CU имеет выделенное локальное хранилище данных для обмена данными или расширения локального регистрового стека, а также кэш-память первого уровня с возможностью чтения и записи и полноценный текстурный конвейер с блоками выборки и фильтрации, он разделен на подразделы, каждый из которых работает над своим потоком команд. Каждый из таких блоков занимается планированием и распределением работы самостоятельно.

В своей основе, архитектура Polaris изменилась по сравнению с предыдущими поколениями не слишком сильно, больше изменений произошло в не основных блоках видеочипа — к примеру, были серьезно улучшены блоки кодирования и декодирования видеоданных и вывода информации на устройства отображения. В остальном, это просто еще одно поколение известной архитектуры Graphics Core Next (GCN). И все же некоторые аппаратные изменения в GPU были сделаны: улучшена обработка геометрии, поддерживается нескольких проекций с разным разрешением при VR-рендеринге, обновлен контроллер памяти с применением улучшенного сжатия данных, модифицирована предвыборка инструкций и улучшена буферизация, планирование и приоритезация вычислительных задач в асинхронном режиме, внедрена поддержка операций над данными в формате FP16/Int16.

Рассмотрим схему урезанной версии графического процессора Polaris 11, применяемой в Radeon RX 460:

diag_460.png

Да-да, вы прочитали верно — чип в этой модели видеокарты не полной версии, а урезан по количеству функциональных блоков. В состав обсуждаемой версии графического процессора Polaris 11 входит один командный процессор Graphics Command Processor, четыре асинхронных вычислительных движка Asynchronous Compute Engines (ACE) и два планировщика задач Hardware Scheduler (HWS) — тут все точно как у Polaris 10. Но дальше следуют изменения, в чипе вдвое меньше геометрических процессоров (два, а не четыре, как в Polaris 10) и активны лишь 14 вычислительных блоков Compute Unit (CU) из 16 физически присутствующих в чипе.

То есть, как видно на приложенной выше блок-схеме, два из шестнадцати вычислительных блоков отключены. Вероятно, их отключили по соображениям повышения процента выхода годных GPU на фабриках GloFo, для снижения процента отбраковки. А есть и еще один теоретически возможный вариант: в AMD решили оставить место для полноценной версии Polaris 11 на больших тактовых частотах — скажем, с наименованием Radeon RX 465 (все это — лишь наши предположения), чтобы заполнить большую дыру по производительности между RX 460 и RX 470.

Сегодня мы рассматриваем только Radeon RX 460, и Polaris 11 в такой конфигурации содержит 56 (из 64 в полной версии GPU) текстурных модуля TMU, включающих по четыре блока загрузки и сохранения данных LSU на каждый TMU, а также 896 потоковых процессоров (из 1024 физически присутствующих). Блоков ROP в младшем чипе Polaris ровно вдвое меньше — 16 против 32 у старшей модели GPU, то же самое касается и подсистемы памяти этого графического процессора — он довольствуется 128-битной шиной памяти и кэш-памятью второго уровня объемом в 1 МБ. То есть, ровно вдвое меньше, чем у Polaris 10.

Есть интересный, но чисто технический нюанс, никак не влияющий на пользовательские характеристики — если Polaris 10 включает восемь 32-битных контроллеров GDDR5-памяти, то в Polaris 11 их два, но они 64-битные. В целом, контроллер памяти в новом бюджетном графическом процессоре 128-битный, он поддерживает GDDR5-память с достаточно высокой эффективной тактовой частотой — 7 ГГц в случае референсного варианта, что означает достаточно высокую для его класса пропускную способность шины памяти в 112 ГБ/с.

По своим возможностям Polaris 11 точно соответствует Polaris 10. В этом GPU также применяются улучшенные геометрические движки, имеется ускоритель отбрасывания геометрических примитивов Primitive Discard Accelerator, который работает в самом начале графического конвейера, отбрасывая невидимые треугольники, а также был внедрен новый индексный кэш для дублированной (instanced) геометрии, который оптимизирует перемещения данных и освобождает ресурсы внутренних шин передачи данных и увеличивает эффективность использования ПСП при дублировании геометрии (instancing). По данным компании AMD, новый алгоритм фильтрации и отбрасывания треугольников может повысить производительность геометрических блоков до 3–3,5 раз, но лишь в пике.

Также в четвертом поколении GCN была улучшена эффективность исполнения шейдеров — введена предвыборка инструкций, улучшающая кэширование инструкций, снижающая простои конвейера и увеличивающая общую вычислительную эффективность. Еще был увеличен размер буфера инструкций для массива инструкций (wavefront), увеличивающий однопоточную производительность, введена поддержка операций над данными в форматах FP16 и Int16, помогающая снизить нагрузку на память, повысить скорость вычислений и улучшить энергоэффективность. Последнюю возможность можно применять в широком круге задач графики, машинного зрения и обучения. Также в улучшенной графической архитектуре GCN четвертого поколения были добавлены такие новые возможности, как техника качества обслуживания Quick Response Queue, которая позволяет назначать приоритет разным вычислительным задачам, позволяя выбирать наиболее важные.

Еще был изменен процесс обработки и кэширования данных в L2-кэше и увеличена общая эффективность работы подсистемы кэш-памяти и локальной видеопамяти. Были улучшены алгоритмы сжатия данных без потерь (Delta Color Compression — DCC), которым поддерживаются режимы сжатия с соотношением 2:1, 4:1 и 8:1. Внутричиповое сжатие данных увеличивает общую эффективность работы, обеспечивает более полное использование шины данных и сказывается на энергоэффективности. В частности, если в Radeon R9 290X внутреннего сжатия информации не было и эффективная ПСП равна его физической ПСП, то в случае решения на чипе Fiji сжатие позволило сэкономить почти 20% ПСП, а в случае Polaris и вовсе до 35–40%.

Самые в

Полный текст статьи читайте на iXBT