Методика измерения производительности в играх iXBT.com образца 2016 года
Совсем недавно мы обновили нашу методику тестирования на основе реальных неигровых приложений. А теперь рассмотрим обновленную методику измерения игровой производительности, которая претерпела существенные изменения в сравнении с методикой iXBT Game Benchmark 2015.
Набор игр и игровых бенчмарков, используемых для тестирования
В сравнении с предыдущим вариантом методики измерения производительности в играх, в обновленном варианте, во-первых, расширился набор используемых игр, во-вторых, некоторые игры мы убрали из теста, а, в-третьих, если ранее в используемом тестовом скрипте для каждой игры предусматривалась возможность запуска только в двух разрешениях, то в новой версии добавлено еще одно разрешение и все игры могут запускаться при разрешениях 1366×768, 1920×1080 и 2560×1440.
Как и прежде, все игры в нашем бенчмарке запускаются в двух режимах настройки игр: на максимальное и минимальное качество. Кроме того, как и в предыдущей версии нашего игрового бенчмарка, предусмотрена возможность задавать количество прогонов каждого теста. После каждого прогона теста производится перезагрузка системы и выдерживается пауза. По результатам всех прогонов рассчитывается среднеарифметический результат (среднее значение FPS) и погрешность результата.
Подчеркнем, что данная методика не заменяет собой методику тестирования дискретных видеокарт и будет использоваться нами для тестирования ноутбуков, компьютеров, моноблоков, а также процессоров. Данная методика совместима только с 64-битной версией операционной системы Windows 10.
В предыдущей версии методики (iXBT Game Benchmark 2015) использовалось десять тестов (восемь игр и два игровых бенчмарка):
- Aliens vs Predator D3D11 Benchmark v. 1.03;
- World of Tanks 0.9.5;
- GRID 2;
- Metro: LL Redux;
- Metro: 2033 Redux;
- Hitman: Absolution (1.0.447.0);
- Thief (1.6 build 4158.14);
- Tomb Raider GOTY Edition (v. 1.01.748.0);
- Sleeping Dogs (v. 1.0);
- Sniper Elite V2.
В нашей новой методике мы отказались от бенчмарка Aliens vs Predator D3D11 Benchmark v. 1.03 и игры Metro: 2033 Redux. Дело в том, что бенчмарк Aliens vs Predator D3D11 Benchmark v. 1.03, как выяснилось, не поддерживает разрешения 2560×1440.Что касается теста на основе игры Metro: 2033 Redux, то, как нам кажется, при наличии теста Metro: LL Redux в нем просто нет смысла, поскольку тесты Metro: 2033 Redux и Metro: LL Redux всегда демонстрируют одинаковые результаты.
Тест на основе игры World of Tanks был полностью обновлен. Если ранее использовалась версия игры 0.9.5, то теперь используется версия 0.9.12 и, соответственно, записан другой другой бой.
Кроме того, были добавлены тесты на основе игр World of Warships 0.5.0.3, F1 2015, Middle-earth: Shadow of Mordor, Batman: Arkham Origins и BioShock Infinite. Таким образов, всего в нашем новом игровом бенчмарке используется 13 тестов:
- World of Tanks 0.9.12;
- World of Warships 0.5.0.3;
- Grid 2;
- F1 2015 (v. 1.0.19.1175);
- Metro: LL Redux;
- Middle-earth: Shadow of Mordor;
- Hitman: Absolution (1.0.447.0);
- Thief (1.6 build 4158.14);
- Tomb Raider GOTY Edition (v. 1.01.748.0);
- Sleeping Dogs (v. 1.0);
- Sniper Elite V2;
- Batman: Arkham Origins (v. 1.12);
- BioShock Infinite (v. 1.1.22).
Такое большое количество используемых тестов, в одной стороны, вроде как и хорошо. Но есть и обратная сторона медали. Дистрибутивы всех этих игр в совокупности имеют размер 215 ГБ, а чтобы установить все эти игры потребуется накопитель размером не менее 480 ГБ. И это при условии, что, а установка игр производится с внешнего накопителя (без копирования дистрибутивов на системный накопитель). Причем, сам процесс установки всех игр очень получается очень длительным и занимает как минимум полдня.
Понятно, что далеко не каждый ноутбук или моноблоки имеет накопитель размером не менее 480 ГБ и в этом заключается большая проблема при проведении тестирования. Можно, конечно, устанавливать игры порциями по несколько штук (сколько вмещается), потом производить тестирование на основе установленных игр, удалять их и устанавливать следующую порцию игр. Однако, это, конечно, очень неудобно и сильно затягивает весь процесс тестирования, поскольку делает его лишь частично автоматизированным.
Именно поэтому, мы решили применить модульный подход. То есть, вовсе необязательно, что тестировании всех систем (ноутбуков, моноблоков и т. д.) будет использоваться весь набор игровых тестов. Да и нет никакой необходимости использовать такое количество тестов при тестировании, к примеру, ноутбука без дискретной графической карты, который и не позиционируется как игровой. Ну, а поскольку во всех тестах результатом является среднее значение FPS, которое само по себе показательно, то есть, нет необходимости в вычислении интегрального показателя производительности с привлечением референсных результатов, совсем необязательно при тестировании использовать весь набор игр.
Далее мы рассмотрим настройки игр в режимах минимального и максимального качества.
Настройки игр в режимах минимального и максимального качества
World of Tanks 0.9.12
Как известно, в игре World of Tanks нет встроенного бенчмарка, однако, есть возможность записывать геймплей (бой) и потом воспроизводить его. Поэтому, в нашем тестовом бенчмарке данная игра используется одновременно с утилитой FRAPS для определения среднего и минимального значения FPS. Ну, а запись танкового сражения была сделана специально для нашего теста поклонниками этой игры.
Настройки игры на максимальное и минимальное качество приведены далее.
максимальное качество | минимальное качество | |
Качество графики | Пользовательское | Пользовательское |
Качество текстур | Максимум | Низко |
Качество освещения | Максимум | Выключено |
Качество теней | Максимум | Выключено |
Качество доп. эффектов | Максимум | Выключено |
Доп. эффекты в снайперском режиме | Высоко | Выключено |
Количество растительности | Максимум | Выключено |
Постобработка | Максимум | Выключено |
Трава в снайперском режиме | Да | Нет |
Эффекты из-под гусениц | Да | Нет |
Качество ландшафта | Максимум | Минимум |
Качество воды | Максимум | Низко |
Качество деталей | Максимум | Выключено |
Детализация объектов | Максимум | Низко |
Детализация деревьев | Максимум | Низко |
Дальность прорисовки | Максимум | Низко |
Качество «размытия» в движении | Высоко | Выключено |
Прозрачность листвы | Да | Нет |
Динамическое изменение качества | Нет | Нет |
Следы гусениц | Да | Нет |
World of Warships 0.5.0.3
В игре World of Warships также нет встроенного бенчмарка, однако, есть возможность записывать геймплей морского боя и потом воспроизводить его. Поэтому, в нашем тестовом бенчмарке данная игра используется одновременно с утилитой FRAPS для определения среднего и минимального значения FPS. Запись морского боя была сделана специально для нашего теста поклонниками этой игры.
Настройки игры на максимальное и минимальное качество следующие:
Grid 2
Игра Grid 2 имеет встроенный бенчмарк, который можно запускать с различными пресетами, задающими качество отображения.
Отметим, что игра Grid 2 может запускаться в двух режимах: с поддержкой команд AVX и без (используются различные файлы для запуска игры). В нашем случае используется режим с поддержкой AVX (файл Grid 2_avx.exe).
Настройку игры на режимы максимального и минимального качества можно производить через конфигурационный файл hardware_settings_config.xml (он находится в папке Documents\My Games\Grid 2\hardwaresettings), а для запуска встроенного бенчмарка используется команда Grid 2_avx.exe -benchmark example_benchmark.xml.
Мы используем следующие режимы настроек на максимальное и минимальное качество:
максимальное качество | минимальное качество | |
Качество графики | да | да |
Сглаживание | 8xMSAA | Выкл |
Соотношение сторон | Авто | Авто |
Частот обновления | 60 | 60 |
Вертикальная синхронизация | Выкл | Выкл |
Ночное освещение | Высоко | Низко |
Тени | Ультра | Ультра низко |
Продвинутый туман | Вкл | Выкл |
Частицы | Ультра | Низко |
Толпа | Ультра | Выкл |
Ткань | Высоко | Выкл |
Модель затенения | Ультра | Низко |
Мягкое затенение | Вкл | Выкл |
Покрытие земли | Высоко | Выкл |
Детали автомобиля | Высоко | Низко |
Деревья | Ультра | Средне |
Объекты | Ультра | Средне |
Отражение автомобилей | Высоко | Низко |
Вода | Высоко | Низко |
Постобработка | Высоко | Низко |
Следы от шин | Вкл | Выкл |
Улучшенное освещение | Вкл | Выкл |
Общее освещение | Вкл | Выкл |
Анизотропная фильтрация | Ультра | Выкл |
Результаты тестирования сохраняются в xml-файле (в папке Documents\My Games\Grid 2\behchmarks).
Отметим, что бенчмарк в игре Grid 2 имеет одну неприятную особенность или, если точнее, ошибку. Результат теста, выдаваемый бенчмарком, никогда не бывает ниже 12,5 FPS. То есть, даже если реальная скорость ниже 12,5 FPS, в чем можно убедиться, запустив FRAPS, в файл результата записывается значение 12,5 FPS. Фактически, это означает, что если в ходе тестирования вы получили значение 12,5 FPS, то это еще ничего не означает. Реальный результат будет ниже. Для систем с мощной графикой данная ошибка бенчмарка не является проблемой, поскольку даже при максимальном разрешении и с настройками на максимальное качество результат получается выше 12,5 FPS. А вот для систем с процессорным графическим ядром это может оказаться проблемой. Поэтому, в бенчмарке Grid 2 мы поступаем следующим образом. Параллельно с запуском теста запускается утилита FRAPS. Если результат бенчмарка оказывается выше 12,5 FPS, то используются показания встроенного бенчмарка. В противном случае используются показания утилиты FRAPS.
F1 2015
Игра F1 2015 очень похожа на Grid 2 и также имеет встроенный бенчмарк.
Настройку игры на режимы максимального и минимального качества можно производить через конфигурационный файл hardware_settings_config.xml (он находится в папке Documents\My Games\F1 2015\hardwaresettings), а для запуска встроенного бенчмарка используется команда F1_2015.exe -benchmark example_benchmark.xml.
В режиме максимального качества используются следующие настройки:
В режиме минимального качества используются следующие настройки:
Результаты тестирования сохраняются в xml-файле (в папке Documents\My Games\F1 2015).
Metro: LL Redux
Как и в предыдущем варианте нашей методике мы используем игру Metro: Last Light (LL) Redux.
Эта игра имеет встроенный бенчмарк METRO Redux Benchmark v3.00×64, который мы и использовали для тестирования.
Настройки бенчмарка производится в отдельном диалоговом окне перед его запуском. Настройки бенчмарка Metro: LL Redux на режимы максимального и минимального качества приведены следующие:
Middle-earth: Shadow of Mordor
В игре Middle-earth: Shadow of Mordor имеется встроенный бенчмарк, который запускается только из самой игры (нет возможности запуска бенчмарка из командной строки).
Настройка бенчмарка на максимальное и минимальное качество, а также установка разрешения производится в файлах render.cfg и settings.cfg
Настройки игры, используемые для режимов минимального и максимального качества, приведены далее.
Hitman: Absolution (1.0.447.0)
Игра Hitman: Absolution имеет встроенный бенчмарк, который мы и использовали в нашем тестовом скрипте. Запуск бенчмарка возможен из командной строки. Настройка теста на максимальное и минимальное качество производится в конфигурационном ini-файле, который указывается в качестве параметра в команде запуска бенчмарка. Кроме того, возможна настройка игры и в отдельном диалоговом окне настроек. В режиме максимального качества используются следующие настройки:
В режиме минимального качества используются следующие настройки:
Thief (1.6 build 4158.14)
В игре Thief (используется 64-битная версия игры) также имеется встроенный бенчмарк, который может запускаться из командной строки, а настройку бенчмарка на максимальное и минимальное качество можно производить через конфигурационный файл setting.txt (этот файл указывается в качестве параметра в команде запуска бенчмарка) или через диалоговое окно настроек. Настройки бенчмарка Thief на режимы максимального и минимального качества приведены на принт-скринах:
Tomb Raider GOTY Edition (v. 1.01.748.0)
В игре Tomb Raider имеется встроенный бенчмарк, который запускается из командной строки. Настройки игры на режимы максимального и минимального качества производятся через конфигурационной ini-файл, который указывается в качестве параметра в команде запуска бенчмарка. Кроме того, можно производить настройку качества и в самой игре.
Настройки игры Tomb Raider на режим максимального качества следующие:
Настройки игры Tomb Raider на режим минимального качества следующие:
Sleeping Dogs (v. 1.0)
В игре Sleeping Dogs при тестировании используется встроенный бенчмарк, который запускается из командной строки. Настройки игры на режимы максимального и минимального качества производятся путем редактирования конфигурационного файла настроек DisplaySettings.xml или путем установки соответствующих параметров в самой игре. Настройки игры на режимы минимального и максимального качества приведены в таблице и на принт-скринах:
максимальное качество | минимальное качество | |
Enable quality anti-aliasing | Extreme | Normal |
Shadow resolution | High | Off |
Screen space ambient occlusion | High | Normal |
Enable V-Sync | Off | Off |
Enable quality motion blur | High | Off |
World density | Extreme | Low |
FPS limiter | Off | Off |
Low resolution buffers | Off | Off |
Sniper Elite V2
Мы используем отдельный игровой бенчмарк, сделанный для игры Sniper Elite V2. Настройки данного теста на минимальное и максимальное качество производятся в отдельном ini-файле. Мы используем следующие настройки:
максимальное качество | минимальное качество | |
MotionBlur | On | Off |
AmbientOcclusion | On | Off |
VSync | Off | Off |
ReduceMouseLag | Off | Off |
TextureDetail | Ultra | Low |
ShadowDetail | Ultra | Low |
AntiAliasing | High | Off |
DrawDistance | Ultra | Low |
AnisotropicFiltering | 16 | Off |
ComputeShader | On | Off |
AdvancedShadows | High | Off |
Supersampling | 4.0x | Off |
Batman: Arkham Origins (v. 1.12)
Игра BioShock Infinite имеет встроенный бенчмарк, который запускается из командной строки (команда «BatmanOrigins.exe benchmark»). Настройка игры на максимальное и минимальное качество, задается в конфигурационном файле GFXSettings.BatmanArkhamOrigins.xml или же в самой игре. Мы используем следующие настройки для максимального и минимального качества.
BioShock Infinite (v. 1.1.22)
Игра BioShock Infinite имеет встроенный бенчмарк, который запускается из командной строки. Причем, настройка игры на максимальное и минимальное качество, а также разрешение тоже задается в командной строке в качестве параметров. Для максимального качества мы используем пресет UltraDX11_DDOF, а для минимального качества используется пресет VeryLow.
Соответственно, для запуска теста в режиме максимального качества используется командная строка: «С:\Program Files (x86)\Bioshock Infinite\Binaries\Win32\benchmark.bat UltraDX11_DDOF -unattended -resx=2560 -resy=1440» (в данном примере используется разрешение 2560×1440).
Для запуска теста в режиме минимального качества используется командная строка: «С:\Program Files (x86)\Bioshock Infinite\Binaries\Win32\benchmark.bat VeryLow -unattended -resx=2560 -resy=1440».
Результаты теста сохраняются в csv-файле.
Погрешность измерения результатов тестирования
В любом тесте есть свой разброс результатов, который определяет погрешность измерения получаемого результата. В играх, как показывает практика, разброс результатов очень невелик и для получения достаточно достоверного результата вполне достаточно трех прогонов теста.
Аналогично тому, как это делается в методике измерения производительности на основе реальных приложений, в методике измерения производительности в играх рассчитывается среднеарифметический результат и погрешность измерения для доверительного интервала 0,95 (для расчета используется коэффициент Стьюдента). Разница лишь в том, что в данном случае используется три измерения вместо пяти.
В данном случае (для трех измерений и доверительного интервала 0,95) коэффициент Стьюдента равен 4,302.
Говоря о вычислении погрешности результата измерений, необходимо кроме случайной погрешности (погрешность, возникающая за счет получения различных результатов измерения) учитывать также и систематическую ошибку измерения (то, что называют инструментальной погрешностью). Дело в том, что во всех игровых тестах результат определяется только с определенной точностью. Причем, эта точность различна в различных тестах. К примеру, в тесте Batman Arkham Origins результат записывается с точностью до сотых долей FPS (например, 9,88 FPS), а в тесте SniperEliteV2 — до десятых долей (например, 4,7 FPS). Возможна ситуация, когда в трех прогонах будет получен одинаковый результат, но это не означает, что нет погрешности. Если, например, три раза получается результат 4,7 FPS, то это означает, что погрешность определяется сотыми значениями FPS и составляет 0,05 FPS.
Если тест подразумевает наличие систематической ошибки, то абсолютная погрешность результата рассчитывается по формуле:
В нашем случае систематическую ошибку за счет округления результата имеют следующие игровые тесты:
Игровой тест | Систематическая ошибка |
Metro: LL Redux | 0,005 FPS |
Middle-earth: Shadow of Mordor | 0,005 FPS |
Thief | 0,05 FPS |
Tomb Raider GOTY Edition | 0,05 FPS |
Sniper Elite V2 | 0,05 FPS |
Batman: Arkham Origins | 0,005 FPS |
В остальных тестах систематическая ошибка за счет округления результата получается меньше и ее нет смысла учитывать.
Запись результатов тестирования
Поскольку результаты в нашем тесте рассчитываются с погрешностью, то огласим также правила записи результатов. Собственно, правила записи результатов с погрешностью хорошо известны и мы лишь напомним их. Речь идет о правилах округления погрешности и результата.
Итак, погрешность записывается с одной или двумя значащими цифрами. Напомним, что значащие цифры данного числа — это все цифры от первой слева, не равной нулю, до последней справа. При этом нули, следующие из множителя 10n не учитывают.
Если первая значащая цифра погрешности измерения единица или двойка, то после округления оставляют две
Полный текст статьи читайте на iXBT