Методика измерения производительности iXBT.com на основе реальных приложений образца 2016 года, часть 1: набор приложений, расчет интегрального показателя производительности и оценка погрешности измерения

Часть 1: набор приложений, расчет интегрального показателя производительности и оценка погрешности измерения

По уже сложившейся традиции раз в год мы обновляем наш бенчмарк на основе реальных приложений для тестирования ноутбуков, моноблоков и ПК. Необходимость обновления диктуется, прежде всего, тем, что за год обновляется большинство используемых нами в бенчмарке приложений. А потому отныне для тестирования вместо бенчмарка iXBT Application Benchmark 2015 мы будем использовать новый тестовый пакет iXBT Application Benchmark 2016, который разрабатывался нами под операционную систему Microsoft Windows 10 (64-битную).

Собственно, идеология, положенная в основу бенчмарка iXBT Application Benchmark, осталась прежней. Изменились лишь версии используемых приложений, расширился набор самих приложений, а также, в некоторых случаях, поменялся используемый приложениями контент.

Приложения, используемые для тестирования

Напомним, что, как и ранее, главная идея, положенная в основу бенчмарка, заключается в измерении времени выполнения тестовых задач, которые реализуются с применением реальных пользовательских приложений. Скорость выполнения тестовых задач является показателем производительности тестируемой системы (чем меньше времени требуется для выполнения тестового задания, тем выше производительность). Измерив время выполнения определенного набора тестовых задач, можно сопоставить его с временем выполнения тех же задач на некоторой референсной системе и таким образом сравнить производительность тестируемой системы с производительностью референсной. Именно на этом простом принципе основан алгоритм расчета интегральной оценки производительности в нашем бенчмарке iXBT Application Benchmark 2016.

Еще раз отметим, что наш бенчмарк совместим с операционной системой Windows 10 (64-битной). Версия операционной системы может быть русской или английской.

Отдельно подчеркнем, что в случае ноутбука тестирование с использованием бенчмарка iXBT Application Benchmark 2016 производится только при подключении ноутбука к электросети.

Бенчмарк позволяет задать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение. При тестировании мы используем пять прогонов каждого теста, чего достаточно для получения достоверных результатов.

Приложения, используемые в тестировании, подобраны таким образом, чтобы они позволяли оценить производительность ноутбука в следующих типовых задачах:

  • Работа с видеоконтентом;
  • Обработка цифровых фотографий;
  • Векторная графика;
  • Аудиообработка;
  • Распознавание текста;
  • Архивирование и разархивирование данных;
  • Скорость файловых операций;
  • Научные расчеты.

Для реализации тестовых задач в нашем новом бенчмарке применяются следующие приложения:

  • MediaCoder x64 0.8.36.5757;
  • SVPmark 3.0.3b;
  • Adobe Premiere Pro CC 2015.0.1 (Build 9.0.1 (36));
  • Adobe After Effects CC 2015.0.1 (Version 13.5.1.48);
  • Photodex ProShow Producer 7.0.3257;
  • Adobe Photoshop CC 2015.0.1 (20150722.r.168×64);
  • Adobe Photoshop Lightroom 6.1.1;
  • PhaseOne Capture One Pro 8.2 64-bit (Build 8.2.0.124);
  • ACDSee Pro 8.2.287;
  • Adobe Illustrator CC 2015.0.1 (19.0.1 (64-bit));
  • Adobe Audition CC 2015.0 (Build 8.0.0.192);
  • Abbyy FineReader 12 Professional (Build 12.0.101.382);
  • WinRAR 5.21 (64-bit);
  • UltraISO Premium Edition 9.6.2.3059;
  • Dessault SolidWorks 2016 SP0 с пакетом Flow Simulation.

Сравнение приложений, используемых в предыдущей и новой версиях бенчмарка, приводится в таблице.

iXBT Application Benchmark 2015 iXBT Application Benchmark 2016
MediaCoder x64 0.8.33.5680 MediaCoder x64 0.8.36.5757
SVPmark 3.0.3b SVPmark 3.0.3b
Adobe Premiere Pro CC 2014.1 (Build 8.1.0) Adobe Premiere Pro CC 2015.0.1 (Build 9.0.1 (36))
Adobe After Effects CC 2014.1.1 (Version 13.1.1.3) Adobe After Effects CC 2015.0.1 (Version 13.5.1.48)
Photodex ProShow Producer 6.0.3410 Photodex ProShow Producer 7.0.3257
Adobe Photoshop CC 2014.2.1 Adobe Photoshop CC 2015.0.1
Adobe Photoshop Lightroom 6.1.1
PhaseOne Capture One Pro 8.2
ACDSee Pro 8 ACDSee Pro 8.2.287
Adobe Illustrator CC 2014.1.1 (Build 18.1.1) Adobe Illustrator CC 2015.0.1 (19.0.1 (64-bit))
Adobe Audition CC 2014.2 Adobe Audition CC 2015.0 (Build 8.0.0.192)
Abbyy FineReader 12 Professional (Build 12.0.101.382) Abbyy FineReader 12 Professional (Build 12.0.101.382)
WinRAR 5.11 (64-bit) WinRAR 5.21 (64-bit)
UltraISO Premium Edition 9.6.2.3059 UltraISO Premium Edition 9.6.2.3059
Dessault SolidWorks 2016 SP0 Flow Simulation

Как видим, не изменились лишь версии приложений Abbyy FineReader 12 и SVPmark 3.0 (новые версии этих приложений пока еще не появились). Кроме того, мы добавили в наш бенчмарк три приложения, которые ранее не использовали. Это Adobe Photoshop Lightroom 6.1.1 и PhaseOne Capture One Pro 8.2, которые используются в бенчмарке для пакетной обработки цифровых фотографий, а также приложение Dessault SolidWorks 2016 SP0 с дополнительным пакетом Flow Simulation.

Кроме того, что в новом тестовом пакете мы используем несколько новых приложений и обновленные версии тех приложений, которые использовались нами в предыдущей версии бенчмарка, мы также поменяли для ряда приложений контент, то есть речь идет о выполнении этими приложениями немного иных задач.

Тест Тестовая задача
MediaCoder x64 0.8.36.5757 не изменилась
SVPmark 3.0 не изменилась
Adobe Premiere Pro CC 2015.0.1 изменена
Adobe After Effects CC 2015.0.1 не изменилась
Photodex ProShow Producer 7.0.3257 не изменилась
Adobe Photoshop CC 2015.0.1 изменена
Adobe Photoshop Lightroom 6.1.1 новая
PhaseOne Capture One Pro 8.2 новая
ACDSee Pro 8.2.287 изменена
Adobe Illustrator CC 2015.0.1 не изменилась
Adobe Audition CC 2015.0 не изменилась
Abbyy FineReader 12 Professional не изменилась
WinRAR 5.21 (64-bit) не изменилась
UltraISO Premium Edition 9.6.2.3059 не изменилась
SolidWorks 2016 Flow Simulation новая
Скорость копирования данных изменена
Скорость инсталляции приложений изменена

Итак, рассмотрим используемые нами тестовые задачи более подробно.

Работа с видеоконтентом

В предыдущей версии бенчмарка мы выделяли две отдельные группы: «Видеоконвертирование и видеообработка» и «Создание видеоконтента». В новой версии бенчмарка мы решили сделать одну общую группу «Работа с видеоконтентом», которая объединяет в себе и видеоконвертирование, и видеообработку, и создание видеоконтента.

В эту логическую группу входят пять тестов на основе приложений MediaCoder x64 0.8.36.5757, SVPmark 3.0.3b, Adobe Premiere Pro CC 2015.0.1, Adobe After Effects CC 2015.0.1 и Photodex ProShow Producer 7.0.3257.

MediaCoder x64 0.8.36.5757

В тесте с использованием приложения MediaCoder x64 тестовую задачу мы не меняли. Изменилась лишь версия самого приложения — на MediaCoder x64 0.8.36.5757.

В тесте с использованием приложения MediaCoder x64 0.8.36.5757 определяется время транскодирования видеофайла.

Исходный HD-видеоролик (контейнер MKV) длительностью 3 мин. 35 сек. и размером 1,05 ГБ записан в формате MPEG4 Video (H264) и имеет следующие характеристики:

размер 1,05 ГБ
контейнер MKV
видеокодек MPEG-4 (H.264)
разрешение 1920×1080
видеобитрейт 42,1 Мбит/с
частота кадров 25 fps
аудиобитрейт 128 Кбит/с
количество каналов 2
частота семплирования 44,1 кГц

Данный видеоролик транскодируется в другой формат с меньшим разрешением. Параметры результирующего видеофайла следующие:

размер 258 МБ
контейнер MP4
видеокодек MPEG-4 (H.264)
разрешение 1280×720
видеобитрейт 10000 Кбит/с
частота кадров 29,97 fps
аудиобитрейт 128 Кбит/с
количество каналов 2
частота семплирования 48 кГц

Отметим, что данный тест создает очень высокую нагрузку на вычислительные ядра процессора. Кроме того, есть небольшая нагрузка и на накопитель.

mediacoder.png

Результатом данного теста является время транскодирования исходного видеоролика.

SVPmark 3.0.3b

SVPmark 3.0.3.b — это не приложение, а отдельный тест производительности системы при работе с пакетом SmoothVideo Project (SVP), использующий реальные алгоритмы и параметры, применяющиеся в SVP 3.0. В SVPmark 3.0 используются как синтетические, так и реальные тесты. Мы при тестировании используем только реальные тесты для видео Full HD c GPU-ускорением. Если в системе имеется процессорное графическое ядро и отдельная дискретная видеокарта, то при тестировании используется дискретная видеокарта.

Результатом теста SVPmark 3.0.3b являются баллы, а не время выполнения задачи.

svpmark.png

Данный тест хорошо распараллеливается на все логические ядра процессора и отлично загружает процессор.

Однако, как показывает практика, есть у данного теста и один серьезный недостаток. Дело в том, что этот тест выдает очень большой разброс результатов (высокую погрешность измерения результата), и для получения более-менее достоверного результата необходимо прогонять данный тест не менее пяти (а еще лучше — десяти) раз.

Adobe Premiere Pro CC 2015.0.1

В тесте с использованием приложения Adobe Premier Pro CС 2015.0.1 создается видеоролик из пяти видеофрагментов суммарным объемом 882 МБ.

Видеоклипы (контейнер MOV) сняты камерой Canon EOS Mark II 5D с разрешением 1920×1080 и частотой кадров 25 fps. Между всеми видеоклипами создаются эффекты перехода, накладываются различные фильтры (например, фильтр устранения дрожания камеры), после чего производится рендеринг рабочей области и экспортирование видеофайла. Продолжительность готового видеоролика составляет 2 мин. 35 сек.

Параметры выходного файла следующие:

размер 490 МБ
контейнер MP4
видеокодек MPEG-2
разрешение 1920×1080
видеобитрейт 25,5 Мбит/с
частота кадров 25 fps
аудиобитрейт 384 Кбит/с
количество каналов 2
частота семплирования 48 кГц

Результатом данного теста является суммарное время рендеринга и экспортирования фильма.

Данный тест хорошо загружает все ядра процессора. Кроме того, он создает нагрузку и на накопитель.

premiere.png

Adobe After Effects CC 2015.0.1

В предыдущей версии бенчмарка мы использовали два различных теста на основе приложения Adobe After Effects CC 2014.1.1. В первом тесте производилась обработка 30-секундного видеоролика, которая заключалась в корректировке баланса белого, наложении фильтра Cartoon и наложении 3D-титров c различными эффектами (взрыв, размытие и т. п.). Однако этот тест был несовместим с технологией мультипроцессинга (Multiprocessing, MP), позволяющей рендерить различные кадры на разных ядрах процессора. Именно поэтому был добавлен второй тест, который был совместим с этой технологией (при наличии достаточного объема оперативной памяти).

В новой версии приложения Adobe After Effects CC 2015.0.1 отдельная настройка, позволяющая активировать технологию мультипроцессинга, исчезла. То есть данная технология используется всегда, и ее не нужно специально включать. Поэтому мы решили использовать в новом приложении Adobe After Effects CC 2015.0.1 только один тест (ранее он назывался Adobe After Effects CC 2014 test#2). Это реальный проект создания видеоролика, где в качестве исходного материала используются отдельные фотографии в различных форматах, множество видеофрагментов, PDF-файлов и PSD-картинок, а также звуковых WAV-файлов.

Проект рендерится в видеоролик (контейнер AVI) с разрешением 1920×1080 и частотой кадров 30 fps с использованием встроенного рендера без сжатия. Размер результирующего видеролика — 19,1 ГБ.

Тест на основе приложения Adobe After Effects CC 2015.0.1 распараллеливается на все ядра процессора, однако загрузка процессора не очень высокая. Есть небольшая нагрузка на накопитель. Кроме того, данный тест использует всю доступную память.

aftereffects.png

Photodex ProShow Producer 7.0.3257

В тесте с применением приложения Photodex ProShow Producer 7.0.3257 используется точно такая же тестовая задача, что и в предыдущей версии бенчмарка.

Напомним, что в данном тесте определяется скорость создания HD-видеофильма (слайд-шоу) с разрешением 1280×720p (формат MPEG-2, частота кадров 59,94 fps) из 24 цифровых фотографий, отснятых камерой EOS Canon Mark II 5D и преобразованных в формат TIFF.

Каждая фотография имеет размер 60,1 МБ. Кроме того, на фильм накладывается музыка. Фильм создается с использованием Мастера (Wizard) приложения. Между отдельными слайдами накладываются различные эффекты перехода, а сами слайды анимированы.

Создание проекта с использованием Мастера каждый раз приводит к новому результату за счет того, что накладываемые на слайды анимационные эффекты и эффекты перехода выбираются произвольно. Поэтому время создания слайд-шоу в данном случае будет иметь большой разброс. Дабы избежать этого негативного эффекта, с использованием Мастера каждый раз создается новый проект, а вот окончательный экспорт в MPG-фильм всегда производится одного и того же заранее созданного проекта. Результатом теста является суммарное время создание проекта слайд-шоу, включающее в себя время загрузки фотографий, а также время экспорта проекта в фильм.

Нужно отметить, что данный тест загружает все ядра процессора, но не на 100%.

proshow.png

Обработка цифровых фотографий

Логическую группу «Обработка цифровых фотографий» теперь составляют четыре теста (ранее их было только два). Это тесты на основе приложений Adobe Photoshop CС 2015.0.1 (64-битная версия), Adobe Photoshop Lightroom 6.1.1, PhaseOne Capture One Pro 8.2 и ACDSee Pro 8.2.287 (64-битная версия).

Adobe Photoshop CC 2015.0.1

В тесте с использованием приложения Adobe Photoshop CС 2015.0.1 мы немного изменили задачу. Если в предыдущей версии теста производилась пакетная обработка 24 фотографий, то в новой версии — только 20 фотографий. Фотографии сделаны камерой Canon EOS 5D Mark II в RAW-формате (размер каждой фотографии — 25 МБ). С каждой фотографией, которая открывается в 8-битном формате, последовательно осуществляются следующие действия:

  • изменяется глубина цвета с 8 на 16 бит на канал;
  • накладывается фильтр адаптивной резкости Smart Sharpen;
  • накладывается фильтр устранения дрожания рук при съемке Shake Reduction;
  • накладывается фильтр шумоподавления Reduce Noise;
  • накладывается фильтр коррекции объектива Lens Correction;
  • изменяется глубина цвета с 16 на 8 бит на канал;
  • фотография сохраняется в TIFF-формате;

Отметим, что фильтры Smart Sharpen и Shake Reduction сильно загружают процессор.

photoshop.png

Результатом данного теста является время пакетной обработки всех фотографий.

Adobe Photoshop Lightroom 6.1.1

В тесте с применением приложения Adobe Photoshop Lightroom 6.1.1 производится пакетная обработка 400 фотографий в формате JPEG, снятых любительской «мыльницей» Sony DSC-TX10. Исходные фотографии имеют разрешение 4608×3456 (или 3456×4608) и различный размер (от 2 до 6 МБ). Экспортирование каталога производится в формат JPEG с качеством 100% и разрешением 300 dpi.

Результатом данного теста является время пакетной обработки всех фотографий.

Данный тест создает очень большую нагрузку на процессор (все ядра загружаются на 100%) и небольшую загрузку на накопитель.

lightroom.png

PhaseOne Capture One Pro 8.2 64 Bit

В тесте с применением приложения PhaseOne Capture One Pro 8.2 производится пакетная обработка 100 фотографий в формате RAW, снятых камерой Canon EOS 5D Mark III. Фотографии имеют разрешение 5760×3840 и размер 29 МБ. В тесте производится экспортирование коллекции фотографий в проект с созданием превью, пакетная обработка фотографий в режиме автоматического улучшения качества (Auto Adjustment) и сохранение фотографий в формате JPEG. Результатом данного теста является время выполнения всего задания.

Данный тест хорошо распараллеливается на все ядра процессора, однако загрузка ядер процессора небольшая. В процессе экспортирования коллекции основная нагрузка ложится на накопитель.

captureone.png

ACDSee Pro 8.2.287

В тесте на основе приложения ACDSee Pro 8.2.287 используется тот же набор из 20 фотографий в формате RAW, что и в тесте для приложения Adobe Photoshop CС 2015. С каждой фотографией последовательно проделываются следующие действия:

  • вращение;
  • обрезка;
  • изменение размера;
  • корректировка цвета;
  • смешение каналов;
  • применение эффекта сепия;
  • корректировка контраста;
  • корректировка светлых и темных тонов;
  • шумоподавление;
  • увеличение резкости;
  • создание виньетки;
  • вставка текста;
  • вставка водяного знака;
  • сохранение в JPG-формате.

Результатом данного теста является время пакетной обработки всех фотографий. Данный тест также хорошо загружает все ядра процессора.

acdsee.png

Векторная графика

Adobe Illustrator CC 2015.0.1

К группе «Векторная графика» мы отнесли тест на основе приложения Adobe Illustrator CC 2015.0.1. В данном тесте обновилась лишь версия самого приложения, а тестовая задача используется та же, что и в предыдущей версии бенчмарка.

Речь идет о выполнении скрипта, который загружает изображение (в нашем случае — векторное) и производит над ним некоторое количество операций. Результатом данного теста является время обработки изображения.

illustrator.png

Тест на основе приложения Adobe Illustrator CC 2015.0.1 плохо распараллеливает нагрузку на ядра процессора, да и уровень загрузки процессора невысокий. Кроме того, в некоторые моменты данный тест создает высокую нагрузку на накопитель.

Аудиообработка

Adobe Audition CC 2015.0

К логической группе «Аудиообработка» относится тест на основе приложения Adobe Audition CС 2015.0. Сама тестовая задача не изменилась, она та же, что и в предыдущей версии нашего бенчмарка.

Напомним, что в данном тесте первоначально загружается шестиканальный (5.1) аудиофайл в формате FLAC (без сжатия). Затем этот файл обрабатывается и конвертируется в формат MP3. Обработка исходного FLAC-файла заключается в применении к нему фильтра адаптивного шумоподавления (Adaptive Noise Reduction). Результатом теста является суммарное время загрузки аудиофайла, его обработки и конвертирования. Исходный тестовый аудиофайл имеет размер 1,65 ГБ. Параметры результирующего MP3-файла следующие:

  • битрейт 128 Кбит/с;
  • частота сэмплирования 48 кГц.

Фактически, данный тест состоит из трех отдельных частей: открытие файла, адаптивное шумоподавление и конвертирование. При открытии аудиофайла процессор практически не загружается, но зато сильно загружен накопитель, с которого производится считывание аудиофайла.

Процесс шумоподавления, наоборот, характеризуется высокой загрузкой процессора, причем загружаются все ядра.

audition.png

В процессе конвертации процессор загружается уже в меньшей степени. Точнее, при конвертации высокая степень загрузки наблюдается только у одного ядра процессора, а все остальные ядра нагружаются очень слабо.

Распознавание текста

Abbyy FineReader 12 Professional

В задаче по распознаванию текста используется приложение Abbyy FineReader 12 Professional. Этот тест не изменился в сравнении с предыдущей версией бенчмарка: используется то же самое приложение и тот же самый 500-страничный PDF-документ, который используется для распознавания.

Результатом данного теста является время от открытия PDF-документа до полного распознавания текста.

Данный тест на 100% загружает все ядра процессора (во всяком случае, в варианте четырехъядерного процессора с технологией Hyper-Threading. Кроме того, есть нагрузка и на накопитель.

finereader.png

Архивирование и разархивирование данных

WinRAR 5.21

В задаче по архивированию и разархивирование данных используется приложение WinRAR 5.21 (64-битная версия). В сравнении с предыдущей версией бенчмарка изменилась лишь версия используемого приложения.

В тесте первоначально архивируется, а потом разархивируется альбом из 24 цифровых фотографий в формате TIFF (размер каждой фотографии — 60,1 МБ).

В архиваторе WinRAR 5.21 при сжатии данных используется формат RAR5, метод компрессии Best (максимальное сжатие) и размер словаря 32 МБ.

Результатом тестов является время архивирования и разархивирования. Результат данного теста определяется в основном производительностью процессора и быстродействием памяти. Отметим, что тест на архивирование данных является многопоточным и хорошо нагружает все ядра процессора.

winrar.png

А вот процесс разархивирования является однопоточным — загружается только одно логическое ядро процессора.

Файловые операции

В предыдущей версии бенчмарка мы выделяли отдельную логическую группу под названием «Скорость инсталляции и деинсталляции приложений». Однако поскольку результат этого теста зависит, преимущественно, от производительности подсистемы хранения данных, мы решили отнести этот тест к логической группе «Файловые операции». Таким образом, всего к логической группе «Файловые операции» теперь относятся три теста:

  • тест на скорость инсталляции приложений;
  • тест на скорость копирования данных;
  • тест на основе приложения UltraISO Premium Edition 9.6.2.3059.

Скорость инсталляции приложений

Если ранее в тесте на скорость инсталляции и деинсталляции приложений измерялось суммарное время инсталляции и деинсталяции приложения Adobe Premier Pro CС 2014.1, то в новой версии бенчмарка мы измеряем только время инсталляции игры Metro 2033 Reduxe, дистрибутив которой занимает 5 ГБ (время деинсталляции не учитывается).

Данный тест является однопоточным и загружает лишь одно ядро процессора, но на 100%. Кроме того, сильно загружен и накопитель.

installation.png

Скорость копирования данных

В тесте на определение скорости копирования данных измеряется время копирования тестовой директории размером 14,5 ГБ, содержащей различные типы данных, из одного места на системном накопителе C:\ в другое место на этом же накопителе. Копирование производится средствами операционной системы Windows 10.

Понятно, что скорость копирования в данном случае зависит исключительно от производительности накопителя. Отметим, что в сравнении с предыдущей версией этого теста мы увеличили размер тестовой директории.

filecopy.png

UltraISO Premium Edition 9.6.2.3059

В тесте с использованием приложения UltraISO Premium Edition 9.6.2.3059 производится распаковка ISO-образа размером 3,42 ГБ. Результатом данного теста является время распаковки ISO-образа. Этот тест также создает нагрузку на накопитель.

ultraiso.png

Научные расчеты

Dessault SolidWorks 2016 SP0 с пакетом Flow Simulation

К логической группе «Научные расчеты» мы отнесли тест с применением приложения Dessault SolidWorks 2016 SP0 с установленным модулем Flow Simulation. В предыдущей версии бенчмарка этот тест не использовался.

В данном тесте определяется скорость расчетов в задачах аэрогидродинамики и теплопередачи. В тесте используется тепловой расчет корпуса компьютера, в котором имеются тепловыделяющие элементы и один вентилятор. Этот проект входит в пакет SolidWorks Flow Simulation в качестве примера. Результатом данного теста является время расчета проекта.

Данный тест хорошо распараллеливается на все ядра процессора и загружает их на 100%.

solidworks.png

Расчет интегральной оценки производительности

Необходимость применения интегральной оценки производительности вызвана тем, что сами по себе результаты тестирования (время выполнения тестовых задач) еще не дают представления о производительности тестируемой системы. Они обретают смысл лишь при возможности их сопоставления с результатами некой референсной системы. Именно поэтому при тестировании по описанной нами методике используются понятия «интегральная оценка производительности» и «референсная система».

Для расчета интегральной оценки производительности первоначально результаты всех тестов нормируются относительно результатов тестирования для референсной системы. Если результатом является время выполнения тестовой задачи, то нормированный результат получается путем деления времени выполнения задачи референсной системой на время выполнения задачи тестируемой системой:

Полученный таким образом безразмерный результат R, по сути, представляет собой нормированную скорость выполнения задачи тестируемой системой и показывает, во сколько раз время выполнения задачи тестируемой системой больше (или меньше), чем время выполнения той же задачи референсной системой.

Если же результатом теста являются уже безразмерные баллы (как в тесте SVPmark3), то нормированный результат получается путем деления результата тестируемой системы на результат референсной системы:

Далее нормированные результаты всех тестов разбиваются на восемь логических групп:

  • Работа с видеоконтентом
  • Обработка цифровых фотографий
  • Векторная графика
  • Аудиообработка
  • Распознавание текста
  • Архивирование и разархивирование данных
  • Скорость файловых операций
  • Научные расчеты

В каждой группе тестов рассчитывается промежуточный интегральный результат как среднегеометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножается на 100.

После этого рассчитывается среднегеометрическое от промежуточных интегральных результатов по всем группам тестов.

Это и есть интегральная оценка производительности тестируемой системы. Для референсной системы интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 100 баллов, а для тестируемой системы эти результаты могут быть как больше, так и меньше 100 баллов.

Естественно, интегральный результат тестируемого ПК определяется не только его конфигурацией, но и конфигурацией референсной системы, используемой для сравнения. В нашем бенчмарке в качестве референсной системы мы решили использовать ноутбук со следующей конфигурацией:

Процессор Intel Core i5–3317U
Чипсет Intel HM77 Express
Память 4 ГБ DDR3–1600 (двухканальный режим)
Графическая подсистема Intel HD Graphics 4000
Накопитель SSD 128 ГБ Crucial M4-CT128M4SSD1
Операционная система Windows 10 Pro (64-битная)
Версия видеодрайвера графического ядра Intel 9.18.10.3186

Собственно, наша референсная система — это ноутбук одного из предыдущих поколений на процессоре Ivy Bridge. Отметим, что этот же самый ноутбук использовался в качестве референсной системы и в нашей предыдущей методике тестирования.

Далее мы приводим результаты тестирования нашей референсной системы, рассчитанные по 10 прогонам каждого теста. Для каждого теста приводится среднеарифметический результат и погрешность результата с доверительной вероятностью 95%.

Логическая группа тестов Референсная система
Работа с видеоконтентом, баллы 100
MediaCoder x64 0.8.36.5757, секунды 527,0±0,7
SVPmark 3.0.3b, баллы 936±3
Adobe Premiere Pro CC 2015.0.1, секунды 1210,0±0,8
Adobe After Effects CC 2015.0.1, секунды 1107±7
Photodex ProShow Producer 7.0.3257, секунды 1002±3
Обработка цифровых фотографий, баллы 100
Adobe Photoshop CC 2015.0.1, секунды 1868±3
Adobe Photoshop Lightroom 6.1.1, секунды 1215±2
PhaseOne Capture One Pro 8.2, секунды 999±4
ACDSee Pro 8.2.287, секунды 592±2
Векторная графика, баллы 100
Adobe Illustrator CC 2015.0.1, секунды 652±3
Аудиообработка, баллы 100
Adobe Audition CC 2015.0, секунды 1046±9
Распознавание текста, баллы 100
Abbyy FineReader 12 Professional, секунды 578±3
Архивирование и разархивирование данных, баллы 100
WinRAR 5.21 архивирование, секунды 317±2
WinRAR 5.21 разархивирование, секунды 13,4±0,4
Файловые операции, баллы 100
Скорость инсталляции приложений, секунды 550,8±0,7
Копирование данных, секунды 130±2
UltraISO Premium Edition 9.6.2.3059, секунды 44±2
Научные расчеты, баллы 100
Dessault SolidWorks 2016 SP0 с пакетом Flow Simulation, секунды 714±3
Интегральный результат производительности, баллы 100

Погрешность измерения результатов тестирования

В любом тесте есть свой разброс результатов, который определяет погрешность измерения получаемого результата. Это неизбежное явление, причем различные тесты имеют различную погрешность измерения: какие-то тестовые задачи демонстрируют хорошую стабильность результатов, а в каких-то тестовых задачах наблюдается большой разброс результатов. Причем, как показывает практика, погрешность измерения результата зависит не только от приложения и выполняемой тестовой задачи, но и от конфигурации тестируемого компьютера.

Результаты каждого прогона теста можно разделить на две категории: предсказуемый результат, который находится в доверительном интервале среднего значения, и результат, который выходит за рамки доверительного интервала и сильно отличается от всех остальных результатов теста (промах). Можно предположить, что наличие промахов вызвано некими неучтенными факторами, оказывающими влияние на тест. В случае, если в процессе тестирования возникает такой непредсказуемый результат, вызванный предположительно влиянием неучтенных факторов, данный результат не учитывается при расчете среднего значения, а тест повторяется еще раз с тем, чтобы получить предсказуемый результат.

В нашей методике тестирования результаты получаются по пяти прогонам каждого теста. При этом рассчитывается среднеарифметический результат и погрешность измерения для доверительного интервала 0,95 (для расчета используется коэффициент Стьюдента):

В данном случае (для пяти измерений и доверительного интервала 0,95) коэффициент Стьюдента равен:

Результаты и погрешность для референсной системы в этой статье рассчитаны по десяти прогонам, что позволило добиться относительной погрешности результата (отношения абсолютной погрешности к среднему значению, выраженного в процентах) менее 1%.

Говоря о вычислении погрешности результата измерений, необходимо кроме случайной погрешности (погрешность, возникающая за счет получения различных результатов измерения) учитывать также и систематическую ошибку измерения (то, что называют инструментальной погрешностью). Дело в том, что в некоторых тестах результат определяется только с точностью до целого значения секунд — к примеру, в тесте MediaCoder x64 0.8.36.5757. То есть, предположительно, результаты кодирования 149,6 с и 150,4 с будут записаны как 150 с (возможно, MediaCoder использует не округление к ближайшему целому, а отбрасывание дробной части). При этом вполне возможна ситуация, когда в пяти повторах теста будет получен один и тот же результат (допустим, 150 с), но это не означает, что в данном тесте нулевая погрешность измерения результата. Просто нужно учитывать систематическую ошибку, которая в данном случае определяется точностью измерения времени выполнения теста. Понятно, что в случае честного округления времени выполнения теста систематическая ошибка составит 0,5 с.

Если тест подразумевает наличие систематической ошибки, то абсолютная погрешность результата рассчитывается по формуле:

В нашем случае систематическую ошибку за счет округления времени измерения имеют следующие тесты:

  • MediaCoder x64 0.8.36.5757
  • SVPmark 3.0.3b
  • Adobe After Effects CC 2015.0.1

В тесте SVPmark 3.0.3b результат представляется в целых баллах, так что точность представления результата составляет 0,5 балла. Соответственно, и систематическая ошибка составит 0,5 балла.

Сам по себе расчет погрешности измерения результата теста не представляет сложности. Однако в нашей методике тестирования конечный (интегральный) результат не измеряется непосредственно, а является производной величиной от нормированных результатов всех тестов (косвенный результат). Естественно, хорошо бы рассчитать погрешность получаемого интегрального результата, а также рассчитать погрешность интегральных результатов по каждой группе тестов.

Как известно, погрешность вычисляемой, а не измеряемой непосредственно величины F, зависящей от переменных {x1, x2… xn}, рассчитывается по формуле:

В качестве примера рассчитаем погрешность интегрального результата по логической группе тестов «Обработка цифровых фотографий». В данную группу входят четыре теста:

  • Adobe Photoshop CС 2015.0.1
  • Adobe Photoshop Lightroom 6.1.1
  • PhaseOne Capture One Pro 8.2
  • ACDSee Pro 8.2.287

Соответственно, интегральный результат по данной группе тестов рассчитывается по формуле:

Нетрудно показать, что погрешность результата в этой группе тестов составит:

В общем случае, если в логическую группу входит m тестов, то погрешность результата по группе тестов определяется по формуле:

Аналогичным образом рассчитывается и погрешность интегрального результата по восьми группам тестов:

Именно по данной формуле рассчитывается погрешность интегрального результата в нашем бенчмарке. И еще раз напомним, что погрешности каждого отдельного теста рассчитываются для доверительного интервала с вероятностью 95%.

Заключение

В первой части статьи мы рассмотрели набор приложений, который используется в нашей новой методике измерения производител

Полный текст статьи читайте на iXBT