Использование DSP-сопроцессора DM8168 с помощью фреймворка C6Accel

925c687f57554086a9993a409b9a021d.jpgВ этой статье мы познакомимся с отладочной платой DM816x/C6A816x/AM389x и фреймворком C6Accel (он же C6EZAccel), а также рассмотрим инструкции по наладке системы для выполнения встроенных тестовых приложений.

Всё началось с интересной идеи использовать алгоритмы нынче очень популярной библиотеки компьютерного зрения OpenCV на микропроцессоре. Однако, изучив немного тему, идея уточнилась. Почему бы не реализовать алгоритмы не просто на ядре ARM, а на специализированном ядре для цифровой обработки сигналов DSP? Тем самым разгрузим ядро ARМ, ускорим выполнение алгоритмов, и, глядишь, самое громоздкое приложение заработает в реальном времени.

Итак, что же использовать для решения задачи? Оказалось вариантов немного…Рассмотрим всё логично и последовательно. Начнём с того, что позволяет работать с DSP процессором — это фреймворк C6Accel. Хорошо, он поддерживает OpenCV (причем 2.x) только в последней версии — 2.01.00.11. В свою очередь, этот фреймворк написан под микропроцессоры C6A81xx/DM81xx. По названию статьи вы уже догадались, что попался нам под руку DM8168, для работы с которым требуется программный интерфейс TI EZSDK (последняя версия — 5.05.02.00).

Для тех, кому хочется подробностей, в конце статьи есть полезные ссылки.

1. Описание отладочной платы DM816x/C6A816x/AM389x3b5fa6f736dd481ba6ab48a96b01d6df.png

Вычислительный модуль DM816x/C6A816x/AM389x, разработанный компанией Texas Instruments совместно с Spectrum Digital, позволяет производить разработку на DM816x DaVinci™ MPU (DM8168, DM8167, DM8166, DM8165), на C6A816x C6-Integra™ DSP+ARM процессорах (C6A8168, C6A8167) и на AM389x Sitara™ ARM MPUs (AM3894, AM3892).

Это чудо техники предназначено для широкого спектра решений, таких как видеорегистраторы (DVRs) для наблюдения, системы организации видеоконференций, системы телевизионного вещания, медиасерверы, одноплатные компьютеры, вычислительные шлюзовые машины, маршрутизаторы, серверы, промышленная автоматика, интерфейсы «пользователь-машина» (HMIs), терминалы пунктов обслуживания для сбора данных, машинное зрение, приложения для тестирования, измерения, слежения, контроля и др.

3fea1da78d44466ab45cf3907ac7856c.jpg

Теперь посмотрим на сам объект. Он состоит из двух блоков печатных плат:

вычислительный модуль 8168 (сверху); дочерняя плата расширения входов-выходов (снизу). Ввиду большого количества компонентов обратим своё внимание только на особо важные.94f1cf90b28e445abcff8859f3bc357b.jpg

На рисунке выше изображён вычислительный модуль 8168 со следующими обозначенными компонентами:1. и 2. — это переключатели №3 (SW3) и №4 (SW4) соответственно.

fa19d282c1ef448ca94503e2df8a5560.png

Стандартно загрузка платы происходит с флеш-памяти NAND (однако существует много других режимов, например, загрузка с SD-карты), поэтому переключатели №3 и №4 были установлены в нужное положение: SW3[9:0]=»0000010010» и SW4[1:0]=»10» [NAND/SPI].

3. Последовательный порт (COM-порт).4. Порт HDMI.5. Порт Ethernet.6. Порт USB.7. Компонентный видеоразъем.8. Слот для SD-карты.9. Гнездо питания.10. Переключатель питания.11. Микропроцессор DM8168 (эмулирует AM3894 и C6A816).

Функциональная диаграмма:

67f6fa8625a448d09ea660e19f68bd59.png

Характерные особенности:     •  VLIW-процессор C674x DSP (до 1 ГГц, тип команд — с фиксированной и плавающей точкой).    •  RISC-процессор ARM Cortex-A8 (до 1,2 ГГц).    •  Укоритель 3D-графики SGX530.    •  Подсистема обработки видео высокой чёткости (HDVPSS).    •  3 программируемых сопроцессора обработки видео высокой чёткости (HDVICP2), отвечающих за захват, кодирование, декодирование и анализ нескольких видеопотоков, а также поддерживающих стандарты H.264, MPEG4, H263, VC1/RTV, AVS, RV10, ON2, JPEG, MPEG2, DIVX.    •  Широкий набор периферийных модулей: — 2 канала Gigabit Ethernet; — 2 канала PCI Express; — 2 канала SATA с интегрированным физическим уровнем; — 2 канала USB 2.0 с интегрированным физическим уровнем; — интерфейсы DDR3, MMC/SD, HDMI и DVI.

Для дальнейшей работы мы подключались к компонентам 3, 5, 9 и настраивали переключатели 1, 2, 10.

2. Описание фреймворка C6Accel C6Accel — абсолютно бесплатный инструмент разработки ПО от Texas Instruments (TI). Он предназначен для упрощения разработки кода DSP на двухъядерных гетерогенных процессорах SoC от TI, а именно для устройств ARM+DSP, которые запускают Linux на ARM и содержат процессор DSP из семейства C6000.2.1. Из чего состоит C6Accel? C6EZAccel состоит из алгоритмов цифровой обработки сигналов, которые придерживаются интерфейса алгоритмов под названием XDAIS (eXpressDsp Algorithm Interoperability Standard). TI также предоставляет фреймворк под названием Codec Engine, который позволяет эффективно выполнять алгоритмы, написанные с использованием интерфейса XDAIS. TI поставляет все свои кодеки в рамках ПО для SoC и рекомендует использование Codec Engine. C6EZAccel также состоит из библиотеки на стороне ARM, являющейся надстройкой над Codec Engine, который предоставляет APIs (интерфейсы программирования приложений). А они, в свою очередь, позволяют коду приложения на стороне ARM вызывать выполнение алгоритмов XDAIS на DSP. Эта библиотека содержит в себе управление кешем, преобразование адресов, передачу параметров и обработку ошибок из приложения, работающего на ARM.2.2. Как работает C6Accel? Код ARM-приложения (или промежуточное ПО, которое его использует) вызывает C6Accel. Он использует оболочку библиотеки APIs и/или Codec Engine, совместимый c iUniversal APIs, которые, как и VISA APIs, используются для вызова Audio/Video/Speech-кодеков. Потом эти APIs просматривают интерфейс Codec Engine и вызывают алгоритм C6Accel на DSP, который идентифицирует вызов функции и задействует соответствующую функциональность на DSP, используя параметры, переданные из приложения.cfb6faa58b024ef198577d470e22cfe8.jpg

3. Использование EZSDK и C6Accel Достаточно теории, приступим к практике. EZSDK 5.05.02.00 поддерживается только в Ubuntu 10.04 LTS 32-bit или Ubuntu 11.10 32-bit. Поэтому тем, у кого не установлена одна из этих ОС (конечно же, мы работали под более новой версией), придётся использовать виртуальную машину, например, VirtualBox. Инструкции по её установке и настройке имеются здесь.Далее используются следующие обозначения:

host $ — команда для выполнения на хосте; target # — команда для выполнения на целевой ОС. 3.1. Установка и сборка EZSDK Перед началом работы с EZSDK следует скачать и установить компилятор С CodeSourcery Toolchain 2009q-203. Просто распакуйте архив в домашнюю директорию.Скачайте EZSDK 5.05.02.00 и выполните:

host $ sudo ./ezsdk_dm816x-evm_5_05_02_00_setuplinux Запустится установщик. Укажите расположение CodeSourcery Toolchain, т. е. /home/%username%/arm-2009q1/bin, и путь для установки EZSDK — /home/%username%/ezsdk.Разработчики данного ПО позаботились о нас и сделали интерактивный скрипт (одна из причин строгой привязки к версии OC):

host $ export EZSDK=»${HOME}/ezsdk» host $ sudo ${EZSDK}/setup.sh Скрипт установит необходимые пакеты и попросит уточнить: путь установки целевой файловой системы — /home/%username%/targetfs; путь корневой директории tftp — /tftpboot; путь последовательного порта — /dev/ttyUSB0 (для подключения по USB-порту) или /dev/ttyS0 (для подключения по COM-порту); ip-адрес хост-машины — у каждого свой (например, у нас 10.54.4.44); расположение ядра Linux — 1-е из предложенного списка, т. е. TFTP; расположение корневой файловой системы — 1-е из предложенного списка, т. е. NFS; имя образа ядра, загружаемого из TFTP — uImage-dm816x-evm.bin; создавать ли скрипт для minicom — согласитесь; запускать ли сейчас созданный скрипт — откажитесь. Cкорректируем этот скрипт: откроем его в текстовом редакторе и заменим текст «mem=364M@0×80000000 mem=320M@0×9FC00000» на «mem=364M», так как в дальнейшем невозможно будет загрузить необходимые модули ядра.Далее, для выполнения каких-либо операций на плате нужно запустить minicom с настройками, указанными в скрипте, командой

host $ minicom -S setup_uimage-tftp_fs-nfs.minicom Далее нужно перезапустить плату.Теперь при сборке EZSDK возникает проблема из-за отсутствия некоторого компонента. Можно починить, распаковав архив 8272.pcie.tar.gz в директорию /home/%username%/ezsdk/example-applications.

Наконец соберём EZSDK командами

host $ cd ${HOME}/ezsdk host $ sudo make all host $ sudo make install 3.2. Установка и сборка С6Accel Скачайте C6Accel 2.01.00.11 и выполните: host $ sudo ./c6accel_2_01_00_11_Linux-x86_Setup.bin Укажите путь установки /home/%username%/c6accel.Операционная система реального времени SYS/BIOS является составной частью EZSDK, однако версии позже 6.32.02.09 не поддерживают Real Time Data eXchange (RTDX), который необходим при сборке С6Accel. Поэтому установим SYS/BIOS 6.32.02.09 специально для С6Accel:

host $ sudo ./bios_setuplinux_6_32_02_39.bin Укажите путь установки /home/%username%/c6accel/bios_6_32_02_39.Исправим пути в файле Rules.make в /home/%username%/c6accel на следующие:

DVSDK_INSTALL_DIR=$(HOME)/ezsdk TARGETFS_INSTALL_DIR = $(HOME)/targetfs C6ACCEL_INSTALL_DIR=$(HOME)/c6accel BIOS_INSTALL_DIR = $(HOME)/c6accel/bios_6_32_02_39 DSPDEVKIT_INSTALL_DIR= $(DVSDK_INSTALL_DIR)/dsp-devkit LINUXDEVKIT_INSTALL_DIR = $(DVSDK_INSTALL_DIR)/linux-devkit PLATFORM = dm816x-evm И, в конце концов, соберём С6Accel командами: host $ cd ${HOME}/c6accel host $ sudo make all host $ sudo make install 3.3. Выполнение теста DSP Приятно, что C6Accel содержит в себе пример для тестирования выполнения кода на DSP-процессоре. Выполним скрипт загрузки модулей cmem и dsplink (это библиотеки связки ARM и DSP, с помощью которых грузится CodecEngine) и запустим тестирующие приложение. target # cd /opt/c6accel_app/c6accel_dsplib_testapp target # ./loadmodules_ti8168_c6accel.sh target # ./c6accel_dsplib_testapp Ура! По сообщениям в консоли видно, что всё в порядке и ничего не сломано ******************************************************************************Sample application for testing kernels in C6Accel started.******************************************************************************CERuntime completeC6Accel handle created—Test for Vision/Analytics functions in C6Accel: —Testing the function: VLIB_histogram_1D_дU8…VLIB_histogram_1D_U8 passed the test!

Testing the function: VLIB_histogram_1D_U16…VLIB_histogram_1D_U16 passed the test!

Testing the function: VLIB_histogram_nD_U16…VLIB_histogram_nD_U16 passed the test!

Testing the function: VLIB_weightedHistogram_1D_U8…VLIB_weightedHistogram_1D_U8 passed the test!

Testing the function: VLIB_weightedHistogram_nD_U16…VLIB_weightedHistogram_nD_U16 failed the test! VLIB_unpackMask32 passed the test! VLIB_packMask32 passed the test! VLIB_subtractBackGroundS16 passed the test! VLIB_subtractBackGroundS32 passed the test!

Testing the function: VLIB_extractLumaFromUYUV…C6accel test for VLIB_extractLumaFromUYUV passed the test!

Testing the function: VLIB_convertUYVYsemipl_to_YUVpl…VLIB_convertUYVYsemipl_to_YUVpl passed the test!

Testing the function: VLIB_convertUYVYpl_to_YUVint…VLIB_convertUYVYpl_to_YUVint passed the test!

Testing the function: VLIB_convertUYVYint_to_YUVpl…VLIB_convertUYVYint_to_YUVpl passed the test!

Testing the function: VLIB_convertUYVYint_to_RGBpl…VLIB_convertUYVYint_to_RGBpl passed the test!

Testing the function: VLIB_ConvertUYVYint_to_YUV420pl…VLIB_ConvertUYVYint_to_YUV420pl passed the test!

Testing the function: VLIB_convertUYVYint_to_LABpl…VLIB_convertUYVYint_to_LABpl passed the test!

Testing the function: VLIB_convertUYVYint_to_HSLpl…VLIB_convertUYVYint_to_HSLpl passed the test!

Testing the function: VLIB_convertUYVYint_to_LABpl_LUT…

Completed initialization.VLIB_convertUYVYint_to_LABpl2 passed the test! Testing VLIB_harrisScore_7×7…VLIB_harrisScore_7×7 passed the test!

Initializing Legendre Polynomial

Computing Legendre Moments

Testing the function: VLIB_legendreMoments…VLIB_legendreMoments passed the test!

Testing the function: VLIB_normalFlow_16…VLIB_normalFlow_16 passed the test!

Testing the function: VLIB_kalmanFilter_4×6 functions…VLIB_kalmanFilter_ VLIB_recursiveFilterHoriz1stOrderS16…VLIB_recursiveFilterHoriz1stOrderS16 passed the test!

Testing VLIB_recursiveFilterVert1stOrядра.der…VLIB_recursiveFilterVert1stOrder passed the test!

Testing VLIB_recursiveFilterVert1stOrderS16…VLIB_recursiveFilterVert1stOrderS16 passed the test!

Testing the function: VLIB_bhattacharyaDistance_U32…VLIB_bhattacharyaDistance_U32 passed the test!

Testing the function: VLIB_L1DistanceS16…VLIB_L1DistanceS16 functions passed the testVLIB_dilate_bin_mask passed the test! VLIB_dilate_bin_square passed the test! VLIB_dilate_bin_cross passed the test! VLIB_erode_bin_mask passed the test! VLIB_erode_bin_square passed the test! VLIB_erode_bin_cross passed the test! Testing VLIB_trackFeaturesLucasKanade_7×7…VLIB_trackFeaturesLucasKanade_7×7 passed the test! VLIB Canny functions Test results: IMG_conv_7×7: passed the test! VLIB_xyGradient: passed the test! VLIB_nonMaximumSuppressionCanny: passed the test! VLIB_doublethresholding: passed the test! VLIB_edgeRelaxation: passed the test!

Calling Chained Canny API: Chained Canny edge detection function failed the test!

Testing the function: VLIB_integralImage8…VLIB_integralImage8 passed the test!

Testing the function: VLIB_integralImage16…VLIB_integralImage16 passed the test!

Testing the function: VLIB_imagePyramid8…VLIB_imagePyramid8 passed the test!

Testing the function: VLIB_imagePyramid16…VLIB_imagePyramid16 passed the test!

Testing the function: VLIB_gauss5×5PyramidKernel_8…VLIB_gauss5×5PyramidKernel_8 passed the test!

Testing the function: VLIB_gauss5×5PyramidKernel_16…VLIB_gauss5×5PyramidKernel_16 passed the test!

Testing the function: VLIB_gradientH5×5PyramidKernel_8…VLIB_gradientH5×5PyramidKernel_8 passed the test!

Testing the function: VLIB_gradientV5×5PyramidKernel_8…VLIB_gradientV5×5PyramidKernel_8 passed the test!

VLIB_initMeanWithLumaS16 passed the test! VLIB_updateEWRMeanS16 passed the test! VLIB_initMeanWithLumaS32 passed the test! VLIB_updateEWRMeanS32 passed the test! VLIB_initVarWithConstS32 passed the test! VLIB_updateEWRVarianceS32 passed the test! VLIB_initVarWithConstS16 passed the test! VLIB_updateEWRVarianceS16 passed the test! VLIB_updateUWRMeanS16 passed the test! VLIB_updateUWRVarianceS16 passed the test! —Test for Image processing functions in C6Accel: —Tests for Histogram functions successfulTest for Median Filtering functions successfulTests for Convolution functions successfulTests for Correlation functions successfulTests for Sobel Filter successfulTest for Image multiplication functions successfulTests for Image addition functions successfulTests for Image substraction functions successfulTests for Color Space Conversion functions successfulC6accel_IMG_ycbcr422pl_to_ycbcr422sp () successfulC6accel_IMG_ycbcr422sp_to_ycbcr422ile () successfulC6accel_IMG_ycbcr422sp_to_ycbcr420pl successful—Test for Fixed point Signal processing functions in C6Accel—Tests for FFT functions successfulTests for Invers FFT functions successfulTest for Auto Correlation function successfulTests for DoT Product functions successfulTests for Matrix multiplication successfulTests for FIR Filtering functions successfulTest for IIR Filter successful—Test for Fixed point Math functions in C6Accel—Test for Arithmetic RTS functions successfulTests for Conversion RTS functions successfulTests for IQmath Conversion functions successfulTests for Mathematical IQmath functions successfulTests for Arithmetic IQmath functions successfulTests for Trignometric IQmath functions successful—Test for Floating point Math Functions in C6Accel—Test for Arithmetic RTS functions successfulTests for Conversion RTS functions successfulTests for Floating point RTS single precision functions successfulTests for Floating point RTS double precision functions successful—Test for Floating point Signal processing Functions in C6accel—Test for Floating point DSP FFT function successfulTest for Floating point DSP vector multiplication successfulTest for Floating point DSP vector reciprocal function successfulTest for Floating point DSP vector reciprocal function successfulTest for Floating point DSP vector weighted sum function successfulTest for Floating point DSP vector dot product function executed successfulTests for Floating point DSP matrix functions successfulTests for Floating point DSP Matrix Multiplication functions successfulTest for Floating point DSP matrix transpose function successfulTests for Floating point DSP autocorrelation functions successfulTests for Floating point DSP convolution functions successfulTest for Floating point DSP FIR filter successfulTest for Floating point DSP Inverse FFT function successfulTest for Floating point DSP BIQUAD Filter successfulTest for Floating point to Double precision successfulTest for Complex to real and imaginary passed successfully→ Asynchronous CallsTests for FFT functions successfulTests for Sobel Filter successfulTest for Arithmetic RTS functions successful******************************************************************************All tests done.******************************************************************************

4. Тест сравнения работы функций OpenCV на ARM и DSP OpenCV (Open Source Computer Vision Library) — библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым исходным ко-дом. Библиотека написана на C и C++, однако поддерживается Java, Python и др. Работает под Linux, Windows и Mac OS X.OpenCV представляет собой простую в использовании библиотеку компьютерного зрения с более чем 500-ми функций, способными работать в реальном времени. Они охватывают множество областей, такие как контроль качества на производстве, системы безопасности, обработку изображений в медицине, пользовательские интерфейсы, стереоскопическое зрение и роботостроение.

Так как библиотека OpenCV является переносимым ПО, её можно скомпилировать в большинстве систем, в которых предусмотрен компилятор C/C++. OpenCV успешно используется на ARM, MIPS, Xscale и других процессорах.

Стоит заметить, что в C6Accel 2.01.00.11 имеются не все функции OpenCV, а лишь 50.

4.1. Установка и сборка OpenCV Следуйте инструкциям для сборки OpenCV 2.2.0 под ARM-платформу. При их выполнении помните, что CodeSourcery Toolchain уже установлен.Скопируем разделяемые библиотеки OpenCV в целевую файловую систему.

host $ cp ${HOME}/build/lib/* ${HOME}/targetfs/usr/lib 4.2. Сборка и выполнение теста Первая проблема, с которой пришлось столкнуться, — это ошибка при загрузке изображений. Почему-то не нравятся картинки с расширением png, ошибка локализована в функции cvCreateImage. Ладно, изменим на другое расширение, например, bmp. Это можно сделать так: host $ cd ${HOME}/c6accel/soc/app/c6accel_opencv_testapp/opencv_images host $ for fname in *.png; do convert »$fname» »$fname.bmp»; done И конечно, не забудем изменить расширения в исходном коде. В файлах appMain.c и c6accel_opencv_testfxns.c расположенных в директории /home/%username%/c6accel/soc/app/c6accel_opencv_testapp заменим все вхождения строки ».png» на ».png.bmp», для этой цели удобен текстовый редактор gedit с комбинацией клавиш Ctrl+H.Второй проблемой оказались ошибка при выполнении функции C6Accel_test_Matchshapes и отказ работы функции cvFindCornerSubPix (в связи с известным багом http://code.opencv.org/issues/963).

В файле appMain.c закомментируем строку с функцией C6Accel_test_Matchshapes. А в файле c6accel_opencv_testfxns.c закомментируем текст со строки

//cvFindCorner SubPix issue to be resolved и включительно до строки printf («Called ARM FindCornerSubPix function (time: %f ms)\n», t_algo / 1000.0 / n); Напоследок соберём и запустим тестовое приложение. host $ cd ${HOME}/c6accel host $ sudo make opencv_app host $ sudo make opencv_app_install target # cd /opt/c6accel_app/c6accel_opencv_testapp target # ./loadmodules_ti8168_c6accel.sh target # ./c6accel_opencv_testapp Ура! После долгих мучений всё заработало.Результат работы приложения подытожен в таблице Функция OpenCV  Среднее времявыполненияна ARM, мс Среднее времявыполненияна DSP, мс Отметка овыбореDSP Разница между результатами выполненияна ARM и DSP (расстояние в пространствеL2, если не указано иное) cvCanny 43.218000 42.804000 + 0.000000 get Affine transform matrix 0.557000 0.411000 + 0.000000 Affine transform 46.325000 36.554000 + 7926.342031 2D Rotation Matrix 0.314000 0.378000 - 0.000000 Rotation using Affine 55.380000 40.985000 + 774.451419 cvIntegral 6.537000 8.232000 - 0.000000 cvMinMaxLoc 3.083000 1.660000 + Результаты совпадают cvNorm 1.881000 1.336000 + 0.000000 AddS 9.573000 12.434000 - 0.000000 AbsDiff 9.036000 14.349000 - 0.000000 AbsDiffS 10.555000 12.670000 - 0.000000 Add 8.931000 15.852000 - 0.000000 cvDilate 3.182000 1.282000 + 0.000000 cvErode 3.093000 1.281000 + 0.000000 cvLaplace 180.171000 11.968000 + 0.000000 cvPyrDown 4.265000 4.917000 - 0.000000 cvFilter2D 519.593000 21.259000 + 3651.030129 cvFindContours 11.915000 17.753000 - Результаты совпадают EqualizeHist 5.809000 8.921000 - 0.000000 SetZero 0.634000 3.871000 - 132898.252336 Rectangle 5.847000 1.307000 + Circle 3.652000 3.323000 + Flip 12.372000 12.071000 + 0.000000 Copy 2.479000 6.072000 - Sobel 5.463000 7.197000 - 0.000000 ConvertScale 5.139000 6.044000 - Adaptive threshold 89.986000 33.231000 + 0.000000 cvMulSpectrums 91.865000 15.221000 + 0.086427 cvDFT 597.131000 99.666000 + cvNormalize 57.318000 13.576000 + cvSmooth 109.345000 57.467000 + 1771.619316 HoughLines2D 2314.028000 634.262000 + 46306.904723 cvCornerHarris 653.550000 168.213000 + 0.136828 cvCornerEigenValsAndVecs 3430.892000 870.525000 + 350.751214 cvCornerMinEigenVal 1384.182000 1.155000 + — cvMulSpectrums 91.711000 15.323000 + 0.086427 cvDFT 597.707000 99.412000 + cvNormalize 58.782000 13.751000 + GoodFeaturesToTrack 1259.277000 279.508000 + — FindCornerSubPix — 449.029000   cvMatchTemplate 1576.569000 221.753000 + 3.741657 cvThreshold 2.182000 4.442000 - 0.000000 cvBoundingRect 0.036000 0.302000 - Разница между полученными площадями — 0.000000 cvDrawContour 0.030000 0.989000 - cvContourArea 0.049000 0.231000 - Plotting — 183.243000   CvtColor 16.283000 13.804000 + 0.000000 Resize 18.357000 17.617000 + cvCalcOpticalFlowPyrLK 2472.993000 146.874000 + Оба результата состоят из 445 особенностей HaarDetectObjects 2522.499000 460.350000 + Оба результата состоят из 5-ти элементов.ARM:   0:    46,    48 (42×42)  1:   174,    48 (37×37)  2:   240,    51 (38×38)  3:   110,    48 (40×40)  4:    92,    37 (131×131)DSP:   0:    47,    49 (40×40)  1:   175,    49 (35×35)  2:   240,    52 (37×37)  3:    17,   198 (34×34)  4:   110,    48 (38×38) По результатам можно сделать выводы: У некоторых функций имеется разница между результатами выполнения. Архитектура сигнальных процессоров, по сравнению с микропроцессорами общего применения, имеет некоторые особенности, связанные со стремлением максимально ускорить выполнение типовых задач ЦОС. DSP ориентированы, в первую очередь, на многократное выполнение умножения с расчётом «на лету» адресов перемножаемых элементов массивов. Алгоритм, реализованный на различных базовых операциях, может давать различные результаты. Не все функции работают быстрее на DSP, чем на ARM. Можно заметить закономерность: это функции базовых операции над матрицами или функции, которые в основном из них состоят. Такие «плохие» функции можно выполнять на ARM, в то время как другие пере-нести на DSP. В случае перегрузки процессора ARM использование некоторых «плохих» функций на DSP может быть терпимым. При использовании «хороших» функции на DSP можно достичь улучшения в разы и даже более чем на порядок. Это, как правило, наиболее трудоёмкие функции. Таким образом, балансируя между быстродействием, загрузкой процессоров и результатами выполнения можно существенно оптимизировать работу приложения.Полезные ссылки:

Плата DM816x/C6A816x/AM389x Загрузка DM816x Руководство пользователя EZSDK Фреймворк C6Accel Хорошая книга по OpenCV + частичный перевод на русский Статья о применении OpenCV на процессорах ARM и DSP

© Habrahabr.ru