《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 解決方案 > OpenEM簡(jiǎn)介和基于OpenEM的大矩陣乘實(shí)現(xiàn)

OpenEM簡(jiǎn)介和基于OpenEM的大矩陣乘實(shí)現(xiàn)

2013-12-26
作者:James Li---Multi-core DSP / FAE
關(guān)鍵詞: 軟件 OpenEM KeyStone

摘要

OpenEM 的全稱是Open Event Machine。是TI 針對(duì)嵌入式應(yīng)用開發(fā)的multicore runtime system library。OpenEM 可以在多核上有效的調(diào)度,分發(fā)任務(wù)。它把任務(wù)調(diào)度給負(fù)載輕的核,進(jìn)而實(shí)現(xiàn)動(dòng)態(tài)的負(fù)載平衡。OpenEM 是基于TI Keystone 系列芯片的multicore Navigator 構(gòu)建的,具有開銷小,效率高的特點(diǎn)。本文首先對(duì)OpenEM 的原理做了簡(jiǎn)單的介紹。然后結(jié)合一個(gè)大矩陣乘的演示用例詳細(xì)介紹了OpenEM 的使用。最后通過量化分析這個(gè)演示用例的執(zhí)行cycle 數(shù),總結(jié)了OpenEM 的效率和局限。希望本文能成為學(xué)習(xí)OpenEM 的讀者的一個(gè)有用的參考。

1、OpenEM 簡(jiǎn)介

OpenEM 的全稱是Open Event Machine。它是TI 開發(fā)的可應(yīng)用于Keystone 多核DSP 的multicore runtime system library。OpenEM 的目的是在多核上有效的調(diào)度,分發(fā)任務(wù),實(shí)現(xiàn)動(dòng)態(tài)的負(fù)載平衡?;贠penEM,用戶可以很容易的把原來的單核應(yīng)用移植到Keystone 多核芯片。需要注意的是OpenEM 目前只能把任務(wù)調(diào)度分發(fā)到同一個(gè)DSP 的多個(gè)核上,不能跨DSP 調(diào)度分發(fā)。OpenEM不依賴于BIOS。它可以在芯片上裸跑,代碼精簡(jiǎn),效率高。而且,OpenEM不同于業(yè)界已經(jīng)有OpenMP 和OpenCL 等開放式的multi-core runtime systems。它是針對(duì)嵌入式系統(tǒng)的設(shè)計(jì),更能滿足嵌入式設(shè)計(jì)的實(shí)時(shí)性要求。TI 的keystone 架構(gòu)多核芯片中有Multicore Navigator。它由Queue Manager(簡(jiǎn)稱為QMSS)和一系列Packet DMA engine 構(gòu)成。OpenEM就是基于這套硬件系統(tǒng)構(gòu)建的。例如,OpenEM 的scheduler 是運(yùn)行在QMSS 的PDSP(QMSS內(nèi)部的RISC 處理器)上的。OpenEM的preload 功能是通過QMSS 的packet DMA 實(shí)現(xiàn)的。熟悉QMSS 的編程對(duì)學(xué)習(xí)OpenEM 很有幫助。OpenEM 是MCSDK 的一個(gè)組件。它還在不斷的發(fā)展改進(jìn)中。本文對(duì)OpenEM 的介紹以及演示用例都是基于BIOS MCSDK 2.01.02 的OpenEM 1.0.0.2。

1.1 OpenEM 軟件對(duì)象

下面通過列表和圖示介紹了OpenEM的主要軟件對(duì)象。表1 是OpenEM 的主要軟件對(duì)象的列表。

需要注意的是,本文介紹的OpenEM 的運(yùn)行模式是:Scheduler 運(yùn)行在PDSP,Dispatcher 是“run to completion ”模式。

圖1 是一個(gè)軟件對(duì)象關(guān)系圖,顯示出了表1 中列舉的軟件對(duì)象。定義了2 個(gè)queue group,5 個(gè)queue 和3 個(gè)execution object。Queue group1 的core mask 對(duì)應(yīng)核0 和1。所以來自queue1,2,3,4 的event 只能在核0 和核1 上執(zhí)行,因?yàn)檫@些queue 屬于queue group1。Queue group2 的core mask 對(duì)應(yīng)核2 和3。所以來自queue5 的event 只能在核2 和核3 上執(zhí)行,因?yàn)閝ueue5 屬于queue group2。execution object 1 和queue 1,2,3 映射關(guān)聯(lián)。execution object 2 和queue 4 映射關(guān)聯(lián)。execution object 3 和queue 5 映射關(guān)聯(lián)。圖中的藍(lán)線表示了event 的行徑,紅線表示command 的行徑。圖中的SD queue 是hardware queue,它不是一個(gè)軟件對(duì)象而是OpenEM內(nèi)部的組件。

1.2 OpenEM 的兩個(gè)重要概念

OpenEM中有兩個(gè)容易混淆的重要概念:prefetch 和preload。

• Prefetch 是指每個(gè)DSP 核向scheduler 發(fā)命令,告訴scheduler“本核已經(jīng)空閑了,可以分配新的工作給本核了”。只有收到一個(gè)核的prefetch 命令,scheduler 才會(huì)調(diào)度新的event 給這個(gè)核。如果DSP 核不發(fā)出prefetch 命令,它就不會(huì)被分派任務(wù)。這是OpenEM 的scheduler的基本調(diào)度原則。

• Preload 和event 的屬性有關(guān)。通常,event 的數(shù)據(jù)是位于DDR 的。如果DSP 核直接訪問DDR 效率會(huì)比較低。所以,OpenEM 可以把event 的數(shù)據(jù)通過QMSS 的packet DMA 搬到DSP 核的local L2。這個(gè)搬移的過程就是preload。每個(gè)event 的數(shù)據(jù)是否做preload 是可配的。每個(gè)event 在創(chuàng)建的時(shí)候都可以指定一個(gè)preload 屬性。Event 的preload 屬性可以是:

– Preload disable, 即不做預(yù)搬移

– Preload up to sizeA,即做預(yù)搬移,但是最多只搬sizeA bytes

– Preload up to sizeB,即做預(yù)搬移,但是最多只搬sizeB bytes

– Preload up to sizeC,即做預(yù)搬移,但是最多只搬sizeC bytes

– 其中SizeA,SizeB 和SizeC 是常數(shù),在OpenEM 初始化的時(shí)候可以配置。

1.3 OpenEM 的常用API cycle 數(shù)

OpenEM的附帶開銷是應(yīng)用最關(guān)注特性之一。所以我們實(shí)測(cè)了OpenEM 常用API 的cycle 數(shù)如表2。需要注意的是:由于OpenEM會(huì)負(fù)責(zé)cache 一致性的維護(hù),而有些API 的處理過程中含有cache 一致性的維護(hù)操作。所以這些API 的調(diào)用cycle 數(shù)很大程度上取決于它對(duì)多大的數(shù)據(jù)緩沖區(qū)做了cache 一致性的維護(hù)。本文測(cè)試這些cycle 的場(chǎng)景使用的數(shù)據(jù)緩沖區(qū)的大小是是4096 words(32bit)。

2、基于OpenEM 的大矩陣乘實(shí)現(xiàn)

   

大矩陣相乘的目的是計(jì)算X*Y = Z  

矩陣X 是(100 ×2048 )的浮點(diǎn)實(shí)數(shù)矩陣。

矩陣Y 是(2048 ×2048 )的浮點(diǎn)實(shí)數(shù)矩陣。

矩陣Z 是(100 ×2048 )的浮點(diǎn)實(shí)數(shù)矩陣。

由于矩陣Y 的數(shù)據(jù)量很大,所以在多核DSP 上可以把它拆分成多個(gè)子塊,交給多個(gè)DSP 核并行計(jì)算。如圖2 所示。

2.1 基于OpenEM 的大矩陣乘方案設(shè)計(jì)

2.1.1 Memory 使用

Shannon DSP (6678)的內(nèi)存系統(tǒng)包括片內(nèi)的LL2(local L2)和SL2(shared L2)。加上片外的DDR。LL2 的size 是512 Kbytes,每個(gè)核有一份LL2。SL2 的size 是4Mbytes,8 個(gè)核共享SL2。DDR size 和硬件板卡設(shè)計(jì)有關(guān),一般在1G bytes 以上。C66x 核對(duì)LL2 的訪問效率最高,對(duì)SL2 的訪問效率稍差,對(duì)DDR 的訪問效率最低?;诙喾N存儲(chǔ)區(qū)間的不同特性,我們對(duì)數(shù)據(jù)存儲(chǔ)位置按如下規(guī)劃(參見圖3):

– 矩陣X 的size 是800 Kbytes,存儲(chǔ)是shared L2

– 矩陣Y 的size 是16 Mbytes,存儲(chǔ)是DDR

– 矩陣Z 的size 是800 Kbytes,存儲(chǔ)是shared L2

雖然矩陣Y 存儲(chǔ)在DDR,但是我們啟用了OpenEM 的preload 功能。Preload 就是通過QMSS 的packet DMA 把待處理的event 數(shù)據(jù)(通常位于DDR)搬到被調(diào)度core 的LL2。所以DSP 核運(yùn)行的時(shí)候不直接從DDR 取數(shù)。這保證了DSP 核的數(shù)據(jù)訪問效率。

2.1.2 處理流程

OpenEM中要有一個(gè)DSP 核作為主核,其他核就是從核,主核要完成的工作較多。本文的演示用例中,核0 是主核,核1~7 是從核。主從核的分工差異如圖4:

1. 初始化QMSS 和free pool。

2. OpenEM 的global 初始化和local 初始化。global 初始化是主核執(zhí)行。local 初始化是每個(gè)核各自執(zhí)行。Local 初始化要等global 初始化完成才能開始。所以,中間需要加一個(gè)barrier。Barrier 可以理解成一個(gè)同步點(diǎn),所有DSP 核在這個(gè)點(diǎn)完成一次同步再繼續(xù)向下執(zhí)行。本演示用例的Barrier 是通過共享內(nèi)存的軟件信號(hào)量實(shí)現(xiàn)的。

3. 主核構(gòu)造生產(chǎn)者/消費(fèi)者場(chǎng)景并產(chǎn)生待處理的event。生產(chǎn)者在OpenEM 中不是一個(gè)軟件對(duì)象。我們可以把產(chǎn)生event 并發(fā)送到queue 的函數(shù)認(rèn)為是生產(chǎn)者。消費(fèi)者就是execution object,溝通生產(chǎn)者和消費(fèi)者的管道就是queue。構(gòu)造生產(chǎn)者/消費(fèi)者場(chǎng)景就是創(chuàng)建execution object 和queue 并且把它們關(guān)聯(lián)起來。

4. 主核和從核進(jìn)入event 處理的過程。

5. 主核檢測(cè)到所有event 都處理完成后為每個(gè)DSP 核(包括它自己)產(chǎn)一個(gè)exit job。

6. 主核和從核處理exit job。從核直接調(diào)用exit(0)退出。主核先做結(jié)果驗(yàn)證然后調(diào)用exit(0)退出。

本文演示用例實(shí)現(xiàn)的幾個(gè)特點(diǎn)是:

• OpenEM 的free pool 是由用戶初始化的。在初始化free pool 的時(shí)候event 描述符不指向數(shù)據(jù)緩沖區(qū)。等分配了一個(gè)event 的時(shí)候再在這個(gè)event 對(duì)應(yīng)的描述符上掛數(shù)據(jù)緩沖區(qū)。這樣可以避免不必要的數(shù)據(jù)拷貝(從global buffer 拷貝到event buffer)。

• 主核通過查詢free pool 中的event 個(gè)數(shù)是否恢復(fù)回初始值來判斷是否所有“矩陣乘event”都處理。因?yàn)椋?/p>

 

– Free pool 在初始化以后有N 個(gè)free event,

– 從中分配了若干個(gè)event 后,free event 就減少了相應(yīng)的個(gè)數(shù),

– 每個(gè)core 每處理完一個(gè)event 就把這個(gè)event 回收到free pool,free pool 的event 個(gè)數(shù)就加一。當(dāng)free pool 的event 個(gè)數(shù)恢復(fù)回N,就說明所有event 都處理完了。

2.2 基于OpenEM 的大矩陣乘實(shí)現(xiàn)

在初始化OpenEM之前首先要做multicore Navigator 的初始化。包括:PDSP firmware 的download,Link RAM 的初始化,Memory region 的初始化還有free pool (也就是free descriptorqueue)的初始化。這不屬于本文介紹的范疇,本文直接介紹OpenEM的初始化。

2.2.1 OpenEM Global 初始化

OpenEM的global 初始化通過調(diào)用API 函數(shù)ti_em_init_global()完成的。這個(gè)API 的入?yún)⑹窍旅嫠镜慕Y(jié)構(gòu)體。其中所列的參數(shù)是本文的演示用例使用的配置參數(shù)。本文針對(duì)每個(gè)參數(shù)的作用做了注釋。了解了參數(shù)了含義,就能了解OpenEM 的global 初始化的大致做了些什么。

注釋:

1. OpenEM要使用hardware queue 資源。hw_queue_base_idx 用來指定OpenEM 從哪個(gè)hardware queue 開始可用。

2. OpenEM 的少量操作需要多DSP 核訪問共享的數(shù)據(jù)結(jié)構(gòu)。是通過hardware semaphore 實(shí)現(xiàn)多核lock/unclock 的。所以通過hw_sem_idx 告訴OpenEM該使用哪一個(gè)hardware semaphore。

3. 指定preload 使用的QMSS packet DMA 的通道的起始索引。QMSS packet DMA 有32 個(gè)RX/TX channel。在OpenEM 中,每個(gè)DSP core 要占用一個(gè)TX/RX channel。

4. 指定preload 使用的QMSS Tx queues 的起始索引。要和dma_idx 對(duì)應(yīng)起來。QMSS 有32 個(gè)TX queue,索引是800~831。對(duì)應(yīng)QMSS packet DMA 的TX channel 0~31。所以,如果前面配置的dma_idx 是0,那么這里配置的dma_queue_base_idx 應(yīng)該是800。

5. 指定OpenEM local free pool 對(duì)應(yīng)的free queue index。Local free pool 是和preload 相關(guān)的。local free pool 在物理上是一個(gè)free descriptor queue。里面存儲(chǔ)著2 個(gè)host 描述符。每個(gè)描述符對(duì)應(yīng)一個(gè)local L2 buffer。如果發(fā)生preload,packet DMA 就從free descriptor queue pop 描述符,然后把數(shù)據(jù)傳到描述符指向的local L2 buffer。每個(gè)DSP 核有一個(gè)local free pool。例如,在我們的演示用例中core0~7 對(duì)應(yīng)的free descriptor queue 索引是2050~2057。

6. 指定OpenEM global free pool 的個(gè)數(shù)。每個(gè)global free pool 包括4 個(gè)初始化參數(shù),例如{ globalFreePoolFdqIdx, TI_EM_COH_MODE_ON,TI_EM_BUF_MODE_GLOBAL_TIGHT,0}。參數(shù)1是這個(gè)global free pool 對(duì)應(yīng)的free queue index。接下來幾項(xiàng)是這個(gè)pool 中的buffer 的屬性。Global free pool 是用來從中分配free event 的。調(diào)用em_alloc()的入?yún)⒅痪褪莊ree pool index。

7. 配置preload 門限,參見本文1.2 節(jié)的敘述。

2.2.2 創(chuàng)建生產(chǎn)者/消費(fèi)者場(chǎng)景

前面介紹過,在OpenEM 中,消費(fèi)者就是execution object,溝通生產(chǎn)者和消費(fèi)者的管道就是queue。本小節(jié)介紹怎樣創(chuàng)建execution object 和queue 以及怎樣把它們關(guān)聯(lián)起來。關(guān)于怎樣產(chǎn)生event,本文在下一小節(jié)描述。OpenEM 有下列API 供應(yīng)用調(diào)用:

• 調(diào)用em_eo_create()可以創(chuàng)建execution object

• 調(diào)用em_queue_create()可以創(chuàng)建queue

• 調(diào)用em_eo_add_queue()可以把queue 和execution object 映射起來

 

本演示用例通過參數(shù)配置表列出execution object, queue group object 和queue object 的參數(shù),然后通過解析函數(shù)解析配置表再調(diào)用OpenEM的API,這樣各個(gè)軟件對(duì)象的參數(shù)在配置表中一目了然,代碼的可讀性較好。圖5 是本演示用例的映射關(guān)系。

 

需要注意的是coremask 總共有64 個(gè)比特,但是目前6678 最多也只有8 個(gè)DSP 核。所以大量mask 比特是用不到的,目前。核0~7 對(duì)應(yīng)的mask 比特是位于byte[4]的bit0:7

需要注意的是queue 到execution object 的映射是通過receiver 函數(shù)關(guān)聯(lián)起來,如紅色高亮顯示部分。

初始化job的偽代碼如下:

2.2.3 產(chǎn)生event

本文的演示用例把matrix Y 切分成了128 個(gè)2048*16 的子塊,每個(gè)event 對(duì)應(yīng)一個(gè)子塊。Event被發(fā)送給execution object 以后,receive 函數(shù)計(jì)算Matrix X 乘與matrix Y block,即100*2048 ×2048*16 的矩陣乘,產(chǎn)生100*16 個(gè)輸出。event 的產(chǎn)生包括下面幾個(gè)簡(jiǎn)單步驟:

• 調(diào)用em_alloc 函數(shù),從public pool 獲取free 的event 描述符并且enable preloading。

• 把待處理的數(shù)據(jù)緩沖區(qū)掛到描述符上,也就是把描述符的buffer 指針指向這個(gè)數(shù)據(jù)緩沖區(qū)。

• 在描述符的software info 域填上job index。

• 調(diào)用em_send,把event 發(fā)送到對(duì)應(yīng)的queue,也就是proc queue。

下面是產(chǎn)生event 的代碼:

需要注意的是Event 產(chǎn)生的時(shí)候,它被哪一個(gè)execution object 處理還沒有確定。因?yàn)閑xecution object 只是和queue 關(guān)聯(lián)的。當(dāng)把event 發(fā)送到一個(gè)queue 的時(shí)候,負(fù)責(zé)處理event 的execution object 就確定了。所以在調(diào)用em_send()發(fā)送event 到queue 的時(shí)候參數(shù)之一就是要發(fā)送到的queue 的handler。

2.2.4 運(yùn)行和exit

如前所述,“矩陣乘event”是通過proc queue 發(fā)給scheduler 的,所以它被proc queue 映射到mat_mpy calc 這個(gè)execution object 上。Dispatcher 收到這個(gè)event 后就調(diào)用“mat_mpy calc”對(duì)應(yīng)的receiver 函數(shù)計(jì)算矩陣相乘。因?yàn)閜roc queue 所屬的queue group 是映射到所有DSP 核的,所以128 個(gè)“矩陣乘event”是在所有核上并行處理的。每個(gè)核處理完event 后就把它釋放回global free pool。這樣這個(gè)event 又成為一個(gè)free 的event。

 

如2.2.3 節(jié)所述,主核可以通過查詢global free pool 的描述符個(gè)數(shù)是否恢復(fù)來判斷是否所有“矩陣乘event”已經(jīng)處理完。

 

當(dāng)所有“矩陣乘event”處理完后,主核再產(chǎn)生8 個(gè)“exit event”發(fā)送到exit queue。理論上scheduler 可以把exit job 調(diào)度給任意一個(gè)核,而不會(huì)保證每個(gè)核一個(gè)exit job。所以exit job 中的處理比較特殊。exit job 的receiver 函數(shù)直接執(zhí)行系統(tǒng)調(diào)用exit(0)。這樣就不會(huì)返回到Dispatcher,也不會(huì)再發(fā)出prefetch command。而另一方面,scheduler 是在收到DSP 核的prefetch command 以后才把event 調(diào)度給這個(gè)核的。這個(gè)機(jī)制保證了每個(gè)核收到且僅收到一個(gè)“exit event”。

在exit job 的receiver 函數(shù)中,主核執(zhí)行的分支稍有差異。主核需要先做完結(jié)果的校驗(yàn)再執(zhí)行系統(tǒng)調(diào)用exit(0)。所以在板上運(yùn)行是會(huì)觀察到其他核很快(小于1s)就從run 狀態(tài)轉(zhuǎn)換到abort 狀態(tài),而主核保持run 了很長(zhǎng)時(shí)間(大約50s)才進(jìn)入abort 狀態(tài)。原因是:在主核上執(zhí)行結(jié)果驗(yàn)證工作時(shí)產(chǎn)生校驗(yàn)結(jié)果的函數(shù)計(jì)算耗時(shí)比較長(zhǎng)。

下面是exit job 的receiver 函數(shù)的代碼主干:

2.3 基于OpenEM 的大矩陣乘性能測(cè)試結(jié)果

2.3.1 算法代碼和cycle 數(shù)的理論極限

設(shè)r1 是X 矩陣的行數(shù),c1 是X 矩陣的列數(shù),c2 是Y 矩陣的列數(shù)。在我們的演示用例中r1 =100, c1 = 2048, c2 = 2048。如前所述,Receiver 函數(shù)要計(jì)算100*2048 ×2048*16 的矩陣乘,對(duì)應(yīng)下面的偽代碼:

循環(huán)內(nèi)核是4 個(gè)cycle。如果只考慮循環(huán)內(nèi)核消耗的cycle 數(shù),計(jì)算100*2048 ×2048*16 的矩陣乘需要的cycle 數(shù)是100/2*16/2*2048/4*4 = 819,200 cycle。整個(gè)X*Y=Z 包括計(jì)算128 個(gè)這樣的矩陣乘。所以總的cycle 數(shù)是819,200*128 = 104,857,600 cycles。在1Ghz 的C66 核上這相當(dāng)于104.8ms。但是我們的上述理論計(jì)算沒有考慮循環(huán)的前后綴消耗的cycle 數(shù),也沒有考慮cache miss stall 的等待時(shí)間。在6678EVM 板的單個(gè)DSP 核上實(shí)測(cè),計(jì)算X*Y=Z 消耗的實(shí)際時(shí)間是190,574,214 cycles。相當(dāng)于190ms。

2.3.2 基于OpenEM 的性能測(cè)試結(jié)果

基于OpenEM的演示用例實(shí)現(xiàn)過程中,DSP 代碼中嵌入了少量測(cè)試代碼收集運(yùn)行的cycle 信息。每個(gè)核把自己處理每個(gè)event 的起始和結(jié)束時(shí)間記錄在內(nèi)存(我們通過一個(gè)全局timer 來保證所有DSP 核記錄的時(shí)間戳在時(shí)間軸上是同步的)。這些時(shí)間戳用CCS 存到主機(jī)做后處理分析。通過分析,我們可以得到8 個(gè)DSP 核并行處理消耗的時(shí)間。還可以分析每個(gè)DSP 核的忙/閑區(qū)間。

測(cè)試結(jié)果是,從第一個(gè)event 開始處理到最后一個(gè)event 處理完,總時(shí)間是31,433,438 cycle,也就是31.4ms。也就是說,通過OpenEM把單DSP 核的工作負(fù)載平衡到8 個(gè)DSP 核上能達(dá)到的DSP 核利用率是190,574,214/(31,433,438*8)= 76%。

通過對(duì)時(shí)間戳的處理我們得到下面的運(yùn)行圖,“-”表示receiver 函數(shù)處理event 的區(qū)間,本文稱之為有效時(shí)間。“#”表示receiver 之外的區(qū)間(也就是代碼在dispatcher 中執(zhí)行的區(qū)間),本文稱之為調(diào)度開銷。每個(gè)“-”和“#”刻度表示100,000 CPU cycle。

從上面的執(zhí)行圖看,調(diào)度開銷不小,占了大約15~20%的時(shí)間。但是這只是表面的現(xiàn)象。實(shí)際上,調(diào)度開銷的大部分時(shí)間里,Dispatcher 是在查詢hardware queue,等待新的event。這是因?yàn)閜reload 沒能及時(shí)完成導(dǎo)致的。因?yàn)橥瑫r(shí)給8 個(gè)核做preload 需要很大的數(shù)據(jù)搬移的流量。根據(jù)以往的測(cè)試結(jié)果。使用QMSS 的packet DMA 從DDR3 輸入數(shù)據(jù)到local L2 的流量大約是4G bytes 每秒。那么preload 8 個(gè)event 總的數(shù)據(jù)量是4byte * 2048 rows * 16 columns * 8 core = 1M bytes,需要的時(shí)間是1/4 ms。因?yàn)槊總€(gè)“-”和“#”刻度表示100,000 CPU cycle,運(yùn)行圖中紅線長(zhǎng)度就代表preload 8 個(gè)event 的時(shí)間,它非常接近250,000 cycle。理論計(jì)算和實(shí)際值基本吻合,所以我們認(rèn)為調(diào)度延遲是packet DMA 的傳輸流量不足導(dǎo)致的。

我們也測(cè)試了不使用pre-load 的場(chǎng)景。觀測(cè)到scheduler 調(diào)度一個(gè)event 的延遲大約是1200 個(gè)C66 CPU cycle。但是DSP 核處理一個(gè)event 的耗時(shí)增大到原來的10 倍。所以,pre-load 雖然會(huì)導(dǎo)致QMSS packet DMA 流量不足成為凸顯的瓶頸,但是從總體效率來看還是非常必要的。

細(xì)心的讀者可能會(huì)發(fā)現(xiàn)76% + 20% = 96%,并不是100%。我們分析時(shí)間戳發(fā)現(xiàn),8 個(gè)DSP 核同時(shí)運(yùn)行的場(chǎng)景下,每個(gè)核處理一個(gè)100*2048 ×2048*16 的矩陣乘的時(shí)間比只有一個(gè)DSP 核運(yùn)行的場(chǎng)景下的時(shí)間稍長(zhǎng)。原因是:我們的演示用例中X 矩陣和Z 矩陣是存儲(chǔ)在shared L2 的,8 個(gè)核同時(shí)運(yùn)行就會(huì)同時(shí)讀寫這兩個(gè)buffer,導(dǎo)致產(chǎn)生shared L2 的bank 沖突。所以性能下降了。

3、總結(jié)

OpenEM具有使用簡(jiǎn)單,功能實(shí)用,執(zhí)行高效的特點(diǎn)。能在KeyStone 多核DSP 上實(shí)現(xiàn)動(dòng)態(tài)的負(fù)載平衡。它一方面提供了強(qiáng)大的功能,另一方面也給應(yīng)用留出了很大的靈活性。例如,通過讓應(yīng)用初始化free pool 方便了buffer 的管理。OpenEM 的現(xiàn)有功能已經(jīng)能夠支持基本的應(yīng)用。隨著版本更新功能還將不斷完善。

 

Reference

Ref[1]   ti.openem.white.paper.pdf 位于OpenEM 安裝目錄

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美一区2区三区4区公司二百| 久久国产成人| 国产一区二区三区四区| 欧美体内she精视频在线观看| 女女同性女同一区二区三区91| 久久国产精品一区二区三区四区 | 91久久精品美女| 久久激情视频久久| 久久成人免费日本黄色| 亚洲欧美视频一区| 亚洲一区免费| 一区二区欧美日韩视频| 亚洲韩日在线| 亚洲三级免费观看| 亚洲精品123区| 亚洲人成人一区二区三区| 亚洲电影av| 亚洲激情第一区| 亚洲三级色网| 99精品国产高清一区二区| 日韩亚洲欧美在线观看| 99精品国产一区二区青青牛奶| 99精品国产一区二区青青牛奶| 在线视频欧美精品| 午夜精品久久| 久久爱另类一区二区小说| 欧美主播一区二区三区| 久久riav二区三区| 麻豆精品网站| 欧美精选一区| 国产精品久久99| 国产亚洲aⅴaaaaaa毛片| 狠狠久久综合婷婷不卡| 亚洲国产精品va在看黑人| 亚洲精品日韩一| 中文精品99久久国产香蕉| 亚洲影院免费观看| 久久精品人人做人人综合| 亚洲人成在线观看网站高清| 99精品视频免费观看| 亚洲一二三四久久| 久久国产欧美日韩精品| 欧美成人亚洲成人| 欧美日韩国产免费观看| 国产精品久久久久久久久久ktv| 国产日产高清欧美一区二区三区| 可以看av的网站久久看| 免费在线国产精品| 欧美涩涩网站| 国产一区二区三区成人欧美日韩在线观看 | 亚洲综合精品一区二区| 欧美一区高清| 蜜臀久久久99精品久久久久久| 欧美日韩高清在线| 国产性做久久久久久| 最新国产の精品合集bt伙计| 一区二区三区精密机械公司 | 亚洲精品久久久久久久久久久久| 一本色道久久综合亚洲精品高清| 午夜精品一区二区在线观看| 亚洲国产一二三| 亚洲一区二区高清视频| 久久久水蜜桃| 欧美日韩一卡| 韩日精品视频一区| 一本色道88久久加勒比精品| 欧美一区二区三区日韩视频| 99精品热视频| 欧美一级大片在线观看| 亚洲精选成人| 欧美有码在线视频| 欧美日韩123| 国产日韩在线亚洲字幕中文| 亚洲国产婷婷香蕉久久久久久| 亚洲一区综合| 亚洲精品资源| 久久精品最新地址| 欧美午夜不卡| 亚洲国产精品高清久久久| 亚洲综合999| 亚洲另类在线视频| 久久久久久久一区| 国产精品国产三级国产 | 久久精品亚洲乱码伦伦中文| 亚洲一区国产一区| 欧美国产亚洲精品久久久8v| 国产精品色婷婷久久58| 欧美日韩免费高清一区色橹橹| 国产美女一区| 一本色道久久加勒比精品 | 亚洲国内在线| 欧美一区二区三区的| 欧美伦理视频网站| 国外成人在线视频| 亚洲免费在线电影| 亚洲婷婷综合色高清在线| 蜜臀va亚洲va欧美va天堂| 国产女人精品视频| 一区二区三区色| 亚洲精品少妇| 久久综合久久综合久久综合| 国产精品自拍三区| 99天天综合性| 亚洲精品视频在线| 久久免费黄色| 国产日韩欧美日韩| 亚洲男女自偷自拍| 亚洲亚洲精品三区日韩精品在线视频 | 欧美日韩精品免费| 亚洲国产岛国毛片在线| 欧美一区二区视频在线| 亚洲自拍偷拍视频| 欧美日韩综合视频网址| 91久久精品国产| 亚洲欧洲另类国产综合| 久久午夜羞羞影院免费观看| 国产人久久人人人人爽| 亚洲一区二区三区视频播放| 这里只有精品丝袜| 欧美视频免费看| 亚洲美女淫视频| 99精品国产在热久久婷婷| 欧美激情精品久久久久久久变态 | 国产精品99久久久久久久vr| 一区二区三区视频在线播放| 欧美日韩不卡合集视频| 最新亚洲激情| 99精品久久免费看蜜臀剧情介绍| 欧美理论电影在线观看| 亚洲精品女人| 一本色道久久综合亚洲精品不 | 欧美日韩国产小视频| 亚洲激情一区二区三区| 亚洲精品护士| 欧美欧美全黄| 日韩亚洲欧美中文三级| 亚洲无亚洲人成网站77777| 欧美午夜无遮挡| 中日韩美女免费视频网址在线观看 | 欧美在线二区| 久久亚洲不卡| 亚洲成人资源网| 亚洲日本无吗高清不卡| 欧美女人交a| 亚洲主播在线观看| 久久久久久噜噜噜久久久精品 | 久久精品视频在线看| 欧美超级免费视 在线| 亚洲黄色在线视频| 一区二区三区色| 国产精品一级久久久| 新狼窝色av性久久久久久| 久久噜噜噜精品国产亚洲综合| 一区二区三区在线观看国产| 亚洲精选视频在线| 国产精品第13页| 欧美一区二区三区视频| 欧美成人免费一级人片100| 亚洲精品欧美激情| 性欧美18~19sex高清播放| 黄色av一区| 日韩视频在线播放| 欧美午夜免费| 久久国产精品免费一区| 欧美激情区在线播放| 亚洲一区二区三区高清| 久久综合国产精品| 99视频在线观看一区三区| 欧美在线国产精品| 亚洲国产成人在线播放| 亚洲一区久久久| 国内精品嫩模av私拍在线观看| 日韩视频精品| 国产精品香蕉在线观看| 亚洲国产欧美不卡在线观看| 欧美日韩综合视频网址| 欧美一区二区三区四区在线观看| 欧美成人精品一区二区| 中文有码久久| 久久在线免费视频| 夜夜爽夜夜爽精品视频| 99精品国产福利在线观看免费 | 国产一区二区丝袜高跟鞋图片 | 欧美日韩在线免费| 欧美在线视频一区二区三区| 欧美日韩国产天堂| 久久精品国产精品 | 国产综合第一页| 在线一区视频| 在线成人免费观看| 亚洲欧美日韩人成在线播放| 国产欧美日本一区二区三区| 亚洲精选中文字幕| 国产视频自拍一区| 亚洲私人影院| 亚洲丶国产丶欧美一区二区三区| 亚洲欧美在线免费| 亚洲精品国产日韩| 久久夜色精品国产噜噜av| 亚洲男人av电影|