《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 其他 > 教學(xué):頂級FPGA和GPU的PK

教學(xué):頂級FPGA和GPU的PK

2022-08-16
來源:FPGA之家
關(guān)鍵詞: IntelStraTIx10NX NVIDIA 芯片級

  本部分,我們就跟隨作者一起看看Intel StraTIx10 NX和Nvidia在這個領(lǐng)域的利器T4以及V100之間的對比,過程分為芯片級對比以及系統(tǒng)級對比。

  本部分一起先來看看芯片級對比

  首先來看下我們的GPU對手——Nvidia T4和V100分別有320個和640個張量核(專門用于AI工作負(fù)載的矩陣乘法引擎)

7a6a2812-1cfd-11ed-ba43-dac502259ad0.png

  Nvidia Tesla T4

7a868c1e-1cfd-11ed-ba43-dac502259ad0.png

  Nvidia Tesla V100

  下面表格總結(jié)了與StraTIx10 NX和這些同代工藝GPU的關(guān)鍵指標(biāo)對比。 就die尺寸來說,V100是Nvidia最大的12nm GPU,幾乎比T4大50%,而StraTIx10 NX比兩種GPU都小。

7aa010ee-1cfd-11ed-ba43-dac502259ad0.png

  首先,文章使用GPU最擅長處理的工作負(fù)載:通用矩陣乘(GEMM)來跑GPU的benchmark(什么是GEMM請移步https://spaTIal-lang.org/gemm),為了測量最佳的GPU性能,對每個器件使用最新的library,這些庫不會出錯,并且分別在使用和不使用張量核的情況下測試性能。對于fp32和fp16實驗,分別使用CUDA10.0和10.2的CuBLAS庫進(jìn)行V100和T4。對于int8,我們使用CUDA10.2中的cuBLASLt庫,這樣可以比cuBLAS庫獲得更高的int8性能。文章使用Nvidia的官方(高度優(yōu)化)的cuDNN kernel來處理DL工作負(fù)載,并且分別對V100和T4使用了從cuDNN7.6.2和7.6.5。 (cuBLAS API,從cuda6.0開始;cuBLASLt API,從cuda10.1開始)

  cuDNN庫不支持int8計算kernel,但它們支持將所有模型權(quán)重保存在片上內(nèi)存中。對于每個工作負(fù)載、問題大小和序列長度,文章在兩種GPU上運行了所有可能的配置組合,如精度{fp32、fp16、int8}、計算樣式{persistent、non-persistent}、張量核心設(shè)置{enable、disable}。然后,選擇最佳的性能,來和Stratix10 NX的NPU進(jìn)行比較。 這里因為是芯片級對比,所以只考慮了芯核的計算效率,不包括任何初始化、芯核啟動或主機-GPU數(shù)據(jù)傳輸開銷。

  下圖給出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark測試結(jié)果。結(jié)果表明,相對于張量核禁用情況(藍(lán)線),啟用張量核(紅線) 可以顯著提高GPU在GEMM上的性能。

7ac33b46-1cfd-11ed-ba43-dac502259ad0.png

  然而,一個普遍的趨勢是,張量核雖然是為GEMM設(shè)計的,但在矩陣大小為2048或以下情況時的利用效率明顯不如峰值情況(紅色虛線)。因此要實現(xiàn)高利用率,除非工作負(fù)載中的矩陣大小非常大,而這在實際DL工作負(fù)載中并不常見。T4和V100上的張量核都不支持fp32的精度,而是在執(zhí)行乘法運算之前,將fp32數(shù)據(jù)轉(zhuǎn)換為fp16。相對于純fp16 GEMM,這種數(shù)據(jù)轉(zhuǎn)換開銷降低了張量核性能。另一個有趣的情況是,當(dāng)T4張量核在int8模式下工作時,它們需要將輸入矩陣從標(biāo)準(zhǔn)的行/列主要格式轉(zhuǎn)換為特定于張量核的布局。因此,即使在處理非常大的8192×8192矩陣時,在張量核(沒有標(biāo)記的紅線)上實現(xiàn)的int8性能還不到峰值性能的45%。

  為了更好地理解這種數(shù)據(jù)轉(zhuǎn)換的開銷,文章還進(jìn)行了一個額外的實驗,在這個實驗中,對張量核進(jìn)行了特殊布局(帶有標(biāo)記的紅線)。即使不算矩陣布局變化的開銷,對于4096×4096及以下的矩陣大小,張量核利用率也小于40%,在6144×6144矩陣中利用率達(dá)到最高為72%。

  下面來看看FPGA上的情況,上圖(Fig.6)的右上角那張圖比較了Stratix10 NX上的NPU性能與具有int8張量核的T4 GPU的性能。為了公平地比較,文章禁用了NPU兩個輸入矩陣其中一個的矩陣布局變換,只保留了對另一個輸入以及輸出矩陣的布局變換(因為NPU以標(biāo)準(zhǔn)格式使用和生成這些矩陣)。

  雖然NPU是為矩陣向量運算而設(shè)計的,但它在GEMM工作負(fù)載上仍然實現(xiàn)了與T4相似的性能,其矩陣大小從512到3072不等(最大的矩陣可以fit進(jìn)片上BRAM)。

  最后,一起看看頂級FPGA和GPU的PK結(jié)果。下圖(Fig.7)將文章在Stratix10 NX上增強型NPU的性能與T4和V100的最佳性能進(jìn)行比較。對于比較小的batch-3和batch-6情況,F(xiàn)PGA性能總是顯著高于兩個GPU。FPGA在batch-6(其設(shè)計為:雙核batch-3)中表現(xiàn)最好,平均性能分別是T4和V100的24.2x和11.7x。

7aefa910-1cfd-11ed-ba43-dac502259ad0.png

  與batch-6相比,F(xiàn)PGA在batch-3上的性能較低,因為兩個核中的一個完全空閑。然而,它仍然比T4和V100分別平均快了22.3x和9.3x。在batch size高于6時,如果batch size不能被6整除,則NPU可能不能被充分利用。例如,在batch size為8、32和256的情況下,NPU最多可以達(dá)到其batch-6性能的67%、89%和99%,而batch size為12、36和258(上圖中的虛線所示)可以達(dá)到100%的效率。在32輸入的中等batch size情況下,NX仍然比T4具有更好的性能,并且與V100性能相當(dāng)。

  即使在比較大的batch size情況下,NX的性能也比T4高58%,只比die size更大(大將近一倍)的V100低30%。這些結(jié)果表明,人工智能優(yōu)化的FPGA在低batch實時推理中不僅可以實現(xiàn)比GPU好一個數(shù)量級的性能,而且可以在放寬延遲約束下的高batch推理中和GPU匹敵。上圖(Fig.7)中的右下角圖總結(jié)了不同batch size情況下NX相對于CPU的平均加速情況。

  上圖(Fig.7)中的右上角圖顯示了與不同batch大小下的兩個GPU相比,NX的平均利用率。NX在batch-6中的平均利用率為37.1%,而T4和V100分別僅為1.5%和3%。GPU張量核并非直接互連,它們只能接收來自本地核內(nèi)寄存器文件的輸入。因此,每個GPU張量核都必須發(fā)送它的partial result到全局內(nèi)存中,并與其他張量核同步,以結(jié)合這些partial result。然后GPU從全局內(nèi)存中讀取組合好的矢量來執(zhí)行進(jìn)一步的操作,如激活函數(shù)(activation functions)。

  較高的batch size可以攤銷這種同步延遲,但即使在batch-256情況下,T4和V100的利用率分別只有13.3%和17.8%。 另一方面,F(xiàn)PGA在架構(gòu)上也更具優(yōu)勢,其在張量塊之間有專用的用來做減法的互連, FPGA的可編程布線資源還允許將MVU tile和矢量單元級引擎級聯(lián)起來進(jìn)行直接通信,減少了像GPU中那樣必須通過內(nèi)存通信的情況。

  綜上可以看到,F(xiàn)PGA依靠架構(gòu)優(yōu)勢和超高的資源利用率,在AI性能PK上對GPU形成了強勁挑戰(zhàn)。下一篇,我們再來一起看看從系統(tǒng)角度,F(xiàn)PGA和GPU的對比情況以及功耗方面的分析。



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<< 

mmexport1621241704608.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产欧美日韩精品在线| 国产精品青草综合久久久久99| 亚洲综合日韩中文字幕v在线| 久久岛国电影| 亚洲毛片一区| 一区二区三区免费网站| 久久综合久色欧美综合狠狠| 夜夜爽www精品| 香蕉国产精品偷在线观看不卡| 亚洲片在线观看| 亚洲日本成人| 国产欧美一区二区在线观看| 亚洲精品综合精品自拍| 亚洲欧美日韩人成在线播放| 午夜亚洲精品| 久久久久久噜噜噜久久久精品| 亚洲国产裸拍裸体视频在线观看乱了中文 | 亚洲高清中文字幕| 蜜桃久久av| 亚洲麻豆国产自偷在线| 亚洲精品久久久久中文字幕欢迎你| 国产一区二区三区四区五区美女| 国产精品尤物| 国产精品免费视频观看| 国产精品卡一卡二| 国产精品多人| 国产精品美女久久久| 国产精品theporn88| 欧美系列精品| 国产精品久久久久久久久久久久| 国产精品第一区| 国产精品欧美激情| 国产精品人成在线观看免费| 国产精品欧美日韩一区| 国产精品免费一区二区三区观看| 国产精品视频精品视频| 国产精品揄拍一区二区| 国产亚洲午夜| 国产精品爱久久久久久久| 国产精品久久久久91| 国产精自产拍久久久久久| 国产偷国产偷亚洲高清97cao| 国产网站欧美日韩免费精品在线观看 | 欧美日韩国产精品一卡| 国产精品99一区二区| 国产精品免费观看在线| 国产亚洲精品福利| 欲香欲色天天天综合和网| 亚洲国产日韩一区二区| 99国内精品久久| 亚洲午夜精品17c| 新67194成人永久网站| 亚洲国产精品成人精品| av成人福利| 亚洲欧美日韩精品| 久久精品久久综合| 欧美va天堂| 欧美视频手机在线| 国产欧美另类| 在线电影一区| 999在线观看精品免费不卡网站| 在线中文字幕不卡| 欧美一区二区三区四区视频| 亚洲精品四区| 午夜免费在线观看精品视频| 久久这里只有| 欧美日韩免费网站| 国产日韩欧美综合精品| 亚洲激情综合| 午夜精品美女自拍福到在线| 亚洲精品一二三区| 欧美一区二区视频在线观看2020| 蜜臀va亚洲va欧美va天堂| 国产精品豆花视频| 亚洲第一狼人社区| 亚洲一区二区黄色| 亚洲欧洲一区二区在线观看| 亚洲一区视频在线观看视频| 久久久久久久久久看片| 欧美啪啪成人vr| 国产色综合天天综合网| 亚洲欧洲日本mm| 欧美中文字幕视频在线观看| 一区二区三区三区在线| 久久久精品国产免大香伊| 欧美日韩国产页| 韩日视频一区| 影音先锋久久久| 亚洲一区二区三区精品动漫| 亚洲日本欧美| 久久九九国产精品| 欧美日韩精品免费观看视频| 激情文学综合丁香| 亚洲一区二区三区免费视频| 日韩亚洲欧美高清| 麻豆91精品| 国产欧美日韩三区| 亚洲免费电影在线| 亚洲福利视频网站| 欧美一区二区三区四区高清| 欧美日韩国产综合一区二区 | 国产亚洲精品自拍| 99视频在线精品国自产拍免费观看| 久久大综合网| 欧美亚洲系列| 欧美日韩在线不卡一区| 亚洲国产老妈| 久久aⅴ乱码一区二区三区| 亚洲综合欧美| 欧美日韩视频一区二区三区| 在线播放日韩欧美| 欧美一级理论性理论a| 亚洲欧美国产精品专区久久| 欧美日韩ab| 亚洲国产日韩欧美在线99| 亚洲二区在线| 久久亚洲精品一区| 国产亚洲成av人片在线观看桃| 中国女人久久久| 一区二区激情视频| 欧美日本韩国一区| 亚洲高清久久网| 亚洲国产精品一区二区三区| 久久久91精品国产一区二区精品| 国产精品一二三| 亚洲性感美女99在线| 亚洲一区国产一区| 欧美日韩一区在线| 日韩视频一区二区| 夜色激情一区二区| 欧美国产视频日韩| 亚洲日本成人| av成人免费观看| 欧美日韩三区| 宅男精品视频| 亚洲一区美女视频在线观看免费| 欧美日本中文| 亚洲国产精品久久久| 亚洲区中文字幕| 欧美第十八页| 91久久中文字幕| 一区二区三欧美| 欧美午夜不卡影院在线观看完整版免费| 亚洲美女在线视频| 国产精品99久久久久久久久| 国产精品videosex极品| 亚洲视频在线看| 欧美一区二区三区视频免费| 国产视频欧美视频| 欧美在线在线| 欧美a级一区二区| 亚洲人成毛片在线播放女女| 亚洲最新视频在线| 国产精品v亚洲精品v日韩精品| 亚洲在线观看视频网站| 久久久国产午夜精品| 亚洲第一精品夜夜躁人人爽| 999亚洲国产精| 欧美色网一区二区| 亚洲视频自拍偷拍| 欧美一区二区三区视频免费播放| 国产亚洲aⅴaaaaaa毛片| 亚洲国产成人久久综合| 欧美激情一区二区三区在线视频观看| 亚洲精品乱码| 亚洲欧美日韩国产成人精品影院| 国产精品永久在线| 亚洲国产日日夜夜| 欧美色欧美亚洲另类七区| 亚洲欧美日韩精品久久久久 | 欧美日本乱大交xxxxx| 亚洲精品一区二区三区av| 亚洲欧美日韩精品在线| 国产无遮挡一区二区三区毛片日本| 亚洲第一网站| 欧美老女人xx| 国产精品99久久久久久久久| 久久久久久久久久久一区| 亚洲激情成人| 亚洲欧美激情在线视频| 黑人巨大精品欧美黑白配亚洲 | 在线电影院国产精品| 亚洲天堂成人在线观看| 国产在线麻豆精品观看| 一本色道久久88亚洲综合88| 国产日韩欧美在线观看| 99精品视频免费全部在线| 国产日韩一区在线| 日韩视频免费观看| 国产精品亚洲一区二区三区在线| 亚洲国内自拍| 国产精品亚洲第一区在线暖暖韩国| 亚洲国产精品久久久久久女王| 欧美日韩91| 亚洲电影免费在线观看| 国产精品久久久| 亚洲精品一区二区在线| 国产日韩精品综合网站| 一本久道久久久| 韩国成人精品a∨在线观看|