《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 解決方案 > 破解AI集群擴(kuò)展中的關(guān)鍵瓶頸

破解AI集群擴(kuò)展中的關(guān)鍵瓶頸

2025-04-30
作者:是德科技產(chǎn)品營(yíng)銷經(jīng)理Emily Yan
來源:是德科技
關(guān)鍵詞: 是德科技 AI集群

6.jpg

人工智能(AI)正以前所未有的速度向前發(fā)展,整個(gè)市場(chǎng)迫切需要更加強(qiáng)大、更加高效的數(shù)據(jù)中心來夯實(shí)技術(shù)底座。為此,各個(gè)國(guó)家以及不同類型的企業(yè)正在加大對(duì)人工智能基礎(chǔ)設(shè)施的投入。據(jù)《福布斯》報(bào)道,2025年,泛科技領(lǐng)域?qū)θ斯ぶ悄艿闹С鰧⒊^2500億美元,其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè)。到 2029 年,全球?qū)Π〝?shù)據(jù)中心、網(wǎng)絡(luò)和硬件在內(nèi)的人工智能基礎(chǔ)設(shè)施的投資將達(dá)到4230億美元。

然而,人工智能技術(shù)的快速創(chuàng)新迭代也給數(shù)據(jù)中心網(wǎng)絡(luò)帶來了前所未有的壓力。例如,Meta最近發(fā)布的有關(guān)Llama 3 405B模型訓(xùn)練集群的論文顯示,該模型在預(yù)訓(xùn)練階段需要超過700 TB的內(nèi)存和16000顆英偉達(dá)H100 GPU芯片。據(jù)Epoch AI預(yù)計(jì),到2030年,人工智能模型所需的計(jì)算能力將是目前領(lǐng)先模型的1萬倍。

如果企業(yè)擁有數(shù)據(jù)中心,那么部署人工智能只是時(shí)間問題。此篇是德科技署名文章旨在探討人工智能集群擴(kuò)展面臨的關(guān)鍵挑戰(zhàn),同時(shí)揭示為何“網(wǎng)絡(luò)會(huì)是新的瓶頸”。

人工智能集群的崛起

所謂人工智能集群就是一個(gè)高度互聯(lián)的大型計(jì)算資源網(wǎng)絡(luò),用于處理人工智能工作負(fù)載。

與傳統(tǒng)的計(jì)算集群不同,人工智能集群針對(duì)人工智能模型訓(xùn)練、推理和實(shí)時(shí)分析等工作任務(wù)進(jìn)行了優(yōu)化。它們依靠數(shù)千個(gè)GPU、高速互連和低時(shí)延的網(wǎng)絡(luò)來滿足人工智能對(duì)密集計(jì)算和數(shù)據(jù)吞吐量的要求。

建設(shè)人工智能集群

人工智能集群的核心功能類似于一個(gè)小型網(wǎng)絡(luò)。構(gòu)建人工智能集群需要將GPU連接起來,形成一個(gè)高性能計(jì)算網(wǎng)絡(luò),讓數(shù)據(jù)在GPU之間實(shí)現(xiàn)無縫傳輸。這其中強(qiáng)大的網(wǎng)絡(luò)連接至關(guān)重要,因?yàn)榉植际接?xùn)練往往需要使用數(shù)千個(gè)GPU進(jìn)行長(zhǎng)時(shí)間并行計(jì)算。

人工智能集群的關(guān)鍵組成部分

如圖1所示,人工智能集群由多個(gè)重要部分組成。

7.jpg

圖1:AI數(shù)據(jù)中心集群

? 計(jì)算節(jié)點(diǎn)如同人工智能集群的大腦,由成千上萬個(gè)GPU組成并連接到了機(jī)架頂部的交換機(jī)。隨著復(fù)雜性的提升,對(duì)GPU的需求也在增加。

? 以太網(wǎng)等高速互聯(lián)技術(shù)可實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)之間的快速數(shù)據(jù)傳輸。

? 網(wǎng)絡(luò)基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)硬件和協(xié)議,它們能夠支持在數(shù)千個(gè)GPU之間進(jìn)行長(zhǎng)時(shí)間的數(shù)據(jù)通信。

擴(kuò)展人工智能集群

人工智能集群可進(jìn)行擴(kuò)展,以應(yīng)對(duì)日益增長(zhǎng)的人工智能工作負(fù)載和復(fù)雜性。直到近期,由于網(wǎng)絡(luò)帶寬、時(shí)延等因素的限制,人工智能集群的規(guī)模局限在約3萬個(gè)GPU。然而,xAI Colossus超級(jí)計(jì)算機(jī)項(xiàng)目打破了這一局限,將所使用的GPU數(shù)量擴(kuò)展到了超過10萬顆英偉達(dá)H100 GPU芯片,網(wǎng)絡(luò)和內(nèi)存技術(shù)的進(jìn)步使得這一突破成為可能。

擴(kuò)展面臨的關(guān)鍵挑戰(zhàn)

隨著人工智能模型的相關(guān)參數(shù)增長(zhǎng)到數(shù)萬億個(gè),人工智能集群的擴(kuò)展會(huì)遇到大量來自技術(shù)和財(cái)務(wù)層面的阻礙。

網(wǎng)絡(luò)挑戰(zhàn)

GPU可以有效地執(zhí)行并行計(jì)算。然而,當(dāng)數(shù)千個(gè)甚至幾十萬個(gè)GPU在人工智能集群中共同執(zhí)行同一工作任務(wù)時(shí),如果其中一個(gè)GPU缺乏所需的數(shù)據(jù)或遇到延遲等情況,其他GPU的工作就會(huì)停滯不前。這種長(zhǎng)時(shí)間的數(shù)據(jù)包延遲或網(wǎng)絡(luò)擁堵造成的數(shù)據(jù)包丟失會(huì)導(dǎo)致需要重新傳輸數(shù)據(jù)包,從而大幅延長(zhǎng)了任務(wù)完成時(shí)間(JCT),造成價(jià)值數(shù)百萬美元的GPU閑置。

此外,人工智能工作負(fù)載產(chǎn)生的東西向流量,也就是數(shù)據(jù)中心內(nèi)部計(jì)算節(jié)點(diǎn)之間的數(shù)據(jù)遷移,急劇增加,如果傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施沒有針對(duì)這些負(fù)載進(jìn)行優(yōu)化,可能會(huì)出現(xiàn)網(wǎng)絡(luò)擁堵和延遲問題。

互聯(lián)挑戰(zhàn)

隨著人工智能集群規(guī)模的拓展,傳統(tǒng)的互連技術(shù)可能難以支持必要的吞吐量。為了避免瓶頸問題,企業(yè)必須進(jìn)行升級(jí)迭代,采用更高速的互連技術(shù),如800G甚至1.6T的解決方案。然而,要滿足人工智能工作負(fù)載的嚴(yán)格要求,部署和驗(yàn)證此類高速鏈路并非易事。高速串行路徑必須經(jīng)過仔細(xì)調(diào)試和測(cè)試,以確保最佳的信號(hào)完整性、較低的誤碼率和長(zhǎng)距可靠的前向糾錯(cuò)(FEC)性能。高速串行路徑中的任何不穩(wěn)定因素都會(huì)降低可靠性并減慢人工智能訓(xùn)練的速度。企業(yè)需要采用高精度、高效率的測(cè)試系統(tǒng),在高速互聯(lián)技術(shù)部署前對(duì)其進(jìn)行驗(yàn)證。

財(cái)務(wù)挑戰(zhàn)

擴(kuò)展人工智能集群的總成本遠(yuǎn)遠(yuǎn)不止于購(gòu)買GPU的花費(fèi)。企業(yè)必須將電源、冷卻、網(wǎng)絡(luò)設(shè)備和更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施等相關(guān)投入考慮在內(nèi)。然而,通過采用更出色的互連技術(shù)并借助經(jīng)過優(yōu)化的網(wǎng)絡(luò)性能來加速處理人工智能工作負(fù)載,可以縮短訓(xùn)練周期,并釋放資源用于執(zhí)行其他任務(wù)。這也意味著每節(jié)省一天的培訓(xùn)時(shí)間,就能大幅降低成本,因此對(duì)于財(cái)務(wù)風(fēng)險(xiǎn)和技術(shù)風(fēng)險(xiǎn)需要給予同等的重視。

測(cè)試和驗(yàn)證面臨的挑戰(zhàn)

優(yōu)化人工智能集群的網(wǎng)絡(luò)性能需要對(duì)網(wǎng)絡(luò)架構(gòu)和GPU之間的互連技術(shù)進(jìn)行性能測(cè)試和基準(zhǔn)測(cè)試。然而,由于硬件、架構(gòu)設(shè)計(jì)和動(dòng)態(tài)工作負(fù)載特性之間的關(guān)系錯(cuò)綜復(fù)雜,對(duì)這些器件和系統(tǒng)進(jìn)行驗(yàn)證具有很大的挑戰(zhàn)性。主要有三個(gè)常見的驗(yàn)證問題需要解決。

第一,實(shí)驗(yàn)室部署方面的限制

人工智能硬件成本高昂、可用的設(shè)備有限以及對(duì)專業(yè)網(wǎng)絡(luò)工程師的需求缺口,使得全盤復(fù)制變得不切實(shí)際。此外,實(shí)驗(yàn)室環(huán)境通常在空間、電力和散熱方面受到限制,與現(xiàn)實(shí)世界的數(shù)據(jù)中心條件不同。

第二,對(duì)生產(chǎn)系統(tǒng)的影響

減少對(duì)生產(chǎn)系統(tǒng)的測(cè)試可能會(huì)造成破壞,并影響關(guān)鍵的人工智能操作。

第三,復(fù)雜的人工智能工作負(fù)載

人工智能工作負(fù)載和數(shù)據(jù)集的性質(zhì)多種多樣,在規(guī)模和通信模式上也有很大差異,因此很難重現(xiàn)問題并執(zhí)行一致性的基準(zhǔn)測(cè)試。

人工智能將重塑數(shù)據(jù)中心的產(chǎn)業(yè)格局,因此構(gòu)建面向未來的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對(duì)于在技術(shù)和標(biāo)準(zhǔn)快速演進(jìn)的過程中保持領(lǐng)先地位至關(guān)重要。是德科技先進(jìn)的仿真解決方案可在部署前對(duì)網(wǎng)絡(luò)協(xié)議和系統(tǒng)運(yùn)行的場(chǎng)景進(jìn)行全面驗(yàn)證,進(jìn)而幫助企業(yè)獲得關(guān)鍵優(yōu)勢(shì)。是德科技致力于幫助網(wǎng)絡(luò)工程師降低人工智能工作負(fù)載的復(fù)雜性并優(yōu)化網(wǎng)絡(luò)性能,從而確保系統(tǒng)的可擴(kuò)展性、效率,并為應(yīng)對(duì)人工智能需求做好充分準(zhǔn)備。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品日韩欧美一区二区三区| 最新69国产成人精品视频免费 | 在线一区二区三区四区五区| 久久精品国产亚洲精品| 亚洲一区二区黄色| 中文网丁香综合网| 亚洲视频欧美在线| 亚洲无玛一区| 亚洲一区久久久| 亚洲综合色自拍一区| 亚洲性图久久| 亚洲自拍偷拍视频| 性感少妇一区| 欧美与黑人午夜性猛交久久久| 亚洲欧美激情视频| 午夜精品99久久免费| 亚洲欧美日韩在线观看a三区| 亚洲欧洲av一区二区三区久久| 午夜久久资源| 欧美怡红院视频| 久久精品夜色噜噜亚洲aⅴ| 久久精品二区| 亚洲精品在线视频观看| 日韩亚洲欧美成人一区| 亚洲视频www| 午夜久久久久| 久久久国产一区二区| 久热精品视频在线观看| 免费久久99精品国产| 欧美国产一区视频在线观看| 欧美日本在线看| 国产精品高潮呻吟久久| 国产嫩草影院久久久久| 国产自产女人91一区在线观看| 1024欧美极品| 99re热这里只有精品免费视频| 亚洲午夜av电影| 性欧美超级视频| 亚洲高清自拍| 一本色道久久88精品综合| 亚洲一级一区| 欧美在线一二三四区| 老司机免费视频久久 | 欧美美女bbbb| 国产精品网站在线播放| 黄色国产精品| 日韩视频在线一区二区| 亚洲欧美日本日韩| 亚洲国产精品成人综合色在线婷婷| 亚洲日本欧美| 亚洲欧美综合另类中字| 噜噜噜躁狠狠躁狠狠精品视频| 欧美日韩精品一二三区| 国产精品一区二区三区久久久| 一区二区三区在线视频播放| 日韩一区二区免费高清| 午夜欧美理论片| 99国产精品国产精品毛片| 先锋资源久久| 欧美激情精品久久久久久蜜臀 | 麻豆91精品| 欧美午夜欧美| 狠狠综合久久av一区二区老牛| 亚洲精品综合精品自拍| 欧美一级片久久久久久久| 亚洲精品乱码久久久久久久久| 性8sex亚洲区入口| 欧美刺激性大交免费视频| 国产精品久久婷婷六月丁香| 亚洲二区视频| 午夜精品视频在线观看| 日韩亚洲欧美中文三级| 欧美在线一区二区三区| 欧美日韩久久久久久| 国外成人网址| 亚洲神马久久| 夜夜嗨av一区二区三区四季av| 久久久久国产精品麻豆ai换脸| 欧美视频在线观看一区| 在线精品福利| 亚洲欧美在线播放| 亚洲婷婷综合色高清在线| 最新成人av网站| 亚洲小说欧美另类婷婷| 亚洲国产综合视频在线观看| 亚洲欧美日韩中文在线制服| 欧美激情一区二区三区高清视频| 国产亚洲福利一区| 在线一区免费观看| 亚洲老板91色精品久久| 久久久xxx| 国产伦精品一区二区三区视频黑人 | 国产亚洲精品美女| 中国日韩欧美久久久久久久久| 最新国产成人av网站网址麻豆| 欧美一区二区在线看| 国产精品成人观看视频免费| 亚洲国产综合视频在线观看| 久久国产精彩视频| 久久精品99国产精品日本| 国产精品国产成人国产三级| 日韩图片一区| 日韩一区二区精品在线观看| 美女国产一区| 狠狠色综合网| 久久狠狠婷婷| 久久久久久香蕉网| 国产欧美日韩免费| 亚洲综合色噜噜狠狠| 亚洲欧美综合| 国产精品入口| 亚洲欧美综合精品久久成人| 亚洲女人天堂av| 国产精品久久久久久久久久久久久久 | 亚洲欧美制服中文字幕| 亚洲综合色激情五月| 欧美日韩一区免费| 亚洲美女视频在线观看| 99国产成+人+综合+亚洲欧美| 欧美激情中文字幕一区二区| 91久久精品久久国产性色也91| 亚洲三级免费观看| 欧美1区免费| 亚洲高清在线| 日韩午夜免费视频| 欧美精品在线观看| 日韩天堂在线观看| 亚洲一区二区三区免费视频| 国产精品极品美女粉嫩高清在线 | 亚洲中午字幕| 国产精品爽爽ⅴa在线观看| 亚洲综合三区| 久久久精品2019中文字幕神马| 国内精品免费午夜毛片| 亚洲成人自拍视频| 欧美sm重口味系列视频在线观看| 亚洲国产另类精品专区| 一卡二卡3卡四卡高清精品视频| 欧美色大人视频| 亚洲综合精品自拍| 久久久久国产精品厨房| 在线精品在线| 中文国产成人精品久久一| 国产精品久久久久毛片大屁完整版| 亚洲欧美日韩在线| 另类av导航| 日韩视频在线观看国产| 欧美一二区视频| 一区福利视频| 一区二区动漫| 国产精自产拍久久久久久| 久久精品国产99国产精品| 欧美激情亚洲视频| 一本大道久久a久久综合婷婷| 欧美一区二区三区在线看| 国内伊人久久久久久网站视频| 亚洲日韩欧美视频| 国产精品v欧美精品v日本精品动漫 | 亚洲一区二区免费| 国产午夜精品全部视频播放| 亚洲国产你懂的| 欧美午夜一区二区三区免费大片| 先锋影音网一区二区| 欧美成人久久| 亚洲专区免费| 欧美国产日韩在线观看| 亚洲视频www| 蜜桃久久av| 亚洲网站视频福利| 久久影音先锋| 99一区二区| 久久久久久久网站| 亚洲精品视频免费| 欧美亚洲三区| 亚洲人成网站777色婷婷| 午夜免费电影一区在线观看| 黄色亚洲精品| 亚洲欧美日韩中文在线制服| 亚洲福利视频专区| 久久se精品一区二区| 亚洲欧洲精品一区| 久久精品一区四区| 亚洲乱码精品一二三四区日韩在线| 久久国产高清| 夜夜嗨av一区二区三区四季av| 久久在线视频在线| 亚洲一区二区高清视频| 欧美国产第二页| 欧美尤物巨大精品爽| 欧美色道久久88综合亚洲精品| 久久精品官网| 国产欧美日韩综合| 99这里只有精品| 伊人婷婷欧美激情| 欧美一级在线播放| 亚洲狼人精品一区二区三区| 久久中文在线| 亚洲欧美色婷婷| 国产精品高精视频免费| 99re热精品|