7月29日消息,在7月26日-7月29日于上海世博展覽館H1-A301舉辦的WAIC(世界人工智能大會)上,華為昇騰384超節點,即Atlas 900 A3 SuperPoD首次展出,成為備受矚目的“鎮館之寶”,是業界目前最大規模的超節點。
昇騰384超節點打破了以CPU為中心的馮諾依曼架構,創新提出了對等計算架構,還將總線從服務器內部擴展到整機柜、甚至跨機柜,極大地改變了數據傳輸和處理的方式。
傳統由服務器、存儲、網絡等設備堆疊而成的集群,在大規模訓練時存在資源利用率低、故障頻發的問題,嚴重阻礙AI發展。
而昇騰超節點通過高速總線連接多顆NPU,突破了互聯瓶頸,讓超節點像一臺計算機一樣協同工作。
通信帶寬飛躍:跨節點通信帶寬提升15倍,使得數據傳輸速度大幅加快。
通信時延驟減:通信時延從2μs降至0.2μs,下降了10倍,減少了數據處理等待時間。
超強互聯能力:最大可實現384顆NPU點到點超大帶寬互聯,并且是業界唯一支持DeepSeek V/R1在一個超節點域內即可完成所有專家并行(EP)方案的產品,也是MoE模型的最佳訓練/推理方案,極大提高了模型訓練和推理的效率。
昇騰384超節點擁有三大優勢:
超大帶寬:超節點內任意兩個AI處理器之間通信帶寬,相較于傳統架構提升15倍,超節點內單跳通信時延降低10倍,數據交互更流暢。
超低時延:昇騰超節點支持全局內存統一編址,具備更高效的內存語義通信能力,通過更低時延指令級內存語義通信,可滿足大模型訓練/推理中的小包通信需求,提升專家網絡小包數據傳輸及離散隨機訪存通信效率。而且昇騰384超節點是業界唯一突破Decode時延15ms的方案,能滿足實時深度思考下的用戶體驗需求。
超強性能:經過實際測試,在昇騰超節點集群上,LlaMA3等千億稠密模型訓練性能可達傳統集群的2.5倍以上;在通信占比更高的Qwen、DeepSeek等多模態、MoE模型上,性能提升更是可以達到3倍以上。