亚洲欧美国产另类,国产精品黄视频,综合136福利视频在线

“周易”X3 NPU精準解決端側AI大模型運行難題

日期： 2025-11-20

來源：安謀科技

關鍵詞： 安謀科技 NPU ARM 周易 AI大模型

編者按：2025 年 11 月 13 日，安謀科技（Arm China）“周易”X3 NPU IP新品。作為“All in AI”產品戰略下誕生的首款重磅產品，其性能指標表現突出：8-80 FP8 TFLOPS、單Core帶寬256GB/s、Prefill算力利用率達72%和Decode有效帶寬利用率超100%，可使AIGC大模型能力提升10倍。

隨著AI大模型技術的飛速發展，智能手機、AI PC和智能汽車等端側設備正迎來AI能力的爆發性需求。從多模態語音助手到實時圖像生成，從智能座艙交互到輔助駕駛決策，端側設備需要承載越來越復雜的AI計算任務。

然而，端側AI部署面臨算力受限、能效要求高、帶寬瓶頸、開發門檻高等多重挑戰，如何在有限的功耗和算力資源下實現大模型的高效運行，成為行業亟需突破的關鍵難題。

圖片1.png

眾所周知，在半導體領域，“面向未來5年的產品方向進行前瞻布局”已成為行業共識，涵蓋IP研發、芯片及終端產品研發量產。

因需而動，安謀科技的“周易”X3采用兼顧CNN與Transformer的通用架構設計，支持全算力類型并增強浮點運算FLOPS，助力實現從定點到浮點計算的關鍵轉變，并滿足大模型計算需求，為未來5年Gen AI、Agentic AI與Physical AI的端側落地奠定技術基石。

圖片2.png

硬件架構：專為大模型設計最新DSP+DSA架構

“周易”X3基于專為大模型設計的最新DSP+DSA架構，從計算效率、帶寬、精度適配、任務處理四大維度實現升級，精準解決端側AI大模型運行難題，打造端側AI計算效率的新標桿。

從定點轉向浮點計算，單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置，單Core帶寬高達256GB/s，支持端側大模型運行必備的W4A8/W4A16計算加速模式，集成安謀科技自研的解壓硬件WDC，使大模型Weight軟件無損壓縮后通過硬件解壓獲得額外約15%的等效帶寬，計算效率和計算密度大幅提升。

圖片3.png

同時，“周易”X3集成AI專屬硬件引擎AIFF，配合專用硬化調度器，實現超低至0.5%的CPU負載與低調度延遲，使NPU在并行處理多項AI任務時，擁有高效流暢的體驗。

軟件生態：優化大模型端到端性能，支持客戶自定義AI開發

“周易”X3 搭載完善易用的Compass AI軟件平臺，全面優化大模型端到端性能。平臺廣泛兼容TensorFlow、ONNX、PyTorch等主流AI框架，具備業界領先的大模型動態Shape支持能力，并支持GPTQ等大模型主流量化方案、 Hugging Face模型庫，與LLM、VLM、VLA及MoE等模型。

圖片4.png

同時，安謀科技積極構建開放生態，Compass AI軟件平臺已將 Parser、Optimizer、Linux Driver、TVM 及內部 IR 格式等核心組件相繼開源，并擁有豐富的調試工具，可滿足開發者白盒部署需求，且支持更易用的 DSL 算子編程語言，在深度開發模式下，客戶可以使用平臺中的Compiler、Debugger和DSL語言開發出自己的自定義算子，也可通過Parser、Optimizer等工具打造出屬于自己的模型編譯器，極大提升開發效率。

圖片5.png

“周易”Compass AI軟件平臺已支持超 160 種算子與 270 多種模型，顯著提升開發部署效率，助力客戶快速實現 AI 應用創新與落地。

性能提升：讓端側大模型“跑得穩、答得順”

“周易”X3遵循“軟硬協同、全周期服務與成就客戶”的產品準則，提供從硬件、軟件到售后服務的全鏈路支持，以前瞻性設計、專業團隊交付與深度服務投入，全面助力客戶大模型產品成功與商業化落地。

“周易”X3在架構層面實現了多項創新，集成了業界矚目的關鍵特性。

1.集成自研解壓硬件WDC：使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。

2.新增端側大模型運行必備的W4A8/W4A16計算加速模式：對模型權重進行低比特量化，大幅降低帶寬消耗，支持云端大模型向端側的高效遷移。

3.集成AI專屬硬件引擎AIFF（AI Fixed-Function）與專用硬化調度器：實現超低至0.5%的CPU負載與低調度延遲，靈活支持端側多任務場景和任意優先級調度場景，確保高優先級任務的即時響應。

4.支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計算，強浮點計算：可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求，平衡性能與能效。

在上述關鍵技術的加持下，“周易”X3獲得了優異的計算性能：單Cluster最高支持4個Core，擁有8-80 FP8 TFLOPS算力且可靈活配置，單Core帶寬高達256GB/s。相較于“周易”X2產品，“周易”X3的CNN模型性能提升30%-50%，多核算力線性度達到70%-80%。在同算力規格下，AIGC大模型能力較上一代產品實現10倍增長，這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬、超過10倍的Softmax和LayerNorm性能提升共同驅動。

圖片6.png