![]() 第4代「香港飛龍」標誌 本文内容: 公衆號記得加星標??,第一時間看推送不會錯過。在今年四月舉辦的的華爲雲生態大會2025上,華爲宣佈推出CloudMatrix 384超節點。據華爲介紹,面向AI時代的海量算力需求,華爲雲基於“一切可池化、一切皆對等、一切可組合”的新型高速互聯總線推出CloudMatrix 384超節點,實現從服務器級到矩陣級的資源供給模式轉變。CloudMatrix 384具備“高密”“高速”“高效”的特點,通過全面的架構創新,在算力、互聯帶寬、內存帶寬等方面實現全面領先。近日,華爲團隊和硅基流動合著了一篇題爲《Serving Large Language Models on Huawei CloudMatrix384》的文章。介紹了華爲 CloudMatrix。(原文鏈接:https://arxiv.org/pdf/2506.12708)按照他們在文章中所說,這是新一代 AI 數據中心架構,體現了華爲重塑 AI 基礎設施基礎架構的願景。華爲 CloudMatrix384 代表了這一願景的首個生產級實現。它將 384 個昇騰 910C NPU、192 個鯤鵬 CPU 以及其他硬件組件集成到一箇統一的超級節點中,並通過超高帶寬、低延遲的統一總線 (UB) 網絡互連。與傳統的分層設計不同,該架構通過 UB 實現了直接的全節點通信,從而允許計算、內存和網絡資源動態池化、統一訪問和獨立擴展。這些架構特性尤其有利於通信密集型操作,例如大規模 MoE 專家並行和分佈式鍵值 (KV) 緩存訪問,從而使 CloudMatrix384 成爲下一代 LLM 服務的可擴展高性能基礎。下面,我們節選文章的關鍵內容翻譯,以供大家參考。華爲CloudMatrix介紹爲了應對 AI 工作負載中這些新興挑戰,華爲提出了 CloudMatrix,這是新一代 AI 數據中心架構,旨在重塑 AI 基礎設施的基礎。該架構願景的核心在於構建一箇統一、緊耦合的計算結構,以高效支持現代 AI 應用的規模化、異構性和通信需求。CloudMatrix384 代表了該願景的首個生產級實現,提供了一箇專爲大規模 AI 工作負載優化的專用平臺。CloudMatrix的願景爲應對現代大規模AI工作負載日益增長的需求,華爲推出了CloudMatrix——一種開創性的下一代AI數據中心架構。該架構精心設計,秉承完全點對點高帶寬互聯和細粒度資源分解的原則。如圖1所示,CloudMatrix突破了傳統的以CPU爲中心的層級設計,支持所有異構系統組件(包括NPU、CPU、DRAM、SSD、NIC和特定領域加速器)之間的直接高性能通信,尤其無需CPU中介。該架構的核心是超高帶寬、低延遲的統一總線 (UB) 網絡,它促進了高效的全系統數據傳輸和協調。基於此基礎,CloudMatrix提供了四項基礎功能,共同定義了AI原生基礎設施的新範式:(1) 面向TP/EP的可擴展通信。 UB 互連支持跨 NPU 的直接高吞吐量點對點通信,使 TP 和 EP 組能夠超越單個節點的邊界進行擴展。這消除了節點間的瓶頸,並允許大型模型在超級節點之間高效分佈。(2) 靈活的異構工作負載資源組合。CloudMatrix 將 CPU、NPU 和內存分解爲獨立的池化資源,從而實現細粒度的、工作負載驅動的資源組合。這種靈活性允許根據工作負載需求(例如,內存豐富的緩存節點、CPU 密集型的預處理節點)進行細粒度的資源分配,從而將部署從固定節點配置或基於 PCIe 的主機設備耦閤中解放出來。(3) 統一的融合工作負載基礎架構。高帶寬 UB 網絡在單一可擴展的基礎架構中同時支持 AI 和數據密集型應用。這使得LLM推理、訓練、仿真和分析工作負載的融合執行成爲可能,而這正是混合AI流水線日益普遍的需求。(4) 通過分解式內存池實現內存級存儲。CloudMatrix將集羣中連接到CPU的DRAM聚合到一箇可通過UB訪問的共享高性能內存池中。該底層支持彈性內存服務 (EMS) 等服務,該服務通過消除傳統的I/O瓶頸,加速了諸如鍵值緩存重用、參數加載和模型檢查點等延遲關鍵型操作。CloudMatrix384 概述:完全點對點硬件架構CloudMatrix384 被設計爲一箇 AI 超級節點,集成了 384 個昇騰 910C 神經網絡處理單元 (NPU) 和 192 個鯤鵬中央處理器 (CPU),如圖 2 所示。CloudMatrix384 的一箇顯著特點是其點對點、完全互聯的超高帶寬網絡,該網絡通過 UB 協議連接所有 NPU 和 CPU。CloudMatrix384 的 UB 設計是UB-Mesh 的遞歸。384 個 NPU 和 192 個 CPU 均通過 UB 交換機連接,使節點間通信性能接近節點內通信性能。如表 1 所示,節點間帶寬衰減低於 3%,節點間延遲增加低於 1 μs。鑑於現代 AI 工作負載主要依賴帶寬而非延遲,這種邊際延遲開銷對 AI 任務的端到端性能的影響微乎其微。總體而言,這種設計使 CloudMatrix384 能夠充當一箇緊密耦合的大規模邏輯節點,擁有全局可尋址的計算和內存能力,從而促進統一的資源池化和高效的工作負載編排。爲了支持多樣化的流量模式並保持與傳統數據中心網絡的兼容性,CloudMatrix384 集成了三個獨特但互補的網絡平面:(1)UB 平面:UB 平面構成超級節點內主要的超高帶寬縱向擴展架構。它以無阻塞的全對全拓撲結構直接連接所有 384 個 NPU 和 192 個 CPU。每臺 Ascend 910C 提供超過 392GB/s 的單向帶寬。UB 能夠:高效實現細粒度並行策略,例如 TP 和 EP,不受節點邊界的限制;快速點對點訪問池化內存(跨越 CPU 和 NPU 內存),這對於高效緩存模型權重和鍵值緩存至關重要。(2)RDMA 平面:RDMA 平面支持跨 CloudMatrix384 個超級節點和外部 RDMA 兼容系統的橫向擴展通信。它目前採用融合以太網 RDMA (RoCE) 技術,以確保與標準 RDMA 堆棧兼容。每個 NPU 貢獻高達 400Gbps 的單向 RDMA 帶寬。NPU 是該平面的唯一參與者,將 RDMA 流量與控制和存儲操作隔離。關鍵功能包括:在推理過程中,預填充和解碼 NPU 之間高速傳輸活動鍵值緩存數據;支持使用符合 RDMA 標準的框架進行分佈式訓練和推理;在多集羣部署中實現跨超級節點的低延遲互連(3)VPC 平面:虛擬私有云 (VPC:virtual private cloud) 平面通過高速網卡(華爲擎天卡)將 CloudMatrix384 超級節點連接到更廣泛的數據中心網絡,每個節點可提供高達 400Gbps 的單向帶寬。它基於標準以太網和 IP 協議運行,並可選配 UB-over-Ethernet (UBoE) 協議。VPC 平面負責處理:管理和控制平面操作,例如部署、監控和調度;訪問持久化存儲,包括對象存儲服務 (OBS)、彈性卷服務 (EVS) 和可擴展文件系統服務 (SFS);來自 CPU 駐留工作負載(例如數據庫和用戶界面)的外部服務通信。儘管 CloudMatrix 的長期願景是將 RDMA 和 VPC 平面融合爲一個統一的平面(如圖 1 所示),但當前的 CloudMatrix384 將它們分開,以確保與傳統數據中心基礎設施的向後兼容性。硬件組件一、Ascend 910C 芯片CloudMatrix 384 的核心是海思 Ascend 910C NPU,這是華爲面2024 年推出的旗艦 AI 加速器,它將接替原版 Ascend 910B。910C 採用雙芯片封裝:兩個相同的計算芯片共封裝,共享八個封裝內存儲器堆棧,並通過高帶寬跨芯片結構連接,如圖 3 所示。計算:每個芯片可維持約 376 TFLOPS 的密集 BF16/FP16 吞吐量,每個封裝總吞吐量可達 752 TFLOPS。每個芯片包含 24 個針對矩陣和卷積工作負載優化的 AI 立方體 (AIC:AI cube) 核心,以及 48 個用於元素級運算的 AI 矢量 (AIV:AI vector) 核心。所有計算引擎均支持 FP16/BF16 和 INT8 數據類型。 8 位量化可以以 INT8 精度實現,從而實現與原生 FP8 硬件相當的計算效率,而無需專用 FP8 支持。兩個芯片通過封裝內互連進行通信,總帶寬高達 540 GB/s,單向帶寬 270 GB/s。內存:Ascend 910C 封裝集成了八個內存堆棧(每個 16 GB),共提供 128GB 封裝內內存(每個芯片 64GB)。該封裝可提供高達 3.2 TB/s 的總內存帶寬,每個芯片可用帶寬爲 1.6 TB/s。網絡接口:每個 Ascend 910C 芯片與兩個不同的網絡平面接口。UB 平面:該芯片集成七個高速收發器,每個收發器的工作速率爲 224Gbps,爲橫向擴展的 UB 平面提供總計 196GB/s 單向(或 392GB/s 雙向)帶寬。RDMA 平面:每個芯片都包含一箇專用接口,爲橫向擴展的 RDMA 平面提供高達 200Gbps 的單向帶寬。二、Ascend 910C 節點CloudMatrix384 中的每個計算節點都集成了 8 個 Ascend 910C NPU、4 個鯤鵬 CPU 和 7 個板載 UB 交換芯片,如圖 4 所示。12 個處理器(8 個 NPU 和 4 個 CPU)通過 UB 鏈路連接到這些板載交換機,在節點內創建單層 UB 平面。每個 NPU 都配置了高達 392GB/s 的單向 UB 帶寬,而每個鯤鵬 CPU 插槽則獲得約 160GB/s 的單向 UB 帶寬。單個板載 UB 交換芯片爲超級節點結構中的下一層交換層提供 448GB/s 的上行鏈路容量。只有 NPU 參與輔助 RDMA 平面。每個 NPU 設備額外貢獻一條 400Gbps 單向鏈路,用於橫向擴展 RDMA 流量,使每個節點的 RDMA 帶寬總計達到 3.2 Tbps。在 CPU 集羣內,四個鯤鵬 CPU 插槽通過全網狀 NUMA 拓撲互連,從而實現所有連接 CPU 的 DRAM 的統一內存訪問。其中一箇 CPU 承載着節點的擎天卡,這是一箇專用的數據處理單元 (DPU),不僅集成了高速網絡接口,還執行重要的節點級資源管理功能。該擎天卡作爲節點的主要南北向出口點,與第三個不同的網絡平面(數據中心的 VPC 平面)連接。三、UB 交換機系統CloudMatrix384 超級節點橫跨 16 個機架:12 個計算機架,共承載 48 個 Ascend 910C 節點(共 384 個 NPU),以及 4 個通信機架。這些通信機架容納第二層 (L2) UB 交換機,用於連接超級節點內的所有節點。圖 5 展示了板載第一層 (L1) UB 交換機(位於每個 Ascend 910C 節點內部)和機架級 L2 UB 交換機之間的拓撲結構。該網絡設計爲無阻塞,這意味着 L2 交換層不存在帶寬超額認購。L2 交換機被劃分爲 7 個獨立的子平面。每個子平麪包含 16 個 L2 UB 交換芯片,每個 L2 交換芯片提供 48 個 28 GB/s 端口。在每個節點內部,7 個板載 L1 UB 交換芯片與這 7 個 L2 子平面一一對應。每個 L1 交換芯片扇出 16 條鏈路(每個鏈路與其對應子平面中的每個 L2 交換芯片相連)。此配置可確保節點到 L2 交換矩陣的聚合上行鏈路帶寬與其內部 UB 容量精確匹配,從而在整個超級節點中保持無阻塞特性。軟件棧一、用於昇騰NPU的CANN華爲爲昇騰NPU開發了全面的軟件生態系統,稱爲神經網絡計算架構(CANN:compute architecture for neural networks)。CANN充當中間軟件層,實現高級AI框架(如PyTorch 和TensorFlow )與昇騰NPU的低級硬件接口之間的高效集成。通過將這些框架生成的抽象計算圖轉換爲優化的硬件可執行指令,CANN簡化了開發人員與昇騰硬件的交互,促進了軟硬件協同設計,並旨在最大限度地提高昇騰架構上應用程序的性能。CANN架構。CANN軟件堆棧(圖6)由三個主要層組成:驅動程序、運行時和庫,其架構類似於NVIDIA的CUDA生態系統。(1)驅動層:Ascend NPU 驅動程序位於底層,由內核模塊和固件組成,充當操作系統與 Ascend NPU 之間的低級接口。它管理必要的硬件交互,包括設備初始化、資源分配(內存、數據流)、命令調度以及 NPU 間通信設置。(2)運行時層:CANN Runtime 是 Ascend NPU 上應用程序的核心執行引擎。它負責監督應用程序的生命週期,協調模型計算,併爲模型和算子提供全面的設備控制、內存管理和執行管理。這些功能主要通過 Ascend 計算語言 (ACL) API 訪問。(3)庫層:該層提供一套高度優化的軟件組件,用於加速各種 AI 工作負載。關鍵要素包括領域特定加速庫 (AOL)、用於分佈式任務的華爲集體通信庫 (HCCL)、包含預優化內核的擴展算子包 (OPP),以及用於神經網絡加速 (NNAE) 和離線推理 (NNRT) 的引擎。支持自定義算子開發(例如通過 Ascend C 語言開發)以及與第三方庫集成,以進一步增強其功能。除了核心層之外,圖引擎 (GE) 還能編譯和優化來自 PyTorch、TensorFlow 和 MindSpore 28 等框架的計算圖。它通過應用算子融合、內存規劃、動態形狀處理和調度等全圖優化,連接高級模型和低級執行。這些優化降低了開銷,並提高了 Ascend NPU 的執行效率。框架集成:CANN 廣泛支持主流 AI 框架,顯著降低了現有和新 AI 項目採用昇騰 NPU 的門檻:PyTorch:通過 PyTorch 昇騰 NPU 適配器 (torch_npu) ,開發者可以在現有的 PyTorch 工作流程中無縫利用昇騰 NPU 加速。華爲提供預構建的 Python Wheel 包,安裝簡便,API 兼容性和最佳實踐詳盡文檔,以及簡化的 CUDA 代碼遷移到 CANN 的工具或指南。TensorFlow:CANN 的 TF_Adapter將昇騰 NPU 加速功能直接集成到 TensorFlow 框架中,使基於 TensorFlow 的 AI 項目能夠以極少的代碼修改即可獲得高性能和便捷的部署。ONNX:華爲爲 ONNX 運行時提供專用的 CANN 執行提供程序。這使得以開放神經網絡交換 (ONNX) 格式 42 導出的模型能夠高效執行,從而促進廣泛的模型兼容性,並簡化了在包含昇騰 NPU 的異構硬件環境中的部署。MindSpore:MindSpore 由華爲內部開發,提供與昇騰硬件的原生且高度優化的集成。該框架旨在在華爲的 AI 生態系統中提供潛在的卓越性能和易用性,提供緊密耦合的軟硬件解決方案。總而言之,CANN 提供了一箇垂直集成的軟件堆棧,包括驅動程序、運行時和庫,可與 NVIDIA 的 CUDA 相媲美,同時針對昇騰 NPU 進行了定製。其 GE 將全圖表示編譯爲高度優化的執行計劃,豐富的框架適配器使現有工作負載的移植幾乎無阻力。這些組件共同使開發人員能夠以最少的代碼更改利用昇騰硬件,同時在廣泛的 AI 應用中實現接近峯值的設備性能。二、雲部署基礎設施軟件爲了支持 CloudMatrix384 在雲環境中的部署,華爲雲提供了一套完善的基礎設施軟件,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在抽象硬件複雜性,並通過標準雲 API 實現無縫的資源編排,如圖 7 所示。MatrixResource 管理超級節點內的物理資源配置,包括基於拓撲感知調度的計算實例分配。實例配置任務由 CloudMatrix384 每個計算節點的擎天卡上運行的 MatrixResource 代理執行。MatrixLink 爲 UB 和 RDMA 網絡提供面向服務的網絡,支持 QoS 保證和動態路由。它管理鏈路級配置,並支持網絡感知的工作負載分配,以實現最佳通信效率。這些任務也由每個計算節點的擎天卡上的 MatrixLink 代理執行。MatrixCompute 協調 CloudMatrix 實例的生命週期,從裸機配置到自動擴縮容和故障恢復。它協調跨多箇物理節點的資源組合,以創建緊密耦合的邏輯超級節點實例。MatrixContainer 提供基於 Kubernetes 的容器服務,並通過拓撲感知調度進行增強,以充分利用 CloudMatrix 的高性能互連。它使用戶能夠使用熟悉的容器化工作流部署分佈式 AI 工作負載。ModelArts 位於基礎設施堆棧的頂層,提供端到端 AI 平臺服務。它包含:ModelArts Lite,可通過裸機和容器化環境直接訪問 Ascend 硬件;ModelArts Standard,支持完整的 AI 開發和 MLOps 流水線;ModelArts Studio,提供模型即服務 (MaaS) 功能,可快速部署和定製 LLM 及其他模型。這些組件共同支持用戶在 CloudMatrix 384 上高效構建和部署大規模 AI 應用程序,在保持性能的同時抽象底層複雜性未來方向討論人工智能模型的快速演進及其廣泛應用持續對人工智能基礎設施提出日益嚴格的要求。儘管 CloudMatrix384 代表了緊耦合人工智能計算擴展領域的一箇重要架構里程碑,但爲了滿足新興工作負載的需求,仍需進一步發展。在本節中,我們將討論 CloudMatrix 架構及其構建的 LLM 服務系統的潛在未來發展方向,旨在進一步提升可擴展性、靈活性、效率和性能。CloudMatrix 的未來演進CloudMatrix384 所體現的超級節點概念可以沿多箇維度進行擴展,以適應未來的 AI 工作負載。一、統一 VPC 和 RDMA 平面如前文所述,CloudMatrix384 目前採用單獨的網絡平面來處理橫向擴展 (RDMA) 和 VPC 流量。然而,CloudMatrix 可以將橫向擴展通信集成到 VPC 網絡中。在典型的 AI 訓練和推理工作負載中,諸如張量、專家和序列並行 (TP/EP/SP) 等帶寬密集型通信階段主要集中在超級節點內。相比之下,跨超級節點通信(主要源於數據和流水線並行 (DP/PP))通常對帶寬的需求要低得多。藉助分層 DP 通信和通信隱藏技術,VPC 網絡可以充分滿足大多數 AI 工作負載的超級節點間通信需求。基於此,基於 VPC 平面的統一網絡架構可以構建可用區 (AZ) 規模的大規模 AI 集羣。它能夠兼容異構多代AI硬件,以超節點爲基本單元實現靈活、模塊化的擴展,並通過數據中心網絡(DCN)技術支持跨地域的無縫互聯。二、更大規模的超級節點儘管 CloudMatrix384 擁有 384 個 NPU,規模可觀,但下一代 AI 模型和應用場景預計將需要更大規模的超級節點。以下幾個關鍵因素推動了這一規模增長軌跡:(1)擴展以適應模型演進:隨着 LLM 在參數規模和架構複雜度方面的不斷擴展,爲其提供服務所需的基礎設施也必須隨之發展。未來的模型預計將具有顯著更大的參數數量、更長的輸入序列以及越來越多的稀疏激活專家(sparsely activated experts),尤其是在 MoE 設計中。這些趨勢對每個推理會話中的計算、內存和互連帶寬提出了越來越高的要求。此外,新興的架構模式,例如用於專門推理的模塊化子網絡、檢索增強生成或混合密集/稀疏計算,要求模型組件之間更緊密的耦合,從而增加模型內部的通信和同步。高效支持這些工作負載需要將計算和內存共置在一箇緊密集成的超級節點內,以最大限度地減少通信延遲並保持高吞吐量。因此,擴展超級節點容量至關重要,這不僅是爲了滿足原始資源需求,也是爲了維持下一代LLM所需的細粒度局部性和性能特性。(2)提升資源分配效率:擴展超級節點規模還可以提高實際異構工作負載條件下系統範圍的資源利用率。基於實際生產跟蹤,我們將每個AI任務建模爲一組緊密耦合的塊,模擬未來的NPU請求模式。每個塊都是一組連續的NPU,必須在單個超級節點內進行配置,以滿足作業內部的帶寬和延遲限制。如圖24所示,更大的超級節點在各種平均塊大小範圍內始終能夠實現更高的NPU分配率。例如,當平均塊大小爲 10.08 時,384 個 NPU 超級節點的分配率超過 94%,而 224 個 NPU 超級節點的分配率則降至 91% 以下。這一改進源於碎片化的減少和更好的統計複用——更大的資源池可以爲非均勻大小的作業提供更大的部署靈活性。相反,對於固定的超級節點大小,增加塊大小會導致分配效率降低,因爲打包(Packing)難度較大。當平均塊大小達到 11.28 時,224 個 NPU 超級節點的分配率降至 85% 以下。這些結果表明,在實際工作負載分佈下,擴展超級節點規模可顯著提高系統吞吐量和效率。(3)幾乎恆定的攤銷網絡成本:擴大超級節點規模並不會必然導致每個 NPU 的網絡成本增加。假設網絡架構相同,例如雙層 Clos 類交換拓撲,只要配置實現了交換機端口的充分利用,每個 NPU 的網絡基礎設施攤銷成本在不同規模的超級節點之間幾乎保持不變。如表 11 所示,192、288 或 384 個 NPU 的配置均可實現 100% 的交換機利用率,且每個 NPU 的攤銷交換機成本相同。中等配置(例如 256 或 352 個 NPU)的交換機利用率較低,會略微增加每個節點的成本。這些結果表明,將超級節點規模擴展到給定交換層的上限不會帶來額外的成本開銷,因此從網絡角度來看,這是一種經濟高效的策略。(4)適應日益增長的資源異構性:未來的人工智能工作負載將需要在同一執行環境中獲得日益多樣化的硬件支持。除了 NPU 和 CPU 之外,下一代超級節點還可能集成專用加速器,用於執行物理模擬、實時視頻處理、無損數據壓縮和加密計算等任務。這些單元正在成爲端到端人工智能流水線的重要組成部分,尤其適用於多模態或特定領域的應用。爲了高效利用這些異構資源,它們必須共享相同的高帶寬、低延遲互連結構,並能夠作爲超級節點內的一流計算對等體進行訪問。要大規模地支持這種多樣性,需要擴展超級節點的規模和更靈活的互連架構,這進一步強化了向更大、更異構的計算域發展的趨勢,這些計算域可以處理緊密耦合、跨功能的人工智能工作負載。三、CPU 的物理分解和池化雖然當前的 CloudMatrix384 超級節點已經通過從其計算節點(每個節點集成 4 個鯤鵬 CPU 和 8 個昇騰 NPU)池化 CPU 和 NPU 實現了一定程度的資源靈活性,但 CloudMatrix 架構未來的一箇關鍵方向是更根本的 CPU 和 NPU 資源的物理分解,如圖 1 所示。這設想了一箇由不同的專用節點類型構成的超級節點:以 NPU 爲中心的節點,密集部署 AI 加速器;以及以 CPU 爲中心的節點,提供強大的通用計算、內存容量和 I/O 功能。這些異構節點類型將通過高帶寬、低延遲的 UB 網絡平面互連,從而在超級節點級別實現細粒度、靈活且可擴展的資源池化。物理分解的動機源於固定節點配置中傳統 CPU-NPU 配對的僵化性,其中靜態的 NPU 與 CPU 比率限制了系統匹配工作負載需求的能力。例如,某些推理工作負載需要密集的 CPU 預處理/後處理或大量內存支持的緩存,導致即使 NPU 空閒,也會出現 CPU 瓶頸。相反,訓練工作負載可能會使 NPU 飽和,而 CPU 資源卻未得到充分利用。在這種情況下,緊密耦合的 CPU-NPU 配置會導致硬件利用率不理想,並且擴展不靈活。儘管 CloudMatrix384 的點對點 UB 拓撲已經將邏輯資源與分配解耦,從而實現了跨超級節點的靈活 CPU-NPU 匹配,但將 CPU 和 NPU 資源物理地分離到專用資源池中可以釋放更多優勢:(1)獨立且優化的擴展:可以開發物理上獨立的以 NPU 爲中心的節點(例如,使用最小的本地 CPU 進行基本管理,但最大化 NPU 密度)和以 CPU 爲中心的節點(例如,擁有多箇 CPU 核心、大容量 DRAM 和豐富的 I/O 選項,作爲超級節點的主要 CPU 和內存資源池)。這使得 NPU 計算能力和超級節點的通用 CPU/內存容量能夠獨立且更經濟地擴展。數據中心運營商可以構建具有高度可變的 NPU、CPU 和內存比例的超級節點,並根據主要工作負載進行精確定製(例如,NPU 密集型用於訓練,CPU/內存密集型用於數據密集型預處理或大規模 EMS 緩存)(2)增強的資源利用率和專業化:專業化的節點設計允許針對主要資源類型進行硬件優化。 NPU 節點可以專注於加速器的供電和冷卻,而 CPU/內存節點可以針對內存密度、I/O 帶寬或特定的 CPU 指令集進行優化。這可以提高整體效率。未來服務系統增強隨着底層超級節點架構的不斷髮展,LLM 服務系統必須協同演進,才能充分利用這些功能。一箇關鍵方向是超越粗粒度分解(例如預填充-解碼分離),轉向更細粒度的組件級分解和智能自適應部署策略。這些方法旨在提高資源利用率、提升吞吐量,並支持日益異構的工作負載和硬件配置。一、組件級分解CloudMatrix384 採用的預填充-解碼-緩存分解的點對點服務架構已被證明能夠有效地分離 LLM 推理的主要階段。然而,通過將模型執行分解爲更細粒度的組件,可以實現進一步的改進,這些組件可以獨立管理、部署和擴展。我們重點介紹兩個新興方向:(1)解碼-注意力機制分解與卸載:雖然預填充實例受計算限制,而解碼實例通常受內存限制,但 Adrenaline 系統 表明,通過將內存密集型注意力計算從解碼路徑中分解出來並將其卸載到未充分利用的預填充實例,可以實現額外的性能提升。這種方法提高了整體內存帶寬利用率,並支持更大的解碼實例批處理大小,從而提高了計算效率。它依賴於低延遲同步、精心安排的卸載任務共置以及服務等級目標 (SLO) 感知的卸載策略。其結果是在不影響延遲的情況下提高了吞吐量,這體現了注意力分解如何釋放現有服務部署中的潛在容量。(2)注意力機制和 MoE 分解:大規模 MoE 模型由於稀疏的專家激活和極端的內存需求,面臨着獨特的挑戰。MegaScale-Infer 建議將注意力機制和專家組件分解爲獨立的執行服務,從而支持不同的並行策略和硬件映射。處理每個 token 的注意力層使用數據並行部署在內存優化的節點上,而專家 FFN 則通過專家並行分佈在專用資源池中。這種分解執行減少了爭用,提高了吞吐量,並允許注意力機制和專家資源的獨立擴展,這對於高效地服務於萬億參數的 MoE 模型至關重要。總而言之,這些分解技術代表着一種轉變,即將 LLM 視爲松耦合微服務的集合,每個微服務都有不同的性能配置文件。這種粒度可以更好地映射到異構硬件,並提高超級節點的負載平衡和可擴展性。二、混合自適應部署一旦將LLM推理分解爲可視爲細粒度微服務的組件,例如注意力執行、FFN計算、KV緩存管理或MoE專家門控,服務系統將獲得顯著的靈活性,從而採用更復雜的部署策略。這些混合自適應部署模型使系統能夠根據每個組件獨特的計算和內存需求定製資源分配,從而提高整體利用率和可擴展性。1) 硬件感知的微服務佈局:每個微服務都可以根據其性能狀況映射到最合適的硬件類型。例如,通常受內存帶寬限制的注意力層應優先在具有高內存吞吐量的NPU上運行;計算密集型的FFN模塊則受益於在具有強大計算能力的NPU上分配;而輕量級或延遲容忍操作(例如KV緩存索引)可以卸載到池化CPU或低成本的通用加速器上。這種細粒度的匹配能夠更高效地利用異構硬件,並在不影響性能的情況下降低成本。2) 混合微服務共置:分解後的微服務也可以動態地共置,以提高整個超級節點的資源利用率。例如,可以將解碼階段中受內存限制的注意力操作卸載到內存利用率較低的預填充實例。這種混合共置策略有助於緩解資源瓶頸,提高跨階段的利用率,並增加有效的系統吞吐量,尤其是在多變或突發性工作負載下。3) 微服務的自適應和獨立擴展:微服務分解的一箇關鍵優勢是能夠根據實時工作負載特性獨立地擴展每個組件。例如,在處理長上下文輸入期間,注意力微服務可能會承受更高的負載,並相應地進行擴展,而無需額外的 FFN 或專家資源。這種粒度可防止系統過度配置,並允許系統彈性地適應工作負載的動態變化。爲了充分利用這些功能,服務基礎設施必須包含一箇複雜的編排層,該層能夠持續分析系統負載、預測性能瓶頸,並做出實時的、基於服務等級目標 (SLO) 的調度和擴展決策。該編排器充當混合部署模型的控制平面,確保即使工作負載和資源可用性發生波動,也能滿足性能保證。總而言之,由組件級分解支持的混合和自適應部署策略代表了 LLM 服務系統設計中一箇充滿希望的前沿領域。它們能夠實現更精確的資源利用、跨異構硬件的無縫負載平衡,並能夠滿足日益複雜和多樣化的模型架構所帶來的未來需求。結論本文介紹了華爲 CloudMatrix,這是新一代 AI 數據中心架構,體現了華爲對先進 AI 基礎設施的願景。我們特別推薦華爲 CloudMatrix384,它是這一創新架構理唸的首個量產級實現。CloudMatrix384 是一箇 AI 超級節點,旨在高效支持大規模 AI 工作負載,採用完全對等互聯的硬件設計。它集成了 384 個昇騰 910C NPU 和 192 個鯤鵬 CPU,並通過超高帶寬、低延遲的統一總線 (UB) 網絡互連。這種獨特的架構支持動態資源池化、簡化的內存管理和卓越的節點間通信,有效解決了傳統數據中心架構中常見的可擴展性和效率挑戰。利用 CloudMatrix384,我們提出了 CloudMatrix-Infer,這是一箇全面的服務解決方案,它採用點對點服務架構,將推理工作流分解爲不同的預填充、解碼和緩存子系統。該架構通過在所有 NPU 之間實現對共享的分解式內存池的統一訪問,顯著簡化了調度,增強了負載均衡,並優化了資源利用率。我們進一步設計並實現了先進的硬件感知技術,包括大規模專家並行 (LEP)、優化的通信和 MLA 算子、基於微批的流水線和 INT8 量化。這些技術共同提升了 MoE 和 MLA 的計算吞吐量,提高了緩存效率,並顯著提升了整體推理性能。我們對 DeepSeek-R1 模型進行了廣泛的評估,結果表明 CloudMatrix-Infer 實現了卓越的吞吐量,在預填充階段每個 NPU 每秒處理 6,688 個tokens,在解碼階段每個 NPU 每秒處理 1,943 個tokens,同時始終保持每個輸出tokens低於 50 毫秒的低延遲。這些結果對應的計算效率爲預填充階段 4.45 個tokens/秒/TFLOPS,解碼階段 1.29 個tokens/秒/TFLOPS,均超過了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等領先框架的已公佈效率。此外,CloudMatrix Infer 有效地平衡了吞吐量和延遲,即使在更嚴格的 15 毫秒以下 TPOT 限制下也能保持 538 個tokens/秒的吞吐量。INT8 量化策略在各種基準測試中進一步保持了與 DeepSeek 官方 API 相當的準確率。展望未來,CloudMatrix384 的進一步增強呈現出幾個令人振奮的方向。未來的工作包括集成和統一 VPC 和 RDMA 網絡平面,以實現更精簡的互聯互通,擴展到更大的超級節點配置,以及追求更深層次的 CPU 資源分解和池化。此外,更細粒度的組件級分解和自適應部署策略,爲在 AI 數據中心基礎設施中實現更高的靈活性、效率和可擴展性提供了有希望的途徑。總而言之,我們的研究結果表明,華爲 CloudMatrix 是一箇高效、可擴展且性能優化的平臺,可用於部署大規模 AI 工作負載,爲未來 AI 數據中心基礎設施樹立了標杆。*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4068期內容,歡迎關注。加星標??第一時間看推送,小號防走丟求推薦 (本文内容不代表本站观点。) --------------------------------- |