国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

面向GPU算力縱向擴展的Scale-up網絡技術研究

數碼
TIME
2025-07-10 11:20
通信世界網
分享

摘要

Scale-up網絡是算力資源縱向擴展網絡,用于提供高帶寬、低時延與高可靠的GPU互聯網絡,壓縮GPU之間的通信開銷,提高算力資源利用率。本文分析了Scale-up網絡的技術要求,指出當前RoCE v2與PCIe都不能完全滿足Scale-up網絡的技術要求,需要從物理層、鏈路層及事務層等各個層面做優化。系統梳理了Scale-up網絡國內外最新的標準化進展,并對未來Scale-up網絡趨勢做出預判。

關鍵詞

智算網絡;并行計算;縱向擴展;大模型;內存語義;計算-通信融合

引言

AIGC爆發式發展對基礎設施的需求日益增長。過去5年,從BERT到GPT-4,數據規模增長了約4000倍,參數規模增長了約1.6萬倍。隨著大模型參數量突破萬億級,當前大模型的數據量遠超單臺1機8卡GPU服務器計算能力,必須要把數據處理和存儲分散到多個GPU中,需要千卡萬卡構建的GPU集群來做支撐。GPU集群有兩種算力資源的擴展策略:縱向擴展Scale-up和橫向擴展Scale-out,具體選擇取決于訓練或推理場景對算力密度、互聯帶寬及擴展規模的需求差異。

本文詳細描述了Scale-up網絡的高帶寬、低時延與高可靠性的技術要求,應對這些技術要求Scale-up網絡需要在物理層、鏈路層及其他層實現的各項關鍵技術,指出了Scale-up網絡的技術路線,簡要介紹了當前UALink、OISA等標準協議,并對未來Scale-up網絡技術趨勢進行的研判。在性能需求與生態開放的雙重驅動下,隨著開放標準協議制訂完成與產業生態的成熟,Scale-up網絡正在重塑下一代AI算力基礎設施格局。

Scale-up網絡技術要求

大模型需要采用多機多卡集群的方式進行訓練,主流的并行訓練方式有數據并行、模型并行(張量并行、流水線并行)、專家并行等。張量并行和專家并行的并行計算方式,每次迭代數據量達幾百GB,GPU互聯需要超高帶寬和極低時延,以壓縮GPU之間的通信開銷成本,此時縱向擴展成為必然——Scale-up網絡是一種追求極致性能的算力資源縱向擴展網絡。

表1主流并行計算方式及算力資源擴展策略

1.1高帶寬

算力、算據、算法需求在大模型時代呈現爆炸式增長,傳輸鏈路帶寬的提升速度遠遠落后于AI算力的快速增長。參數量、數據量的指數級增長帶來的內存墻問題。

由于內存的讀寫速度相對較慢,處理器在等待數據從內存中讀取或寫入時會出現空閑狀態,從而限制了系統的性能,即使增加處理器數量和核數,也無法有效提高整體的計算能力。高帶寬是解決內存墻問題的關鍵,也是Scale-up網絡面臨的挑戰。

圖1 AI與內存墻

圖2 并行計算計算-通信耦合

Scale-up網絡需要多大帶寬?這個問題需要考慮單GPU的吞吐量單GPU的計算吞吐量、通信數據量和訓練流程設計來綜合評估。假設計算時間可以與通信時間完全重疊,則可近似計算出所需帶寬下限:

B=D×N/T(單位:GB/s)

其中,

B:網絡帶寬需求,單位為GB/s。

D:單次通信的數據量(如梯度、參數同步量),單位為GBytes。

T:單次迭代的計算時間(即GPU完成一次前向+反向傳播的時間),單位為秒。

N:通信頻率(即單次迭代中需要通信的次數,例如梯度同步次數)。

實際場景中,通信時間和計算時間不可能完全重疊,通信時間還會受協議開銷、網絡延遲、并行通信的效率等因素影響。PCIe帶寬已不能滿足Scale-up網絡的帶寬需求,為了解決這個問題,英偉達開發了NVLink總線。

1.2低時延

Scale-up網絡的設計目標是實現細粒度的計算-通信融合,需要低時延的核心原因在于其底層硬件架構和協議設計直接支持內存級操作與計算任務的無縫協同。具體如下:

Scale-up需要支持細粒度的內存語義通信,GPU需要基于Load/Store/Atomic等內存級操作協議,通過Scale-up網絡直接訪問遠端顯存,實現類似本地內存的讀寫效率。若延遲過高,會導致數據同步阻塞,拖慢訓練效率;

◆在多GPU并發更新參數時,梯度累加等操作需快速完成以避免數據競爭。高延遲會破壞全局一致性,引發訓練錯誤;

◆GPU采用多種方法隱藏通信開銷。若Scale-up網絡延遲過高,通信時間超過計算時間,會導致GPU計算形成空泡。

網絡時延可以分為靜態時延和動態時延兩部分。靜態時延包括信號傳輸、轉發和交換時延,與互聯及設備性能相關;動態時延與網絡吞吐量和利用率等相關,受網絡負載和流量控制策略的影響,會隨時間和網絡狀態變化。通常要求Scale-up網絡時延控制在1us以下。根據Nvidia技術白皮書及IEEE等相關論文研究,RoCE v2直連顯存到顯存時延超過1.5us,這個時延已影響到高性能GPU的算力利用率。

1.3高可靠

高可靠性是Scale-up網絡的基本需求,因為計算任務的確定性,網絡異常都會導致計算時長增加甚至無法完成任務。

首先,Scale-up網絡支持GPU間內存原子操作(如梯度累加,需依賴原子操作保證多節點數據一致性),單次網絡傳輸錯誤可能引發全局數據不一致,導致模型收斂失敗。

其次,Scale-up網絡是細粒度的計算-通信強耦合,反向傳播梯度同步需在微秒級窗口完成,網絡擁塞、丟包或重傳會破壞流水線并行節奏,使整體計算效率下降。

第三,保障持續訓練任務不中斷。AI大模型訓練通常需數千GPU連續運行數周,單次網絡中斷可能導致數天計算資源浪費。

綜上,Scale-up網絡是細粒度的計算-通信強耦合,需滿足高帶寬、低時延、高可靠技術要求,以壓縮通信開銷,以解決傳統網絡架構面臨算力墻、通信墻、能耗墻問題。

表2 Scale-up網絡技術要求

Scale-up網絡關鍵技術

應對Scale-up網絡高帶寬、低時延、高可靠的技術要求,需要從物理層、鏈路層、以及事務層等其它上層逐層分析。

圖3 Scale-up網絡關鍵技術分層分析

2.1物理層

Scale-up網絡物理層首先要考慮帶寬問題。GPU采用提升Serdes速率和擴展連接數來來緩解內存墻問題,讓GPU算力發揮最大效能。例如英偉達單GPU帶寬已達到1.8TB/s帶寬。目前單Serdes速率已達到224Gb/s,未來向448Gb/s演進。但是電互聯的速率以及連接數量受到晶圓面積和工藝的限制,已逐漸接近物理極限,未來可考慮芯片直接出光,采用光互聯的方法,進一步提升Scale-up網絡帶寬。

其次,Scale-up網絡物理層需要針對時延優化。Scale-up網絡靜態時延與通信距離和FEC等鏈路固有特性相關。電連接或光連接傳輸時延大約為5ns/m,單機柜內64個GPU連接距離不超過3m,而1024個GPU需要部署16個機柜,連接距離在30m以內,這將帶來150ns時延。因此Scale-up網絡需要限定通信距離。

FEC是一種在鏈路中增加數據冗余從而減少數據傳輸錯誤的技術,增加了數據冗余的同時也增加了傳輸時延。RS(544,514)是高速網絡中常用的FEC方案,適用較長的通信距離。在通信鏈路質量良好的情況下,Scale-up網絡更短的通信距離可采用輕量化FEC,從而降低時延。

圖4 Scale-up網絡物理層優化

網絡拓撲也會影響到Scale-up網絡時延。Scale-up網絡中每增加一層交換,就會增加一次轉發時延。因此Scale-up網絡需盡可能減少網絡層數,優先選擇單層交換網絡。

2.2鏈路層

相對標準以太網或者PCIe總線,Scale-up網絡需要在協議上精簡,以降低協議開銷。在超節點內部場景中,NVLink的傳輸效率可達94%,以太網在256Byte payload下的理論傳輸效率為約為82%。以太網UDP/IP頭部在超節點內場景不是必須選項。

采用固定幀長報文,統一內存編址,極簡報文格式,極簡鏈路層設計,可簡化和降低數據報文處理時延,減少晶圓處理邏輯。

流控機制對Scale-up網絡通信延遲有顯著影響。基于優先級的流控PFC通過優先級暫停機制保障高優先級業務無損傳輸,但對低優先級流量可能引入較大延遲抖動;基于Credit的流控CBFC通過鏈路級信用機制實現零丟包,結合自適應路由優化帶寬利用率。相較而言,CBFC更適合需要低延遲特性的Scale-up網絡。

圖5 基于Credit的流控機制

2.3事務層/傳輸層

計算單元需要內存語義。原生內存語義通常指的是在編程語言或框架中,直接使用和控制計算機內存的機制和規則,基本操作是Load/Store/DMA等。RoCE與RDMA網絡都是基于消息語義,不是專為load-store操作設計。RDMA網絡支持內存語義時,需要內存拷貝、多層協議棧轉換,軟硬件均有較大開銷。在擁塞控制與流量管理、協議開銷、一致性與可靠性等方面,和支持原生內存語義的總線存在本質的差異。

引用的論文數據表明,原生內存語義通信效率是RDMA消息語義的1.76倍。因此RoCE和RDMA都是針對Scale-out的網絡擴展方案,并不適用于Scale-up網絡。為了支持內存語義,業界正在制定全新的Scale-up網絡協議,將事務層/傳輸層極大簡化。但在新的Scale-up網絡協議生態成熟之前,基于RoCE的Scale-up網絡仍將存在一段時間。

圖6 內存語義和消息語義

Scale-up網絡技術路線

Scale-up網絡的概念提出以來,業界提出兩種技術路線:一種是基于以太網優化,另一種是設計新型總線。針對Scale-up網絡,頭部廠商同時具備GPU設計和Scale-up網絡能力,推行自研路線和私有協議,包括英偉達的NVLink、華為的UB等。基于開放標準的Scale-up網絡有基于以太網、基于總線等多種協議,相關技術標準和生態發展迅速,為GPU產業的群體突破提供支撐。

表3 基于以太網和基于總線的Scale-up網絡協議

未來趨勢:技術融合與性能突破

Scale-up網絡開放標準的競爭是生態的競爭。

基于以太網的Scale-up網絡具有生態先機,以其標準開放和生態成熟優勢,成為國內GPU廠商的現實選擇。考慮到生態成熟度及安全可控需要,未來基于以太網的Scale-up網絡仍將是國內市場主流。但基于標準以太網的Scale-up網絡在內存語義、傳輸時延、傳輸效率等方面不能完全滿足GPU大規模互連互聯需求,需要根據Scale-up網絡需求進行針對性的優化。

基于總線的Scale-up網絡在內存語義、傳輸時延、傳輸效率等技術較優,但標準、芯片、交換設備不完善,未來生態有待觀察。

基于以太網的Scale-up網絡與基于總線的Scale-up網絡正在技術上演進相互融合,例如基于以太網的Scale-up網絡開始支持內存語義,而UALink總線采用了類似以太網的物理層,可以更好地利用以太網的線纜與光模塊等PHY層產品生態。Scale-up是計算資源的縱向擴展,通過突破硬件的性能瓶頸與細粒度的計算-通信融合提升單節點的性能;而Scale-out網絡是計算資源的橫向擴展,通過增加節點數量來擴展集群的能力,是粗粒度的計算-通信融合。

Scale-up與Scale-out在技術、成本與場景的差異決定了兩者將長期互補共存,在可預見的未來不會走向統一,但不排除在技術和架構演進中會深度融合,形成更靈活的混合擴展模式。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關推薦

1
3