近日,在2024中國生成式AI大會上,中國移動研究院網絡與IT技術研究所技術經理陳佳媛受邀參加中國智算中心創(chuàng)新論壇,以《全向智感-GPU卡間高速互聯(lián)技術探討》為主題發(fā)表演講,系統(tǒng)性闡述大模型突破萬億大關,智算基礎設施進一步向超節(jié)點形態(tài)升級,GPU卡間互聯(lián)技術的發(fā)展趨勢,并提出中國移動原創(chuàng)的GPU卡間互聯(lián)架構——全向智感OISA(歐薩),邀請業(yè)界合作伙伴共建GPU開放互聯(lián)技術體系,助力國產智算能力整體升級。
當模型邁向萬億甚至十萬億規(guī)模,模型結構引入MoE(Mixture of Expert)專家系統(tǒng)。MoE的稀疏化結構可以使得模型在保持參數(shù)量和計算規(guī)模的同時,顯著提高訓練效率,降低成本,增強泛化能力。MoE算法的實施也引入了全新的AlltoAll通信需求,具體表現(xiàn)為單次通信數(shù)據(jù)量少,但是通信頻繁,帶寬和時延要求極高。因此,萬億模型的到來對底層智算設施的構建提出了更高要求,包括百卡級別的高速互聯(lián)系統(tǒng),更加先進、高效的交換拓撲網絡以及支持跨異構芯片的大容量池化內存。
當前國內AI芯片均采用私有化的互聯(lián)方案,在互聯(lián)規(guī)模、拓撲、帶寬、時延等性能方面,均距離國際先進的英偉達NvLink+NvSwitch方案有較大差距,因此當英偉達連續(xù)兩年推出DGX GH200和NVL72等超節(jié)點方案的時候,國內鮮有對標產品出現(xiàn)。
為了助力國內AI芯片升級,在面向大模型訓練、搜廣推等一系列巨量數(shù)據(jù)處理的業(yè)務場景中提出有競爭力的解決方案,中國移動原創(chuàng)提出全向智感OISA——GPU卡間高速互聯(lián)架構,并邀請行業(yè)合作伙伴共建開放標準和協(xié)議。OISA將基于對等通信架構、極簡報文格式、高效物理傳輸和靈活擴展能力等設計理念,構建一套可以支持百卡級別的GPU高速互聯(lián)系統(tǒng),在支持卡間交換拓撲的同時,通過對電接口、聚合技術、報文格式進行優(yōu)化,提高GPU之間的數(shù)據(jù)傳輸效率。中國移動未來將通過IP開放的形式鼓勵國產AI芯片集成高速互聯(lián)接口,提升研發(fā)效率,幫助國產AI芯片快速邁向下一代智算設施的能力建設。