摘要
自ChatGPT發(fā)布以來(lái),科技界掀起了一場(chǎng)大模型的競(jìng)爭(zhēng)熱潮。數(shù)據(jù)成為新生產(chǎn)要素,算力成為新基礎(chǔ)能源,大模型則成為新生產(chǎn)工具,各行各業(yè)從“+AI”向“AI+”的轉(zhuǎn)變已勢(shì)不可擋。隨著模型參數(shù)量從千億邁向萬(wàn)億,模型能力更加泛化,大模型對(duì)底層算力的訴求進(jìn)一步升級(jí),萬(wàn)卡集群成為這一輪大模型基建軍備競(jìng)賽的標(biāo)配。
萬(wàn)卡集群將有助于壓縮大模型訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代,并及時(shí)對(duì)市場(chǎng)趨勢(shì)作出應(yīng)對(duì)。然而,如何在萬(wàn)卡集群中實(shí)現(xiàn)高效的訓(xùn)練,并長(zhǎng)期保持訓(xùn)練過(guò)程的穩(wěn)定性,是將大模型訓(xùn)練擴(kuò)展到數(shù)萬(wàn)張GPU卡上所要面臨的雙重挑戰(zhàn)。
對(duì)此,中國(guó)移動(dòng)于近日發(fā)布面向超萬(wàn)卡集群的新型智算技術(shù)白皮書(shū),白皮書(shū)提出超萬(wàn)卡集群的核心設(shè)計(jì)原則,并在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、平臺(tái)及機(jī)房配套等多個(gè)領(lǐng)域提出關(guān)鍵問(wèn)題和解決方案。
一、背景與挑戰(zhàn)
自ChatGPT面世以來(lái),大模型步入了迅猛發(fā)展期,AI技術(shù)的發(fā)展帶動(dòng)產(chǎn)業(yè)大規(guī)模升級(jí)的同時(shí),也帶來(lái)了對(duì)巨量算力和能源的需求。大模型對(duì)底層算力、空間、水電能源產(chǎn)生極大消耗,對(duì)新一代智算設(shè)施的設(shè)計(jì)要求也日益嚴(yán)苛。新型智算中心相關(guān)技術(shù)將繼續(xù)被推向新的高度。無(wú)論是通信運(yùn)營(yíng)商、頭部互聯(lián)網(wǎng)企業(yè)、大型AI研發(fā)企業(yè)還是AI初創(chuàng)企業(yè),都在通過(guò)自建或使用萬(wàn)卡集群加速其在人工智能領(lǐng)域的技術(shù)突破和產(chǎn)業(yè)創(chuàng)新。隨著萬(wàn)卡集群建設(shè)的不斷深入,我們預(yù)見(jiàn)這一趨勢(shì)將為整個(gè)智算產(chǎn)業(yè)的發(fā)展帶來(lái)深遠(yuǎn)影響。當(dāng)前,萬(wàn)卡集群的建設(shè)仍處于起步階段,主要依賴英偉達(dá)GPU及配套設(shè)備實(shí)現(xiàn)。英偉達(dá)作為全球領(lǐng)先的GPU供應(yīng)商,其產(chǎn)品在大模型訓(xùn)練上有較大優(yōu)勢(shì)。得益于政策加持和應(yīng)用驅(qū)動(dòng),國(guó)產(chǎn)AI芯片在這兩年取得長(zhǎng)足進(jìn)步,但在整體性能和生態(tài)構(gòu)建方面仍存在一定差距。構(gòu)建一個(gè)基于國(guó)產(chǎn)生態(tài)體系、技術(shù)領(lǐng)先的萬(wàn)卡集群仍在極致算力使用效率、海量數(shù)據(jù)處理、超大規(guī)?;ヂ?lián)、高能耗高密度機(jī)房設(shè)計(jì)等方面面臨諸多挑戰(zhàn)。
二、設(shè)計(jì)原則和總體架構(gòu)
在大算力結(jié)合大數(shù)據(jù)生成大模型的發(fā)展路徑下,萬(wàn)卡集群的搭建不是簡(jiǎn)簡(jiǎn)單單的算力堆疊,要讓數(shù)萬(wàn)張GPU卡像一臺(tái)“超級(jí)計(jì)算機(jī)”一樣高效運(yùn)轉(zhuǎn)。超萬(wàn)卡集群的總體設(shè)計(jì)應(yīng)遵循堅(jiān)持打造極致集群算力、堅(jiān)持構(gòu)建協(xié)同調(diào)優(yōu)系統(tǒng)、堅(jiān)持實(shí)現(xiàn)長(zhǎng)穩(wěn)可靠訓(xùn)練、堅(jiān)持提供靈活算力供給、堅(jiān)持推進(jìn)綠色低碳發(fā)展五大設(shè)計(jì)原則。
萬(wàn)卡集群的總體架構(gòu)由四層一域構(gòu)成(如圖1),四層分別是機(jī)房配套、基礎(chǔ)設(shè)施、智算平臺(tái)和應(yīng)用使能,一域是智算運(yùn)營(yíng)和運(yùn)維域。
圖1 面向超萬(wàn)卡集群的新型智算總體架構(gòu)設(shè)計(jì)
三、關(guān)鍵技術(shù)
集群高能效計(jì)算技術(shù):隨著大模型從千億參數(shù)的自然語(yǔ)言模型向萬(wàn)億參數(shù)的多模態(tài)模型升級(jí)演進(jìn),萬(wàn)卡集群亟需全面提升底層計(jì)算能力。具體而言,包括增強(qiáng)單芯片能力、提升超節(jié)點(diǎn)計(jì)算能力、基于DPU(Data Processing Unit)實(shí)現(xiàn)多計(jì)算能力融合以及追求極致算力能效比。這些系統(tǒng)性的提升將共同支持更大規(guī)模的模型訓(xùn)練和推理任務(wù),滿足迅速增長(zhǎng)的業(yè)務(wù)需求。
高性能融合存儲(chǔ)技術(shù):為了實(shí)現(xiàn)存儲(chǔ)空間高效利用、數(shù)據(jù)高效流動(dòng),并支持智算集群大規(guī)模擴(kuò)展,萬(wàn)卡集群應(yīng)采用多協(xié)議融合和自動(dòng)分級(jí)存儲(chǔ)技術(shù),提升智算數(shù)據(jù)處理效率,助力萬(wàn)卡集群支撐千億乃至萬(wàn)億大模型訓(xùn)練。
大規(guī)模機(jī)間高可靠網(wǎng)絡(luò)技術(shù):萬(wàn)卡集群網(wǎng)絡(luò)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)。業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)一般采用傳統(tǒng)的TCP方式部署,參數(shù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)之間參數(shù)交換,要求具備高帶寬無(wú)損能力。數(shù)據(jù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)訪問(wèn)存儲(chǔ)節(jié)點(diǎn),也有高帶寬無(wú)損網(wǎng)絡(luò)的訴求。萬(wàn)卡集群對(duì)參數(shù)面網(wǎng)絡(luò)要求最高,主要體現(xiàn)在四個(gè)方面:大規(guī)模,零丟包,高吞吐,高可靠。
高容錯(cuò)高效能平臺(tái)技術(shù):智算平臺(tái)的性能通常不能隨著算力線性增長(zhǎng),而是會(huì)出現(xiàn)耗損,因此大模型訓(xùn)練還需要高效的算力調(diào)度來(lái)發(fā)揮算力平臺(tái)的效能。而這不僅需要依賴算法、框架的優(yōu)化,還需要借助高效的算力調(diào)度平臺(tái),根據(jù)算力集群的硬件特點(diǎn)和計(jì)算負(fù)載特性實(shí)現(xiàn)最優(yōu)化的算力調(diào)度,來(lái)保障集群可靠性和計(jì)算效率。針對(duì)以上問(wèn)題,業(yè)界多以斷點(diǎn)續(xù)訓(xùn)、并行計(jì)算優(yōu)化、智能運(yùn)維等作為切入點(diǎn),構(gòu)建高容錯(cuò)高效能智算平臺(tái)。
新型智算中心機(jī)房設(shè)計(jì):面向高密度高能耗智能算力發(fā)展,對(duì)于部署超萬(wàn)卡集群的新型智算中心來(lái)說(shuō),需要在確保智能計(jì)算設(shè)備安全、穩(wěn)定、可靠地運(yùn)行的前提下,具備高效制冷、彈性擴(kuò)展、敏捷部署、綠色低碳等特征,并實(shí)現(xiàn)智能化運(yùn)維管理。
四、未來(lái)展望
隨著數(shù)據(jù)規(guī)模的持續(xù)擴(kuò)大、集群能力的不斷增強(qiáng)以及大模型應(yīng)用的日益豐富,對(duì)新型智算底座的升級(jí)提出了更高的要求。面對(duì)未來(lái),我們呼吁在超節(jié)點(diǎn)、跨集群訓(xùn)練、軟件框架等領(lǐng)域?qū)崿F(xiàn)技術(shù)突破,以強(qiáng)化智算基礎(chǔ)設(shè)施能力。與此同時(shí)持續(xù)探索存算一體、光子芯片等先進(jìn)技術(shù)領(lǐng)域與智算中心的結(jié)合,為下一次信息變革奠定基礎(chǔ)。
點(diǎn)擊鏈接即可下載白皮書(shū)