自2022年11月ChatGPT發布以來,AIGC(生成式人工智能)成為各行各業密切關注的熱點,醫療、金融、交通、通信等領域的AI(人工智能)大模型層出不窮,輿論稱之為“千模大戰”,更有觀點認為“萬模大戰”將是AI產業化的必然趨勢。
新業務的算力之困
與傳統AI側重圖像分類、語言識別、故障診斷等分類預測型任務不同,AIGC更關注如何利用深度神經網絡自動生成新的創作內容,例如創作文章、圖像、音樂等。前者往往在小數據集下也能得到較高準確率的輸出,而后者則需要依賴大規模高質量的訓練數據,海量數據的背后,是算力需求的爆發式增長。
以目前業界分析較多的通用語言模型GPT-3為例,它擁有1750億個參數,僅訓練階段就需要10000張V100GPU持續運行約14.8天,整體算力消耗為625PFlops。而于今年3月發布的GPT-4不僅參數量增加了10余倍,其對應的算力需求也大幅增加。
盡管現階段仍有專家對ChatGPT類語言大模型的可用性提出質疑,但要提升AIGC的性能,最直接且最可行的方案就是增加訓練參數的數量,并投入更多的訓練數據和算力資源,以期待“從量變到質變”的轉變,進而滿足千行百業的需求。
過去,規模效應支撐算力水平持續提升,而伴隨大模型參數量越來越大,智能化程度越來越高,行業對存儲、網絡、計算等底層基礎硬件能力,以及擴展性、靈活性的要求也越來越高。算力建設不能局限于CPU、GPU、NPU等計算芯片的簡單堆疊,如何勘破計算芯片協同的難點與要點,運用多種技術構建資源整合型的超級計算機以提升算力服務水平,是當前產業重要的研究方向。
算力供給模式創新是破局關鍵
在新形勢下,依賴單體算力的傳統供給模式顯然已經難以為繼,以AIGC為代表的新型業務在算力需求和算力應用兩個維度存在明顯差異,這些差異點正是破解大模型時代算力困局的關鍵。
首先,用戶量、訪問速度、訓練模式等成為算力需求的影響因素,因此,在新業務執行的不同階段,對算力的需求各有不同。
以ChatGPT為例,其全生命周期包括數據獲取、模型訓練、模型推理和迭代微調四個階段,對算力的消耗主要集中在模型的訓練和推理兩個階段。在模型訓練階段,大算力用于支持訓練數據處理和海量參數優化等數據密集型操作,對算力基礎設施的運行效率、性能穩定性和彈性擴縮容能力有較高要求;在模型推理階段,大算力主要用于執行前向傳播計算,對算力位置、交互實時性和準確性有較高要求。根據測算,模型訓練所需的算力規模是模型推理的10倍左右,且其對資源的占用周期也遠超后者。
其次,從業務運行周期看,傳統基于CPU的通用計算任務往往對應著相對平滑的負載曲線,且對算力的需求在時間上呈現連續波動的趨勢;而新興業務的算力使用可能出現“短時高量”的特點,這意味著在特定時段,新興業務的算力需求會突然增加到高位水平,后續又會快速收斂到低值。
針對算力需求的脈沖效應,“分時復用”是一種行之有效的資源配置策略。具體而言,借助需求預測和任務調度的方法,在高峰期給新興業務分配更多算力資源,以滿足其高算力需求;而在低峰期則將多余的算力資源重新分配給其他業務或用戶,以提高整體的算力使用效率。
從上述分析可知,為適配新業務的發展節奏,算力資源供給模式亟需從以前的剛性化、“孤島”式、資源式,向彈性化、網絡化和任務式演進。彈性化是資源提供方根據工作負荷進行算力擴展和收縮,當需求增加時,動態增加算力資源以滿足更高的計算要求;當需求減少時,適時釋放空閑算力資源以消納更多用戶。
網絡化是采用網絡手段組織和管理算力資源,將分散在不同地理位置和組織機構間的計算、存儲資源進行有效調配,形成泛在融合的算力供給網絡。任務式是新型算力供給體系的重要特征,算力提供方將自有算力資源以任務的形式發布到算力交易中心,供需雙方可根據業務特點進行匹配和一鍵訂購。同為社會高質量發展的重要驅動力,算力和電力有諸多相似之處,例如電力的調度需要電網作支撐,而算力的調度同樣需要將分布式的算力中心匯聚成“一張網”,因此業內可以借鑒電力行業的發展經驗來構建新型算力供給體系。基于多級、多方、多樣的算力資源新型供給體系如圖1所示。
圖1 基于多級、多方、多樣的算力資源新型供給體系
構建算力供給體系的關鍵技術
在現有多級、多方、多樣算力并存的情況下,將算力供應與算力調配充分解耦,是推動算力資源從高門檻應用到融入千行百業、進入普惠共享新階段的必經之路,也是構建創新型算力供給體系的重要措施。在推進算力提供方、運營方、使用方等供需各環節解耦的過程中,算力度量、算力路由感知、算網編排、算力交易、確定性網絡等技術得到廣泛關注。
算力度量技術旨在量化評估異構算力資源以及多樣化業務需求,通過建立一致的描述語言,在賦能算力流通屬性的同時,為算力的感知、管控、服務提供基礎和標準。將不同芯片提供的算力通過度量函數映射到統一量綱,用戶多樣化的需求映射為實際所需的算網資源,從而實現按需服務,對不同算法的算力需求進行度量,有效調用算法所需的算力。當前業界衡量算力大小通常采用的單位是Flops,即每秒浮點運算的次數,而在現有云計算方案中,則以虛機、容器等粗粒度的衡量單位為主。
算力路由感知技術是實現算力網絡化的核心功能,能夠支持對網絡、計算、存儲等多維度資源、服務的感知與通告,從而實現網絡和算力資源的調度優化。目前的主流方案是將云計算領域的算力因子等概念引入網絡領域,提出綜合算力因子和網絡因子的多重考量方案,再基于BGP、IGP等路由協議報文進行擴展,通過新增路徑屬性來承載算力信息和網絡信息。
算網編排技術是根據網絡感知動態數據,實現算力解構調度、網絡智能選路、資源自動調度開通以及實時端到端透明可視。算網編排將網絡、算力、數據、服務、應用、安全等多要素融合,實現從需求、流程、產品到運維、監控、自服務等多場景的跨云、跨網、跨域、跨用戶編排。
算力交易技術是指將算力提供方的各類算力資源,按需提供給算力消費方,包括對算力消費方的資源需求解析,提供可視化交易視圖、訂單管理等功能。確定性網絡技術不同于傳統IP網絡“盡力而為”的轉發方式,可為網絡提供“準時、準確”的可靠性數據傳輸服務,是構建下一代網絡基礎設施體系、提升數據傳輸服務質量的關鍵技術之一。
結語
未來,隨著算力需求的逐步增長和計算機硬件的不斷發展,大模型的規模和性能將持續提升。高性能的計算環境為大模型的訓練和應用帶來諸多優勢,再配以彈性化、網絡化、任務式的算力供給體系,可以充分盤活算力資源的每一個浮點能力,加速新業務開拓數字經濟新“藍海”。