国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

松耦合組件式GPU生態遷移適配系統研究

數碼
TIME
2023-12-21 10:25
通信世界全媒體
分享

在英偉達GPU芯片進口受限的大環境下,AI-GPU算力芯片及其他算力芯片的國產化替代,是當前我國AI產業發展的必經之路。雖然當前國內各大廠商都推出了各具特色的GPU芯片,但英偉達公司在長期發展過程中構建了除算力芯片外的CUDA(Compute Unified Device Architecture,統一計算架構)軟件生態,這也構成了英偉達GPU芯片的核心競爭力。因此,目前主流AI應用均以英偉達CUDA軟件生態為基礎進行構建,且工業界使用的框架以PyTorch為主、學術界以TensorFlow為主,但隨著國產GPU算力的崛起,以華為為代表的Ascend芯片及MindSpore框架也在逐漸占據市場。

筆者通過對上述生態框架以及當前業內測試結果的分析,發現不同的芯片需與底層算子生態及上層應用框架進行綁定,否則很難充分發揮AI芯片的硬件性能。但如果大量AI應用直接采用重構或完全重寫的方式進行生態遷移,不僅成本巨大,而且耗時良久,因此迫切需要一種低成本的應用遷轉系統,通過系統平臺來助力用戶的AI應用完成算子生態適配和遷移,并實現國產化替換及其他生態應用的備份。

本文在研究AI應用框架、算子生態的基礎上,結合軟件工程理論和系統設計理論,設計了一種松耦合組件式的GPU生態遷移適配系統。與當前已有編程語言轉換系統相比,本系統擴展了應用邊界和轉換系統的適配性,充分應用當前的AI GPU場景,支持主流的AI應用框架PyTorch、TensorFlow,生態遷移方面支持英偉達CUDA與華為CANN、AMD ROCM之間互轉,可以適配國內70%以上的生態遷移場景。

AI算子生態與遷移轉換系統

對于當前的GPU算力芯片、AI應用框架及生態算子庫,本文給出簡要的介紹和分析,并給出當前行業跨生態、跨編程語言的遷移系統進展情況。

在目前的GPU生態中,CUDA占據了90%以上的應用市場份額。CUDA是英偉達提出適用其GPU的一種通用并行計算平臺,相比傳統CPU能有效解決更復雜的計算問題。CUDA被廣泛應用于科學計算、圖像處理、機器學習、AI等領域,在AI領域深度學習的主流框架(如TensorFlow和PyTorch)支持使用CUDA進行加速。

對標英偉達的CUDA,華為推出了CANN——一種針對華為加速卡在AI場景下的異構計算平臺。該平臺與CUDA定位相似,對上支持PyTorch、TensorFlow、MindSpore等多種AI框架,向下對用戶屏蔽華為系列化芯片的硬件差異,通過豐富的軟件棧功能滿足用戶全流程、全場景的需求。

ROCM則是基于開源項目的AMD GPU計算生態,由AMD開發,對標CUDA。ROCM提供了一組驅動程序、開發工具和API的集合,支持從低級內核到最終用戶應用程序的GPU編程。與前述平臺相似,ROCM支持上游TensorFlow等主流AI框架,向下也屏蔽AMD的硬件。由于其具有開源、跨平臺和兼容性強等優勢,被廣泛應用于大型語言模型、圖像識別、自動駕駛等AI場景。

關于生態算子遷移工作,目前行業主要有如下幾個方面:在算子映射方面,因為當前主流的生態基于CUDA,所以將CUDA算子映射為ROCM或華為CANN算子就成為普遍做法。算子映射需要對異構GPU的底層算子及異構GPU的架構進行轉譯,才能保證轉換后的算子能夠正常工作。

在框架適配方面,以華為GPU為例,為了更高效地使用AI框架,需要將原CUDA下主流TensorFlow、PyTorch框架開發的代碼遷移至華為MindSpore框架。

在性能優化方面,需要對轉換后的算子進行性能優化。大部分算法在經過算子映射后都存在一定程度的精度損失,為了盡量減少精度損失,需要對映射后的算子進行優化,確保遷移后的算子能夠在新的生態系統中高效運行,其包括優化算法、優化數據結構、優化并行性等方面。

以下是目前業界對生態遷移框架適配的一些技術介紹:有的研究者針對目前CUDA轉CANN算子的迫切需求,在深入研究PyTorch和Mindspore標準接口和運行機理的基礎上,采用一種分層解耦的系統框架設計,實現了PyTorch代碼向MindSpore代碼的轉換;有的文獻則給出了在應對復雜AI應用程序時,軟件系統的必要設計模塊和所需功能要素考慮點,為本文所述的適配體系提供了參考。

綜合業內生態現狀和業界研究進展,本文提出的松耦合組件式生態遷轉系統具有普適性,支持的生態算子、AI框架更加多樣,且可按需進行自定義配置和擴展,通過多循環流程的支持可以達到“系統一鍵遷移直接可用”的狀態。

松耦合組件式生態遷轉系統

本文提出的松耦合組件式生態遷轉系統架構如圖1所示。系統分為用戶AI應用模塊、接入驗證模塊、解析模塊、核心遷移適配組件模塊、應用評估模塊、二次修正模塊和結果模塊。其中,用戶以TensorFlow、PyTorch或其他如MindSpore等框架編寫的AI應用均支持以源碼進行接入和轉換,轉換和遷移適配模塊為組件化松耦合設計,可按需擴展,如當前系統可按需配置ROCM轉換組件、CANN轉換組件以及CUDA轉換組件。此外系統充分考慮當前不同生態的巨大差異和遷移適配系統的局限性,按需設計添加了應用評估模塊和二次修正模塊,用戶可以在完成自動化遷移后進行效能評估和二次手動修正,保證了平臺遷移適配后應用的可用性和可靠性。

圖1 松耦合組件式生態遷轉系統架構

用戶AI應用

用戶已有AI應用,如采用PyTorch、TensorFlow、MindSpore或其他編程語言編寫的圖像、文本、音頻的AI算法,對于用戶來說屬于已知信息,包括采用編程框架、底層適配算子生態。該部分以源代碼形式進行提供,并提供上述應用的元數據信息,如框架類型、版本、生態類型、GPU芯片基本信息以及依賴信息等。

接入驗證模塊

接入驗證模塊在接收到用戶AI應用程序源代碼及其元數據信息后,會進行程序信息分析和代碼校驗,接入校驗內容包括應用程序的完備性、基礎信息的完備性、代碼框架版本以及其依賴信息的完整性,如若是PyTorch代碼將檢查版本、目標生態庫(CUDA、ROCM或其他),并進行首次的程序語法校驗以及框架程序預編譯,檢查是否支持應用程序的代碼、是否滿足應用程序的依賴項、應用程序是否可以正常運行等。若編譯失敗則進行告警和反饋,直至驗證通過。

解析模塊

解析模塊負責解析用戶AI應用程序的源代碼。該模塊將識別應用程序中使用的算子和操作,并生成算子轉換和生態適配所需的信息。此外,解析模塊還會根據用戶提供的源代碼、元數據信息進行應用環境分析和校驗,并根據用戶需求進行平臺目標生態校驗,比如來源CUDA生態目標遷移轉換為CANN生態,框架算子由PyTorch轉換為MindSpore,將進行解析和平臺自檢,若不通過則進行告警和反饋,直至解析調整后通過。

核心遷移適配組件模塊

核心遷移適配組件模塊是系統的核心模塊,根據源應用需求和目標遷轉需求,將應用進行算子和框架轉換,該模塊使用算子轉換器和生態適配器等工具來完成轉換和適配工作。核心遷移適配模塊為插件式設計,當前已有ROCM轉換器、CANN轉換器、CUDA轉換器等,后續將支持其他生態插件適配器。其中,轉換模塊主要完成AI框架的互遷移和底層算子遷移。在完成內部遷移后會自動進行對應目標的系統測試。若測試不通過則進行告警和反饋,并將遷轉結果進行代碼層級展示和輸出。

應用評估模塊

應用評估模塊負責評估轉換后應用程序的性能和準確性。該模塊將使用基準測試和測試數據來評估應用程序的性能,使用模型驗證方法評估應用程序的準確性。該模塊以轉換模塊輸出為輸入,用戶按需進行自定義的評估測試并輸出結果,評估方式有通用或特定應用的基準測試、自定義測試等。

二次修正模塊

由于生態算子、應用框架的巨大差異性,根據系統實測,對于常見AI場景應用(如圖像識別、文本情感分析、音頻合成TTSR等算法),基于TensorFlow、PyTorch編寫的程序在轉換成MindSpore等框架時,往往只有70%以上的成功率,因此核心遷移適配組件模塊適配后的結果通常需要二次修正。本模塊采用遠程IDE功能進行遷轉后的文件在線編輯和修改,對不支持的目標算子進行修改和替換,對程序語法錯誤和框架函數進行二次修正,直至目標遷轉算法可正常編譯及運行。結果模塊結果模塊負責評估經二次修正后的應用程序的性能和準確性。該模塊將采用與應用評估相同的方法,評估應用程序的性能和準確性。生態遷移平臺支持在目標遷移環境上(如英偉達GPU集群、華為Ascend集群等)運行,根據運行狀態和運行結果進行遷轉效果評估,輸出生態適配及運行結果。

本系統的核心流程模塊需多次循環迭代,如圖2所示,自校驗解析起,核心遷移適配與二次修正均采用正反循環流的方式進行處理,通過多輪迭代直至目標遷移完成,通過“自動化+人工修正”的方式保證生態遷移過程的完備性和準確性。據筆者實測,一般可在5輪次左右完成大部分AI應用的跨算子生態遷移。

圖2 系統核心流程及迭代

面對當前GPU算力芯片百花齊放,而芯片軟件生態卻遠落后硬件的情況,特別是在國外算力芯片“卡脖子”的情況下,本文探究了一種松耦合組件式生態遷轉系統,能夠輔助用戶應用代碼完成多種底層GPU算子生態庫的自動轉換。該系統目前支持CUDA生態遷轉CANN生態或ROCM生態。其中,針對CANN生態當前已完成天影視頻相關算法的適配。天影是中國聯通的一個智能視頻云,天影通過該系統已完成15條常用視頻算法在華為硬件上的遷移適配,支撐近百路智能攝像頭業務。

總而言之,本系統平臺的研究可以節省大量的生態遷移工作步驟,使得GPU算力芯片生態不再成為限制AI廣泛應用的一大難題。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關熱點

  新華社北京12月20日電(記者張泉)多機器人協同作業優化技術、人工智能輔助軟件自動開發、海水直接制氫技術研究、動力電池快速充電及管理技術……20日發布的《全球工...
業界
  12月19日消息,面向即將到來的2024年,國際學術期刊《Nature》為我們梳理了2024年值得關注的九大科學事件,讓我們一起看看都有哪些吧!  事件一:人工智能的進步(AI advanc...
業界

相關推薦

1
3