大模型“百模大戰(zhàn)”初見分曉,AIGC應(yīng)用也如雨后春筍般出現(xiàn),一個(gè)新的AI世界正在來臨。
大模型對(duì)算力的需求極大。Open AI曾預(yù)估,其算力需求每3.5個(gè)月翻一倍,每年近10倍增長(zhǎng)。而根據(jù)中國(guó)信通院等機(jī)構(gòu)的調(diào)研數(shù)據(jù),僅ChatGPT的單日運(yùn)營(yíng)算力消耗就已占2021年整個(gè)中國(guó)智能算力總規(guī)模的3%。
除了基礎(chǔ)大模型,企業(yè)也在訓(xùn)練自己的企業(yè)模型,且訓(xùn)練需求越來越大。應(yīng)用生態(tài)逐漸成熟,大模型推理的算力需求上漲,算力增長(zhǎng)速度與算力供給速度會(huì)出現(xiàn)極大不平衡。
IDC數(shù)據(jù)預(yù)測(cè),到2026年,中國(guó)在人工智能硬件市場(chǎng)的IT投資將超過150億美元。而AMD CEO蘇姿豐在發(fā)布會(huì)上也表示,到2027年,僅數(shù)據(jù)中心AI加速器市場(chǎng)規(guī)模將達(dá)4000億美元。
縱觀整個(gè)AI發(fā)展過程,過去算力需求是以倍數(shù)增加的,如今算力增加呈指數(shù)級(jí)別,如果按照這個(gè)速度增長(zhǎng),未來大模型對(duì)算力的需求增長(zhǎng)速度,將遠(yuǎn)遠(yuǎn)超過半導(dǎo)體增長(zhǎng)曲線。
龐大的算力需求也會(huì)帶來極大的電力消耗。后摩智能聯(lián)合創(chuàng)始人項(xiàng)之初認(rèn)為:“按照現(xiàn)在生成式AI的快速發(fā)展,2027年預(yù)計(jì)英偉達(dá)大概需要提供150萬(wàn)臺(tái)服務(wù)器,每年消耗的電量接近一個(gè)瑞典或荷蘭、阿根廷體量國(guó)家一年的耗電量。在AGI初步實(shí)現(xiàn)的階段,大概需要43個(gè)美國(guó)全年的耗電量,這是地球無(wú)法承受的。”
圖片來源:后摩智能聯(lián)合創(chuàng)始人項(xiàng)之初于WISE2023商業(yè)之王大會(huì)分享
然而,在傳統(tǒng)的馮諾依曼架構(gòu)下,存儲(chǔ)和運(yùn)算是分離的,芯片大概有80%-90%的功耗浪費(fèi)在數(shù)據(jù)的存儲(chǔ)和計(jì)算之間的搬運(yùn),而非計(jì)算上。
此外,當(dāng)大模型逐漸向智能汽車、電腦、手機(jī)等邊緣端下沉,行業(yè)需要能運(yùn)行大模型的算力芯片。
無(wú)論是智能汽車,還是電腦或手機(jī),都對(duì)功耗較為敏感。車無(wú)法像數(shù)據(jù)中心一樣,通過增加空調(diào)、或液冷系統(tǒng)降溫度;手機(jī)、電腦也會(huì)因功耗過高,變得發(fā)燙。
從數(shù)據(jù)安全角度考慮,當(dāng)AI Agent軟件不斷發(fā)展,大模型需要掌握用戶的個(gè)人數(shù)據(jù)訓(xùn)練出符合用戶心意的大模型,這就涉及到數(shù)據(jù)安全問題。用戶需要將數(shù)據(jù)留在本地存儲(chǔ)和運(yùn)算。
存算一體芯片能很好地滿足上述需求。
存算一體芯片的計(jì)算可以直接在存儲(chǔ)器上進(jìn)行,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算,可以極大幅度消除數(shù)據(jù)搬移帶來的數(shù)據(jù)傳輸緩慢、功耗高、搬運(yùn)能耗大等問題。
此外,由于數(shù)據(jù)存儲(chǔ)在本地,計(jì)算直接在存儲(chǔ)中進(jìn)行,它能將用戶數(shù)據(jù)留在本地,保證數(shù)據(jù)安全。且計(jì)算速度遠(yuǎn)快于在云端計(jì)算后再傳回本地,能即時(shí)性滿足用戶的需求。
后摩智能研究存算一體芯片多年,創(chuàng)始團(tuán)隊(duì)有著車規(guī)芯片和AI芯片研發(fā)經(jīng)驗(yàn),對(duì)車端場(chǎng)景和AI都有著較深刻的了解,公司也選擇將芯片落地在汽車場(chǎng)景。后摩智能還透露,公司剛剛完成新一款技術(shù)驗(yàn)證芯片的量產(chǎn)測(cè)試,屬于國(guó)內(nèi)首款基于存算一體架構(gòu)的7nm車規(guī)級(jí)技術(shù)驗(yàn)證芯片,專為Transformer等車端大模型設(shè)計(jì)。該芯片可支持多種高精度數(shù)據(jù)類型,且計(jì)算效率大幅提升,在實(shí)際測(cè)試條件下,相較于全球主流的存算一體產(chǎn)品,存算模塊能效提升了5倍以上。
當(dāng)大模型席卷萬(wàn)物,我們很好奇存算一體芯片在大模型時(shí)代能發(fā)揮的作用,也希望了解車廠對(duì)算力芯片的新需求。
我們邀請(qǐng)了后摩智能聯(lián)合創(chuàng)始人項(xiàng)之初共同討論這個(gè)話題。
以下為經(jīng)編輯全文:
一、大模型帶來巨量算力需求
36氪:以O(shè)penAI為代表的大模型和生成式AI正向端側(cè)發(fā)展,這會(huì)給算力芯片帶來什么新痛點(diǎn)?
項(xiàng)之初:大家最關(guān)注的是芯片的PPA——performance、power,和Area,也就是性能、功耗和尺寸。在大模型時(shí)代下,功耗和存儲(chǔ)墻的問題會(huì)變得更加凸顯。
大模型對(duì)算力的需求變得更大了。算力變大,意味著功耗會(huì)變大。如果說每T算力會(huì)帶來1瓦的功耗,功耗減少變成0.5瓦,甚至0.25瓦,看起來沒有解決多大的問題,但當(dāng)算力不斷攀升,變成1000T、2000T,那功耗能變成1000瓦、500瓦,效果就很明顯。邊緣側(cè)不像數(shù)據(jù)中心,能通過空調(diào)或液冷系統(tǒng)降溫,功耗太高會(huì)直接影響邊緣側(cè)部署大模型。
二是訪存問題,芯片設(shè)計(jì)算力有很大提升,對(duì)應(yīng)的存儲(chǔ)也需要有很大提升。如果存儲(chǔ)不提高,只提升處理器的算力是沒有用的,因?yàn)閿?shù)據(jù)進(jìn)不來。
所以,在大模型帶來的大算力時(shí)代下,功耗和存儲(chǔ)墻的問題都更加凸顯。
36氪:與馮諾依曼架構(gòu)的芯片相比,存算一體芯片有什么優(yōu)勢(shì)?與量子計(jì)算、光芯片相比又有何不同?
項(xiàng)之初:與傳統(tǒng)芯片相比,存算一體芯片的優(yōu)勢(shì),一是上限高,二就是底線穩(wěn)。
上限高是說計(jì)算性能好,功耗更低,成本也更好。基于存算一體架構(gòu),計(jì)算可以直接在存儲(chǔ)上進(jìn)行,數(shù)據(jù)不用反復(fù)搬運(yùn),計(jì)算密度得到了提升。所以在單位計(jì)算面積,反而可以比原來的傳統(tǒng)架構(gòu)更小。由于無(wú)需數(shù)據(jù)搬運(yùn),也能降低功耗。
第二個(gè)是底線會(huì)更穩(wěn),在今天國(guó)際大環(huán)境下,先進(jìn)制程芯片流片可能受到限制。而存算一體用28nm制程可以做出傳統(tǒng)架構(gòu)7nm的效果,這是供應(yīng)鏈的一個(gè)重要保障。
和量子計(jì)算、光計(jì)算這些更前沿的芯片相比,它的優(yōu)勢(shì)是現(xiàn)在就可以商業(yè)量產(chǎn),現(xiàn)在就可以跑邊緣大模型。
圖片來源:后摩智能聯(lián)合創(chuàng)始人項(xiàng)之初于WISE2023商業(yè)之王大會(huì)分享
36氪:在存算一體技術(shù)上,國(guó)內(nèi)外有什么研發(fā)進(jìn)度的差異?項(xiàng)之初:我覺得國(guó)內(nèi)外在一個(gè)水平線上,在存算一體上我們并不落后,甚至還有優(yōu)勢(shì)。今年我們?nèi)ト毡緟⒓訉W(xué)術(shù)會(huì)議,對(duì)于H30已經(jīng)做到256T@Int 8算力這件事,他們是非常驚訝的。特斯拉目前也只是做了近存計(jì)算,沒有做到存內(nèi)計(jì)算。在存內(nèi)這件事上,我們是領(lǐng)先的。
二、存算一體芯片具有算力大、功耗低優(yōu)勢(shì)
36氪:存算一體技術(shù),更擅長(zhǎng)解決什么樣場(chǎng)景和問題?項(xiàng)之初:從技術(shù)底層的架構(gòu)看,它更適合Transformer類的算法,處理大量的矩陣相乘。存算單元可以將模型權(quán)重存儲(chǔ)在里面,將攝像頭、雷達(dá)等傳感器數(shù)據(jù)直接load到芯片里,無(wú)需讀取,直接完成計(jì)算。當(dāng)然,在小算力、低功耗場(chǎng)景,存算一體芯片也具有優(yōu)勢(shì)。
36氪:在存算一體架構(gòu)下,算力會(huì)有上限嗎?
項(xiàng)之初:芯片算力都要受限于晶圓大小。但存算一體的單位算力成本可以做的比傳統(tǒng)架構(gòu)更低,是更有優(yōu)勢(shì)的。其次存算一體解決了訪存問題,它的算力實(shí)際利用率也會(huì)更高。而且我們能夠?qū)崿F(xiàn)在功耗相同的情況下,實(shí)現(xiàn)幾倍于傳統(tǒng)架構(gòu)的性能。
36氪:經(jīng)過多年發(fā)展,存算一體技術(shù)已經(jīng)有了較大發(fā)展和進(jìn)步,您認(rèn)為目前存算一體技術(shù)的成熟度如何?
項(xiàng)之初:存算一體技術(shù)還沒有到最成熟、最好的時(shí)候。它還一直在迭代,不過已經(jīng)完全滿足商業(yè)量產(chǎn)需求了。
我們第一代H30芯片出來后,有很多人不相信我們可以做到256 tops算力,且功耗只有35瓦,測(cè)試之后發(fā)現(xiàn)我們真得做到了這個(gè)效果。在客戶看來,我們編譯器/工具鏈上手易用性非常好,即使和傳統(tǒng)架構(gòu)的芯片相比。
三、大模型從云端走向車端
36氪:隨著大模型需求增加,哪些場(chǎng)景對(duì)存算一體芯片有需求?
項(xiàng)之初:云端肯定有需求,大模型訓(xùn)練需要超算中心,需要將許多高性能的計(jì)算單元連接起來,且通過液冷系統(tǒng)等處理他們的散熱。
但云端的訓(xùn)練想要突破英偉達(dá)及CUDA生態(tài)難度很大,我們選擇了車端,從推理場(chǎng)景切入。車端無(wú)法部署過多的芯片,且相對(duì)于云端有更迫切的成本限制,如何用量化的方式,用更高效的芯片解決這個(gè)問題,存算一體芯片會(huì)具有競(jìng)爭(zhēng)力。
36氪:國(guó)內(nèi)的存算一體公司都找到了各自的落腳點(diǎn),有的選擇了邊緣側(cè),有的選擇了數(shù)據(jù)中心大算力芯片場(chǎng)景。為什么后摩智能選擇了車端等邊緣端場(chǎng)景?
項(xiàng)之初:最初數(shù)據(jù)中心、車、安防和物聯(lián)網(wǎng)等場(chǎng)景我們都看了,我們內(nèi)部開了一個(gè)戰(zhàn)略會(huì),思考到底選擇什么場(chǎng)景,把核心力量投向哪里。
分析一圈,我們覺得云端場(chǎng)景,對(duì)于英偉達(dá)的CUDA生態(tài)依賴太強(qiáng),這對(duì)于初創(chuàng)公司直接去構(gòu)建自己生態(tài), 相對(duì)較難。安防場(chǎng)景已經(jīng)沒有太大的成長(zhǎng)空間,市場(chǎng)機(jī)會(huì)小。物聯(lián)網(wǎng)則是過于分散,投入和收益不匹配。而車這個(gè)場(chǎng)景,我們預(yù)測(cè)它到2026/2027年左右,在體量上和數(shù)據(jù)中心差不太多。且汽車市場(chǎng)的集中度適中,同時(shí)還有強(qiáng)烈的差異化供給需求,看中產(chǎn)品性能和性價(jià)比,是一個(gè)值得發(fā)展的場(chǎng)景。
做一個(gè)跟大家同質(zhì)的東西會(huì)比較危險(xiǎn),還是要更有差異化才能活下來。當(dāng)然,這也取決于團(tuán)隊(duì)基因,我們創(chuàng)始團(tuán)隊(duì)做過車規(guī)大芯片,也做過GPU芯片,有AI基因。如今大模型和AI在車端需求越來越大,這也證明我們當(dāng)初的判斷是對(duì)的。
36氪:后摩智能今年發(fā)布了存算一體智駕芯片——后摩鴻途?H30,對(duì)于車企而言,基于存算一體架構(gòu)的芯片,與智能駕駛芯片相比,H30具有什么亮點(diǎn)?
項(xiàng)之初:我們的優(yōu)勢(shì)主要在于,更高的算力,可利用的性能,更低的功耗和成本。
我們今年5月份發(fā)布了第一顆芯片產(chǎn)品叫后摩鴻途?H30,這是一顆256 tops物理算力的芯片,只有35瓦功耗,而且只用了12nm工藝。在制程還落后了一代的情況下,做到了跟國(guó)際友商比2-3倍提升的性能,并且功耗只有它的1/2。如果不做一個(gè)底層的架構(gòu)的創(chuàng)新,是不可能有這樣的實(shí)際測(cè)試結(jié)果的。
后摩鴻途?H30 圖片來源:后摩智能聯(lián)合創(chuàng)始人項(xiàng)之初于WISE2023商業(yè)之王大會(huì)分享
我們的第二代芯片更值得市場(chǎng)期待,今年我們做了一個(gè)7nm的車規(guī)級(jí)驗(yàn)證樣片,專為Transformer等車端大模型做了優(yōu)化設(shè)計(jì),11月已經(jīng)通過了一個(gè)量產(chǎn)測(cè)試,良率、性能以及功耗的表現(xiàn)都有超出預(yù)期。相較于全球主流的存算一體產(chǎn)品,在存算模塊我們有了五倍以上的能效提升。
36氪:大模型下沉邊緣端是一個(gè)新趨勢(shì),車廠會(huì)對(duì)芯片提出哪些新的要求?
項(xiàng)之初:智能駕駛今年的火熱程度,大家有目共睹。 車廠對(duì)于智能化配置也開始逐漸從“有沒有”轉(zhuǎn)換到“好不好用”,所以性能是他們考量的首要因素,編譯器上手快,算力利用率高,其次車廠對(duì)芯片主要訴求還有成本,要讓他們買得起,車端很難像云端一樣,花幾十萬(wàn)購(gòu)買芯片。
最后,車對(duì)功耗很敏感,要將芯片的功耗壓到車所能接受的程度。我們目前就在和國(guó)內(nèi)某頭部車廠合作,將基于Transformer大模型的demo,跑在我們的芯片上。
36氪:什么類型的大模型會(huì)更適合用于車這個(gè)場(chǎng)景?
項(xiàng)之初:現(xiàn)在看來Transformer很適合。車端原來更多是用CNN圖像類模型,特斯拉引入了Transformer,Transformer的自注意力機(jī)制可以幫助GPT了解上下文的含義,也能讓智能駕駛有了“上下文”,更好的做規(guī)劃決策。另外車內(nèi)座艙的一語(yǔ)音交互已經(jīng)開始引入GPT,從這個(gè)角度看,Transformer可能會(huì)是更長(zhǎng)時(shí)間維度里的贏家。
四、落地車廠,用起來最重要
36氪:存儲(chǔ)介質(zhì)的選擇一直是存算一體行業(yè)的重要問題,站在現(xiàn)在這個(gè)時(shí)間節(jié)點(diǎn),您怎樣看待后摩智能所選擇的介質(zhì)?
項(xiàng)之初:非常好。成熟的存儲(chǔ)介質(zhì)其實(shí)就是Flash,SRAM和DRAM等。大家可能用得比較多的是Nor Flash和SRAM。Nor Flash受限于寫的速度和可擦寫次數(shù),不能用于高頻擦寫場(chǎng)景,更適合用于固定模型的小端側(cè)場(chǎng)景。對(duì)SRAM來說,對(duì)功耗敏感的大算力場(chǎng)景非常合適,缺點(diǎn)是它的密度會(huì)比Nor Flash要低。目前來說SRAM是唯一可量產(chǎn)的自動(dòng)駕駛芯片存儲(chǔ)介質(zhì),我們實(shí)際上也沒有什么選擇。
對(duì)于先進(jìn)存儲(chǔ)ReRAM和MRAM等,我的觀點(diǎn)是先有產(chǎn)品出來,再討論好用不好用。我們?nèi)ツ暌沧隽薘eRAM的流片,在實(shí)驗(yàn)室和SRAM比較了一下,可擦寫次數(shù)上ReRAM差了2-3個(gè)數(shù)量級(jí)。這個(gè)拿來商用,我們覺得還不到做大芯片的時(shí)機(jī),還沒成熟。
36氪:對(duì)于芯片而言,要想用起來,還需要完善的軟件生態(tài)。后摩智能在軟件生態(tài)上有何思考?
項(xiàng)之初:要想讓芯片用起來,最主要的是編譯器、工具鏈的工作,我們?cè)谛酒c(diǎn)亮后,做了大量的編譯器和工具鏈的優(yōu)化工作。像車廠這樣的客戶,試用機(jī)會(huì)只有一次,如果第一次測(cè)試產(chǎn)品的時(shí)候不好用,后面就很難有敲門的機(jī)會(huì)了。
我們一定要做到自己心里有底,才敢給客戶送樣。只有客戶的產(chǎn)品能在芯片上用起來,才會(huì)去討論芯片的算力、功耗等性能。
我們一直在強(qiáng)調(diào)把編譯器和工具鏈做好,讓客戶在上面用起來,而且只有經(jīng)過用戶側(cè)的反復(fù)敲打,工具鏈和編譯器才能越來越好,得到客戶的反饋后及時(shí)迭代新版本。
36氪:為了更好發(fā)揮算力的作用,后摩智能在架構(gòu)等層面做了哪些努力?
項(xiàng)之初:我們用CIM解決了矩陣乘加的暴力計(jì)算問題,在此之外,我們還設(shè)計(jì)了一些更通用的單元,比如去做向量的乘法和非線性計(jì)算。同時(shí),在這些之外,我們預(yù)留了通用計(jì)算單元來支持尚未出現(xiàn)的算法。芯片從設(shè)計(jì)到生產(chǎn)是有2-3年周期的,算法迭代卻很快,我們要在設(shè)計(jì)的時(shí)候就考慮到這一點(diǎn)。
36氪:大模型會(huì)不斷提出新的算子需求,對(duì)此后摩智能會(huì)有什么產(chǎn)品計(jì)劃嗎?
項(xiàng)之初:我們新一代產(chǎn)品H50就重點(diǎn)考慮了車端大模型。一是在底層算力單元上,通過技術(shù)迭代,增加效率。二是我們對(duì)Transformer等算法做了進(jìn)一步的優(yōu)化。
我們的驗(yàn)證產(chǎn)品已經(jīng)流片回來了,測(cè)試結(jié)果很令人興奮,相較于上一代芯片,它各方面都有提升。我們采用了7nm的制程,是國(guó)內(nèi)首款采用7nm制程的存算一體芯片。
此外,公司在算力上覆蓋了更多的產(chǎn)品組合,希望能滿足車企不同產(chǎn)品的的需求。
36氪:存算一體芯片在產(chǎn)業(yè)大規(guī)模應(yīng)用,會(huì)遇到什么問題?
項(xiàng)之初:CUDA生態(tài),這是除了英偉達(dá)以外,所有算力芯片公司都要面對(duì)的問題。
對(duì)存算一體芯片來說,如果我們能做到硬件上同巨頭相比有大幾倍甚至一個(gè)數(shù)量級(jí)的計(jì)算效率的優(yōu)勢(shì),讓一些用戶能在場(chǎng)景里用起我們的芯片,再慢慢突圍,積累自己的生態(tài),就能慢慢減少封鎖。
36氪:CUDA對(duì)車場(chǎng)景的限制大嗎?
項(xiàng)之初:數(shù)據(jù)中心的訓(xùn)練對(duì)CUDA依賴最多,其次是數(shù)據(jù)中心的推理,自動(dòng)駕駛等邊緣端的推理再次之。
36氪:在自動(dòng)駕駛場(chǎng)景,有必要再構(gòu)建出一個(gè)類似CUDA的工具鏈嗎?
項(xiàng)之初:我認(rèn)為具有對(duì)接功能就好,當(dāng)下還是要先符合用戶的使用習(xí)慣,讓用戶能用起來。隨著客戶使用,會(huì)生長(zhǎng)出適合存算一體芯片的算子庫(kù)、算法,這些會(huì)構(gòu)成我們的生態(tài)。而且在車這個(gè)場(chǎng)景,CUDA的優(yōu)勢(shì)不及云端。
36氪:您曾提到,未來可能也希望向仿生機(jī)器人一類對(duì)算力和功耗敏感的場(chǎng)景探索,今年以來具身智能都非常火熱,公司有做過將存算一體技術(shù)用于人形機(jī)器人上的探索嗎?
項(xiàng)之初:我們理解車是機(jī)器人形態(tài)的一種,智能車是相對(duì)低階的機(jī)器人。特斯拉的擎天柱,就和其自動(dòng)駕駛采用的是同一套軟硬件方案。具身智能會(huì)是我們很關(guān)注的場(chǎng)景。而且機(jī)器人對(duì)于功耗會(huì)更敏感,和存算一體芯片會(huì)很契合。
五、結(jié)語(yǔ)
如今,大模型已顯現(xiàn)出與智能車結(jié)合的傾向。大模型的出現(xiàn)讓更多車企看到了推動(dòng)自動(dòng)駕駛進(jìn)一步落地的可能。
自動(dòng)駕駛已停留在L2級(jí)許久。復(fù)雜的城市環(huán)境,突如其來的道路變化,都是以高精度地圖為基礎(chǔ)的NOA技術(shù)所無(wú)法應(yīng)對(duì)的,再精細(xì)的道路情況采集也無(wú)法預(yù)料到突然竄出的車,顧及不到時(shí)常翻修的道路這些情況。
大模型,讓車廠們敢于去探索NOA,希望通過大模型的加持,讓車輛可以根據(jù)感知到的信息,了解車身附近的實(shí)際狀況,并及時(shí)性地處理復(fù)雜的數(shù)據(jù),做出推測(cè)、判斷。
如今,小鵬宣布將在數(shù)十個(gè)無(wú)圖城市推動(dòng)XNGP,華為則表示要在今年四季度實(shí)現(xiàn)45座城市的無(wú)圖商用輔助駕駛,理想自動(dòng)駕駛計(jì)劃則是100個(gè)城市。
能支撐大模型能力的智能駕駛芯片,成為整個(gè)行業(yè)的期冀。在這樣的市場(chǎng)需求下,存算一體芯片大算力、低功耗的特點(diǎn),能與車這個(gè)場(chǎng)景很好結(jié)合。
后摩智能已開始與車企開始進(jìn)行相關(guān)探索,其新一代產(chǎn)品H50也著重考慮了對(duì)車端大模型的支持,一方面提高芯片的算力大小,提高芯片效率,另一方面也針對(duì)Transformer等算法進(jìn)行進(jìn)一步優(yōu)化。
在大模型下沉車端的時(shí)代大勢(shì)下,存算一體芯片將助力行業(yè)邁入2.0時(shí)代。