
2025年7月26-29日,以“智能時(shí)代 同球共濟(jì)”為主題的世界人工智能大會(huì)(WAIC2025)在上海舉行,具身智能作為“AI如何走出屏幕”的現(xiàn)實(shí)命題備受關(guān)注。本次大會(huì)涵蓋40余款大模型、60余款智能機(jī)器人,以及80余款“全球首發(fā)”或“中國(guó)首秀”的新品,規(guī)模創(chuàng)歷屆之最。與上屆大會(huì)相比,具身智能在技術(shù)方面從單模型向多模態(tài)躍遷,產(chǎn)品泛化能力和垂直應(yīng)用均有提升,標(biāo)準(zhǔn)穩(wěn)步建立,生態(tài)不斷優(yōu)化,但此次大會(huì)也暴露出具身智能仍面臨:數(shù)據(jù)基礎(chǔ)不佳、產(chǎn)業(yè)卡點(diǎn)淤塞、標(biāo)準(zhǔn)仍不健全的問(wèn)題。我宜豐富訓(xùn)練數(shù)據(jù),規(guī)范數(shù)據(jù)安全;突破腦、肢卡點(diǎn),完善標(biāo)準(zhǔn),力爭(zhēng)成為全球產(chǎn)業(yè)主導(dǎo)者。
大會(huì)關(guān)于具身智能的變化分析
(一)技術(shù)能力持續(xù)演進(jìn)。一是多模態(tài)融合成為主流。2024大會(huì)上,具身智能技術(shù)焦點(diǎn)還是以單一感知和單一任務(wù)為主。2025年,具身智能技術(shù)向視覺(jué)、語(yǔ)言、觸覺(jué)等多源信息感知整合演進(jìn),能夠?qū)崿F(xiàn)對(duì)復(fù)雜、動(dòng)態(tài)環(huán)境理解與實(shí)時(shí)響應(yīng)。如商湯科技展出的多模態(tài)交互“具身智能大腦”,能讓傅利葉GRx機(jī)器人通過(guò)融合圖像、視頻、語(yǔ)音和文本等信息理解環(huán)境,進(jìn)行思考與表達(dá)。二是在機(jī)器人感知、控制與決策等關(guān)鍵技術(shù)環(huán)節(jié)不斷突破。如深謀科技重點(diǎn)展示新一代人形機(jī)器人“美猴王”五大核心技術(shù)突破,包括業(yè)界獨(dú)創(chuàng)的OmniSense聲表面波感知系統(tǒng)、腦電控制方案Mindmover、國(guó)內(nèi)首個(gè)“彈起”壓電式六維力傳感器、具類人動(dòng)態(tài)視覺(jué)理解能力的6D姿態(tài)視覺(jué)伺服系統(tǒng)等。
(二)產(chǎn)品由“可展示”走向“可應(yīng)用”。一是智能水平持續(xù)躍升。2024年展品以語(yǔ)音交互和基礎(chǔ)動(dòng)作控制為主,多數(shù)仿人機(jī)器人仍處于概念驗(yàn)證階段。2025年大批產(chǎn)品搭載VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型,具備復(fù)雜指令理解、環(huán)境感知與動(dòng)作協(xié)調(diào)能力,智能化程度顯著提升。如特斯拉人形機(jī)器人Tesla Bot不僅能夠完成清潔桌面、吸塵、拉窗簾等基礎(chǔ)任務(wù),還能執(zhí)行精細(xì)化抓取、焊接、裝卸等復(fù)雜任務(wù)。二是產(chǎn)品形態(tài)及應(yīng)用場(chǎng)景加速拓展。2024年展品大多聚焦于家庭清潔等單一任務(wù)執(zhí)行場(chǎng)景。2025年展品涵蓋人形機(jī)器人、工業(yè)機(jī)械臂、物流機(jī)器人等多種類型,應(yīng)用場(chǎng)景也擴(kuò)展至多個(gè)行業(yè)。如國(guó)地中心首發(fā)的全尺寸通用青龍V3.0人形機(jī)器人,具備36自由度和3m/s直膝行走能力,廣泛應(yīng)用于安保巡邏與特種作業(yè)等復(fù)雜場(chǎng)景。賽博格機(jī)器人能夠在高危、高負(fù)荷環(huán)境中執(zhí)行工具切換、電網(wǎng)測(cè)試等任務(wù)。
(三)協(xié)同創(chuàng)新生態(tài)及資本助推進(jìn)一步深化。一是產(chǎn)學(xué)研各創(chuàng)新主體加速融合。大會(huì)期間,智元機(jī)器人正式發(fā)布“智元靈渠 OS”開(kāi)源計(jì)劃,通過(guò)開(kāi)源模式攜手產(chǎn)業(yè)界共同構(gòu)建具身智能操作系統(tǒng)生態(tài),解決當(dāng)前機(jī)器人操作系統(tǒng)碎片化、適配成本高、智能體服務(wù)難協(xié)同等行業(yè)痛點(diǎn)。二是產(chǎn)業(yè)資本加速涌入。2025年上半年,我國(guó)具身智能行業(yè)的投資事件共計(jì)91起,已經(jīng)超過(guò)2024年全年的77起,總投資金額達(dá)到110.37億元。具身智能明星公司宇樹(shù)科技于今年6月完成C輪融資,估值超100億,由中國(guó)移動(dòng)旗下基金、騰訊、錦秋基金、阿里等共同領(lǐng)投。
具身智能產(chǎn)業(yè)發(fā)展仍面臨三大挑戰(zhàn)
(一)數(shù)據(jù)基礎(chǔ)不佳,導(dǎo)致產(chǎn)業(yè)基底不穩(wěn)。一是具身智能訓(xùn)練數(shù)據(jù)缺口大。具身智能需要上億條訓(xùn)練數(shù)據(jù)方能達(dá)到完全自主水平,但現(xiàn)有公開(kāi)數(shù)據(jù)集最大僅在百萬(wàn)量級(jí),需通過(guò)軟件仿真模擬、真實(shí)數(shù)據(jù)采集等方式補(bǔ)充訓(xùn)練數(shù)據(jù),但兩種方案各有不足:一方面,仿真數(shù)據(jù)的保真度有限,難以滿足復(fù)雜任務(wù)需求。斯坦福大學(xué)研究表明,仿真數(shù)據(jù)訓(xùn)練簡(jiǎn)單任務(wù)的成功率可達(dá)80%,但訓(xùn)練復(fù)雜任務(wù)時(shí)成功率僅40%。另一方面,真實(shí)數(shù)據(jù)的采集成本高昂。例如,據(jù)國(guó)地中心測(cè)算,特斯拉為使具身智能機(jī)器人勝任工廠工作,需花費(fèi)至少5億美元采集數(shù)據(jù)。二是具身智能仍存數(shù)據(jù)隱私安全風(fēng)險(xiǎn)。具身智能為滿足多樣化任務(wù)需求,需持續(xù)采集環(huán)境信息、運(yùn)動(dòng)軌跡等數(shù)據(jù),信息獲取呈現(xiàn)全息化、持續(xù)化特征,但普遍缺乏有效的篩選、脫敏與授權(quán)機(jī)制。一旦設(shè)備操作系統(tǒng)異常或遭受網(wǎng)絡(luò)攻擊,極易引發(fā)敏感數(shù)據(jù)大規(guī)模泄露。如MIT研究團(tuán)隊(duì)發(fā)現(xiàn)Roomba J7系列機(jī)器人在構(gòu)建地圖過(guò)程中自動(dòng)采集接觸人員的圖像,涉及敏感場(chǎng)景且未經(jīng)用戶知情同意便將數(shù)據(jù)上傳用于訓(xùn)練第三方AI模型。
(二)關(guān)鍵環(huán)節(jié)仍有卡頓,導(dǎo)致產(chǎn)業(yè)發(fā)展受限。一是具身智能關(guān)鍵技術(shù)仍待突破。“大腦”方面,對(duì)物理世界的深度感知與適應(yīng)能力不足。我國(guó)大模型在空間感知、復(fù)雜現(xiàn)實(shí)環(huán)境認(rèn)知能力等方面仍處于起步階段,難以滿足具身智能與三維現(xiàn)實(shí)世界交互的需求。“小腦”方面,全球小腦對(duì)動(dòng)作控制的成功率還未達(dá)產(chǎn)業(yè)化落地水平。根據(jù)高盛研究顯示,在操控層面,國(guó)際領(lǐng)先的技術(shù)成熟度為40%,而中國(guó)僅為20%。二是核心零部件精度不足。在高端具身智能,特別是人形機(jī)器人高精度零部件方面仍需依賴進(jìn)口。四肢部分,決定關(guān)節(jié)精準(zhǔn)度的行星滾柱絲杠,國(guó)外企業(yè)占80%市場(chǎng)份額,我國(guó)面臨較高的加工工藝壁壘。傳感器部分,六維力矩傳感器和扭矩傳感器,美國(guó)均占最大市場(chǎng)份額,且技術(shù)全面、成熟。動(dòng)力部分,影響動(dòng)力傳輸?shù)臒o(wú)框力矩電機(jī)由美國(guó)科爾摩根、德國(guó)威騰斯坦等主導(dǎo)。
(三)具身智能的標(biāo)準(zhǔn)體系尚未完善,制約產(chǎn)業(yè)協(xié)同發(fā)展效率。一是具身智能系統(tǒng)性標(biāo)準(zhǔn)制定進(jìn)程緩慢。雖然2025年4月我國(guó)已發(fā)布《人形機(jī)器人標(biāo)準(zhǔn)體系框架》,確立了基礎(chǔ)共性、關(guān)鍵技術(shù)、部組件、整機(jī)與系統(tǒng)和應(yīng)用等五大維度的標(biāo)準(zhǔn)架構(gòu),但具體細(xì)分標(biāo)準(zhǔn)的制定進(jìn)展緩慢,目前僅零散出臺(tái)了《腿式機(jī)器人性能及試驗(yàn)方法》《人形機(jī)器人數(shù)據(jù)集數(shù)據(jù)標(biāo)注》等個(gè)別標(biāo)準(zhǔn),關(guān)鍵的數(shù)據(jù)采集、運(yùn)動(dòng)控制、接口規(guī)范等標(biāo)準(zhǔn)仍處于缺失狀態(tài)。二是規(guī)范缺失制約跨品牌機(jī)器人協(xié)同作業(yè)。由于硬件接口、通信協(xié)議、數(shù)據(jù)格式、操作系統(tǒng)等缺乏統(tǒng)一規(guī)范,可復(fù)用的通用組件和開(kāi)發(fā)工具不足,多數(shù)科技公司被迫各自從零搭建基礎(chǔ)設(shè)施,造成技術(shù)路線碎片化,嚴(yán)重制約產(chǎn)業(yè)生態(tài)協(xié)同發(fā)展。例如宇樹(shù)科技基于開(kāi)源ROS框架開(kāi)發(fā)了實(shí)時(shí)操作系統(tǒng)(RTOS),而優(yōu)必選則采用自研的ROSA系統(tǒng),兩者的底層通信協(xié)議、接口標(biāo)準(zhǔn)和開(kāi)發(fā)工具鏈互不兼容。
多舉并用,突破具身智能產(chǎn)業(yè)發(fā)展初期困境
一是豐富訓(xùn)練數(shù)據(jù),完善算力體系。一方面強(qiáng)化高質(zhì)量數(shù)據(jù)采集,推動(dòng)場(chǎng)景化數(shù)據(jù)積累。另一方面健全數(shù)據(jù)處理規(guī)范體系,防范隱私泄露風(fēng)險(xiǎn);二是突破腦肢傳動(dòng)技術(shù),優(yōu)化供應(yīng)鏈。一方面提升研發(fā)能力,實(shí)現(xiàn)端到端突破;另一方面復(fù)用同類產(chǎn)業(yè)制造能力,擴(kuò)大零部件性價(jià)比優(yōu)勢(shì)。三是完善隱私安全法律體系。一方面借鑒地方及成熟領(lǐng)域的標(biāo)準(zhǔn),完善國(guó)家級(jí)具身智能標(biāo)準(zhǔn)體系;另一方面二是以示范試點(diǎn)推動(dòng)關(guān)鍵場(chǎng)景標(biāo)準(zhǔn)落地,促進(jìn)產(chǎn)業(yè)生態(tài)協(xié)同發(fā)展
2025年世界人工智能大會(huì)讓我們共同見(jiàn)證了具身智能領(lǐng)域的非凡進(jìn)展,從人形機(jī)器人的靈敏動(dòng)作到數(shù)字孿生技術(shù)的無(wú)縫銜接,再到多模態(tài)感知的突破性應(yīng)用,具身智能正以前所未有的速度改變我們的世界。各種市場(chǎng)數(shù)據(jù)表明,具身智能正以驚人速度增長(zhǎng),亞太地區(qū)尤為突出。展望未來(lái),具身智能將通過(guò)更強(qiáng)大的算力、完善的法律體系和全球合作,開(kāi)啟智能化社會(huì)新篇章。
