會(huì)打拳擊的人形機(jī)器人、能疊被子的家庭管家、在跑步機(jī)上狂奔的“速度王者”…… 在2025世界機(jī)器人大會(huì)的現(xiàn)場(chǎng),上百款不同功能的具身智能機(jī)器人令觀眾大飽眼福。
那么,什么是具身智能?背后有哪些技術(shù)支撐?未來(lái)能幫我們干什么?
什么是具身智能?機(jī)器人終于“知行合一”
如果說(shuō)傳統(tǒng)機(jī)器人是“按劇本演戲”,那么具身智能機(jī)器人就是“即興表演者”。
簡(jiǎn)單說(shuō),具身智能指的是機(jī)器人不僅有“大腦”(智能模型),還有能感知世界的“身體”(硬件),更能把想法變成行動(dòng)。就像人類(lèi)通過(guò)眼睛看、耳朵聽(tīng)、手腳動(dòng)來(lái)理解世界,具身智能機(jī)器人靠攝像頭“看”、麥克風(fēng)“聽(tīng)”、關(guān)節(jié)電機(jī) “動(dòng)”,在真實(shí)環(huán)境中邊學(xué)邊做。例如,你讓它“把桌上的水杯遞給奶奶”,它得先認(rèn)出哪個(gè)是水杯、奶奶在哪,再規(guī)劃路線避開(kāi)地上的拖鞋,最后用恰到好處的力氣拿起杯子——這一系列操作,就是具身智能機(jī)器人的“日常”。
走進(jìn) 2025 世界機(jī)器人大會(huì)展廳,仿佛掉進(jìn)了“未來(lái)生活體驗(yàn)館”。1500 多臺(tái)機(jī)器人各顯神通,從工廠車(chē)間到家庭客廳,從運(yùn)動(dòng)賽場(chǎng)到應(yīng)急現(xiàn)場(chǎng),具身智能機(jī)器人的存在感越來(lái)越強(qiáng)了。
在工業(yè)場(chǎng)景,機(jī)器人組隊(duì)“打工人”,協(xié)作比人還默契。在優(yōu)必選展臺(tái),一場(chǎng)“機(jī)器人流水線秀”正在上演:Walker S2 人形機(jī)器人負(fù)責(zé)抓取零件,Cruzr S2 在旁掃碼登記,UQI 移動(dòng)機(jī)器人 Wali 像個(gè)勤快的 "搬運(yùn)工" 穿梭送料,無(wú)人物流車(chē) Chitu 則在出口處打包 —— 整個(gè)流程行云流水,連零件擺放角度都分毫不差。
多類(lèi)型人形機(jī)器人與機(jī)器人共同在生產(chǎn)線上協(xié)同工作
優(yōu)必選副總裁、研究院院長(zhǎng)焦繼超在接受記者采訪時(shí)表示,此次優(yōu)必選通過(guò)群腦網(wǎng)絡(luò)2.0的整體調(diào)度與任務(wù)分配管理,多臺(tái)Walker S2、Cruzr S2,與UQI優(yōu)奇頂升移動(dòng)機(jī)器人Wali瓦力U600、無(wú)人物流車(chē)Chitu赤兔協(xié)同展示,成功展現(xiàn)了從物料入庫(kù)搬運(yùn)到智能分揀的全流程作業(yè)。
這可不是簡(jiǎn)單的“各干各的” ,這些具身智能機(jī)器人靠“群腦網(wǎng)絡(luò) 2.0”實(shí)時(shí)溝通:如果某個(gè)機(jī)器人卡殼,系統(tǒng)會(huì)立刻給同伴“派新任務(wù)”,就像工廠里的同事互相搭把手。這種“群體智能”,正是具身智能在工業(yè)場(chǎng)景的核心能力——不僅自己能干,還能協(xié)作隊(duì)友。
在家庭場(chǎng)景,機(jī)器人管家上線,細(xì)節(jié)暖到人心。傅利葉展臺(tái)前,不少家長(zhǎng)帶著孩子圍觀 GR-3 機(jī)器人。這臺(tái)長(zhǎng)得像動(dòng)畫(huà)里“大白”的機(jī)器人,用軟乎乎的手臂輕輕拿起繪本,還會(huì)根據(jù)孩子的笑聲調(diào)整翻頁(yè)速度。當(dāng)有觀眾伸手摸它的頭時(shí),它會(huì)眨眨“眼睛”,慢悠悠轉(zhuǎn)過(guò)頭來(lái)“對(duì)視”。
傅利葉GR-3機(jī)器人
值得注意的是,它的“皮膚”用了和嬰兒床墊同款的環(huán)保材料,摔倒時(shí)不會(huì)磕傷人。工作人員演示:即使故意推它一下,GR-3也僅是趔趄兩步就穩(wěn)穩(wěn)站定。這種親和力設(shè)計(jì)正是具身智能機(jī)器人走進(jìn)家庭的關(guān)鍵——不僅會(huì)干活,還得“懂分寸”。
在運(yùn)動(dòng)賽場(chǎng),機(jī)器人更是上演“速度與激情”。北京人形機(jī)器人創(chuàng)新中心的展臺(tái)前,“天工2.0”正在跑步機(jī)上進(jìn)行著行走和奔跑直播,全程無(wú)間斷穩(wěn)定運(yùn)行。作為“亦莊半程馬拉松”人形機(jī)器人組冠軍,它現(xiàn)在不僅能跑,還能拿起螺絲刀擰螺絲,甚至和人配合組裝零件。
“天工2.0”人形機(jī)器人
而在宇樹(shù)科技的擂臺(tái)上,兩臺(tái) Unitree G1 機(jī)器人正上演“拳擊賽”。閃避、直拳、側(cè)踢……動(dòng)作快得帶起風(fēng),拳拳落在對(duì)方的“護(hù)具”上,發(fā)出沉悶的響聲。工作人員說(shuō),它們?nèi)碛?3至43個(gè)關(guān)節(jié)電機(jī),能完成動(dòng)態(tài)站起、舞棍等動(dòng)作。
宇樹(shù)科技人形機(jī)器人Unitree G1
機(jī)器人的“聰明”從哪來(lái)?三大核心能力拆解
這些機(jī)器人之所以這么“聰明”,背后藏著具身智能的三大“黑科技”。就像人類(lèi)靠大腦、感官和肌肉協(xié)同工作,機(jī)器人的“聰明”也離不開(kāi)這三部分。
首先,“世界模型”是邁向通用人工智能(AGI)的重要階梯,其通過(guò)學(xué)習(xí)環(huán)境的時(shí)空動(dòng)態(tài),不僅預(yù)測(cè)未來(lái)狀態(tài),還能評(píng)估自身行動(dòng)的后果。想象一下:如果教機(jī)器人疊被子,每次做錯(cuò)都要重新鋪床,多費(fèi)時(shí)間?而“世界模型”就像個(gè)“虛擬臥室”,機(jī)器人可以在里面反復(fù)練習(xí),摔多少次都不用收拾。谷歌 DeepMind 最新發(fā)布的 Genie 3 就能模擬上萬(wàn)種房間場(chǎng)景,讓機(jī)器人在虛擬世界里練熟了再實(shí)踐。
宇樹(shù)科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興認(rèn)為 “世界模型” 這個(gè)方向值得關(guān)注,可能會(huì)比 VLA 模型更快落地。而且,現(xiàn)在機(jī)器人學(xué)習(xí)新技能得從頭訓(xùn)練,沒(méi)辦法復(fù)用舊知識(shí),所以實(shí)現(xiàn)類(lèi)似大模型的持續(xù)學(xué)習(xí)能力也很迫切。
其次,當(dāng)前最火的具身智能模型——VLA模型(Vision-Language-Action Model,即視覺(jué)-語(yǔ)言-動(dòng)作模型)就像是機(jī)器人的“神經(jīng)中樞”:眼睛看到“水杯”,語(yǔ)言理解“遞給人”,動(dòng)作系統(tǒng)規(guī)劃“走過(guò)去拿杯子”—— 這三步全靠它翻譯。
不過(guò),王興興認(rèn)為,目前VLA模型的實(shí)用性尚存在局限,在對(duì)真實(shí)世界交互的時(shí)候,其數(shù)據(jù)質(zhì)量實(shí)際上是不太夠用的。即便是在RL(強(qiáng)化學(xué)習(xí))的加持下,該模型架構(gòu)依然需要繼續(xù)去進(jìn)行升級(jí)和優(yōu)化。
現(xiàn)在的問(wèn)題不是“沒(méi)數(shù)據(jù)”,而是“模型不會(huì)用數(shù)據(jù)”。未來(lái)的 VLA 模型需要更懂“上下文”。
最后,強(qiáng)化學(xué)習(xí)是機(jī)器人的“試錯(cuò)神器”。例如,來(lái)自深圳鹿明機(jī)器人的LUS2,它是全球首個(gè)實(shí)現(xiàn)“1秒彈射起身”的全尺寸人形機(jī)器人,最大突破在于實(shí)現(xiàn)了“一秒彈射起身”的敏捷能力,遠(yuǎn)超行業(yè)平均3—5秒的恢復(fù)時(shí)間。鹿明機(jī)器人的絕技背后藏著強(qiáng)化學(xué)習(xí)的秘密,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的仿生姿態(tài)算法,在1毫秒內(nèi)完成重心遷移決策,動(dòng)態(tài)調(diào)整速度比人類(lèi)反射神經(jīng)快30倍。
現(xiàn)在,強(qiáng)化學(xué)習(xí)還在和生命科學(xué)結(jié)合。比如模仿章魚(yú)的觸手控制方式,讓機(jī)器人的手臂更靈活;學(xué)人類(lèi)的肌肉發(fā)力規(guī)律,讓動(dòng)作更自然。未來(lái)的機(jī)器人,可能比我們更懂“怎么用身體”。
未來(lái)3-5 年后,機(jī)器人會(huì)變成什么樣?
在大會(huì)主論壇上,專(zhuān)家們預(yù)測(cè):未來(lái) 3-5 年,具身智能機(jī)器人將迎“ChatGPT 時(shí)刻”——就像當(dāng)年 ChatGPT 突然能流暢對(duì)話,機(jī)器人也會(huì)突然能在陌生環(huán)境里聽(tīng)懂指令、流暢干活。
而產(chǎn)業(yè)規(guī)模早已吹響號(hào)角:2024 年中國(guó)機(jī)器人產(chǎn)業(yè)營(yíng)收近 2400 億元,2025 年上半年工業(yè)機(jī)器人產(chǎn)量增長(zhǎng) 35.6%,服務(wù)機(jī)器人增長(zhǎng) 25.5%。從工廠到家庭,從賽場(chǎng)到深海,具身智能機(jī)器人正在把“科幻片”變成“紀(jì)錄片”。
在2025世界機(jī)器人大會(huì)的出口處,有個(gè)互動(dòng)屏幕,上面寫(xiě)著:“你希望機(jī)器人幫你做什么?”有人寫(xiě)“陪老人聊天”,有人寫(xiě)“修燈泡”,還有人寫(xiě)“一起踢足球”。
這些愿望的背后,是人類(lèi)對(duì)機(jī)器人的期待——不是冷冰冰的機(jī)器,而是能感知、能溝通、能協(xié)作的伙伴。具身智能的終極意義,或許不是讓機(jī)器人變得和人一樣,而是讓它們用自己的“身體智慧”,幫我們解決那些“不想做、做不到、不敢做”的事。