作者|楊逍
編輯|蘇建勛
近日,斯坦福華人團隊的Mobile ALOHA“全能家務機器人”在網上爆火,它展示了做飯、鋪床、澆花等多種家務技能,可謂是全復合“保姆人才”。
它能夠煮蝦,可以擦拭桌子上的紅酒,能洗盤子,還可以自動打開電梯。
還可以打開窗簾為窗臺上的花澆水,將衣服放到洗衣機里、撒上洗衣液洗衣。這讓網友直呼機器人時代已來,它難能可貴在“眼里有活兒”。
不過,Mobile ALOHA所展示的復雜技能,其實是背后由人遙控操作的。
1月6日清晨,發現網友為Mobile ALOHA所呈現的自主化、智能化能力傾倒后,Mobile ALOHA的兩位研發人員連忙“辟謠”,稱部分動作是機器人自主展示的,部分則由人遙控完成。
為了如實呈現機器人的能力,他們還專門放出了Mobile ALOHA在全自動狀態下的“蠢笨”動作合集,稱 “機器人尚未準備好接管世界”。
當你以為機器人能絲滑優雅地舉起一杯紅酒時,它只能顫顫巍巍地握住杯子,看著酒杯傾倒碎在地上,將紅酒灑滿桌;
紅酒灑滿桌
表現頗佳時,機器人能熟悉地端起左手顛鍋、右手拿鏟,完成一道菜肴的制作;但多是幾次,原本揮灑自如的鍋鏟就不是對著鐵鍋底部一頓操作,就是在鍋中揮舞但碰不到菜。
失敗的炒菜案例
全自動狀態下,它無法有力地控制住一把平底鍋,將鍋端起后,整個平鍋便不可避免地掉落,為了拯救翻到的鐵鍋,守在旁邊的研究人員還被燙傷了;
倒菜失敗
甚至一根紅色圓珠筆,Mobile ALOHA也無法拾起。
拿記號筆
現實和理想還有差距,但Mobile ALOHA所呈現出的完成精細和復雜的任務的運動操作能力,仍值得關注,這讓未來機器人更具有想象空間。
遙控的疊被子、做菜、洗衣技能
Mobile ALOHA到底可以做到什么?
經過20~50輪演示和模仿學習,機器人可以自主完成一些復雜的移動操控任務。
它能夠按照人類做菜的順序,將油倒入鍋中,再放入一粒蝦仁,并翻轉鍋鏟將其炒熟,并拿起鍋,轉身將蝦倒入背后已備好的盤子里。
炒蝦
它可以自動按下電梯按鈕,并成功進入電梯中;
自動開電梯
還可以精準打開一扇兩門柜子,并抬手將一個3磅重的鍋放入柜子中,再關上柜門。
將鍋放入柜門
還可以在與人相遇后伸出“手”擊掌。
與人擊掌
目前,機器人可以連續9次完成端起酒杯擦桌子的動作;連續5次自主呼叫電梯,具有學會技能的能力。
但這個技能并非100%精準、智能,會出現錯誤,呈現出前文所展示的“失敗狀態”。
對于一款想要進入家庭場景的機器人而言,比起技能豐富度,安全是更重要的前提。一款身體笨重、由鋼鐵材料制成的機器人,會給家帶來遠超狗等寵物的殺傷力。
機器人尚未做好準備接管世界,但擁有潛力。
為了探索Mobile ALOHA的潛力,符博士將機器人帶回家中,并遙控機器人完成了一些復雜動作。
它能完成做滑蛋蝦仁、干貝燒雞、蠔油生菜廚藝,這里面涉及到了切蒜、洗生菜、打雞蛋等細致動作。
做干貝燒雞
在遙控狀態下,它能拉開窗簾布、打開窗子,握著水壺澆水;
澆水
可以握著戴森吸塵機,進行全屋清潔;
用吸塵器打掃房間
它能在主人站著不動的情況下,捏著圓形的剃須刀完成整個刮胡子動作。
剃胡子
可以將衣服賽道洗衣機里,并轉動洗衣液的圓形瓶蓋,將洗衣液倒入洗衣機,再操作完成洗衣動作。
洗衣服
也能從抽紙盒中抽出一張紙,并揉成一團,再擦去玻璃上的灰,且控制機械與玻璃接觸時,不傷害玻璃表面。
拿紙擦玻璃
雖然上述家務能力是由人遙控操作完成的,但機器人呈現的完成復雜、精細動作的物理可能,是一個巨大的進步。
它還解決了人形機器人領域的一大技術難題——面對布料這種柔軟又單薄的材質,機器人要如何完成疊被子、疊衣服等人手可以簡單完成的動作。
在遙控狀態下,它可以完成鋪平床單、為枕頭套上枕套的動作,且機器人鋪平的床可謂一絲不茍,遠超當代年輕人的床物收納能力范疇。
換床單
它還可以將一件衣服展開,捏著拉鏈頭,拉上衣服拉鏈,再用衣服撐將其撐起,并放入衣柜中。
收納衣服
在機器人世界,人手能簡單完成的動作,對機器便越難。機器人還做不到“眼中有活”,但手能干細致活。
Mobile ALOHA的聯合研發者Tony Z.Zhao還引用了2015年的DARPA機器人挑戰大賽上的失敗匯集,戲謔稱希望特斯拉機器人的摔倒視頻。
對于Mobile ALOHA的失敗集錦,網友也格外寬容,稱他們“愚蠢又可愛”,也有人稱“比起遠程操控,自主果然困難很多”。
軟硬件開源,全套機器人僅需3.2萬美元
Mobile ALOHA的最大價值是物理操作能力的進步,它展示了機器人做重復性精細操作任務的潛力。
為了實現雙手操作技巧,符博士團隊基于谷歌Deepmind的ALOHA遙操作系統生成,設計出了一款低成本的全身遠程操作系統“Mobile ALOHA”。
Mobile ALOHA是一個開源的操作系統,其學習原理是遙操作和模仿學習,即通過對人類重復動作的學習掌握技能,它是一種全身遠程操作的雙手移動操作系統。
谷歌的ALOHA遙操作系統更多是在桌面上進行思考,Mobile ALOHA在底部上增加了移動底盤,增加了對機器人移動性和靈活性的訓練。
借助集成的移動底座和全身遠程操作界面,Mobile ALOHA可以收集更多的機器人與現實世界交互的數據,并在交互過程中學習、模仿人類動作。
研究團隊發現,只需對每項任務進行 50 次演示,Mobile ALOHA學會動作的成功率能高達90%,如可以實現連續9次擦紅酒,連續5次成功使用電梯。
據符博士表示,之所以能在50個演示之內便實現上述效果,是因為Mobile-ALOHA 將模仿學習和靜態操作數據結合協同訓練。
協同訓練效果
通過這種聯合訓練方式,機器人訓練成功率可以顯著提高,尤其是在執行需要精確操作的任務時。如在擦拭紅酒任務中,舉起酒杯和擦拭是最重要的子動作,在沒有聯合訓練時,其成功率只有58%,但聯合訓練后,成功率可以提高到95%。
訓練效果差別1
這種聯合數據訓練的方式,在VINN、擴散策略和ACT等不同的模擬學習方法上都有著不錯的效果。如擴散策略下,整個任務的成功率原本只有35%,但經過聯合訓練后,可以提高到65%。
訓練效果差別2
此外,協同訓練在不同數據組合情況下,魯棒性、穩定性在不同維度上都得到了提高。
訓練效果差別3
在硬件上,它的外在形象并非最火的人形機器人形態,整個身體由一個移動底盤、一個操作界面,兩個機械臂,反饋驅動,兩個腕部相機及1個頂部相機構成。整個機器采用反向驅動結構的設計,控制者能通過操作臺控制機械臂,指導Mobile ALOHA完成動作。它的底部安裝有電池包,可斷電使用。
Mobile ALOHA的硬件設計
這款機器人和操作系統由斯坦福的三人團隊研究而成——計算機科學博士生Zipeng Fu和Tony Z.Zhao,和二人的指導老師是Chelsea Finn。
他們在軟硬件上都進行了開源,公布了代碼、硬件結構和數據,團隊還專門列出了具體的硬件清單,包括整套機器人下來成本只需要3.2萬美元,即22.7萬人民幣。
這意味著,只要有興趣,任何人都可以基于他們的研究成果,對機器人進行試驗,去訓練自己想實現的動作。
該硬件的運動底盤廠家松靈機器人已在官網表示,可以定制同款斯坦福Mobile Aloha機器人。
Mobile Aloha機器人
2024年被認為是人形機器人元年,無論是特斯拉、波士頓動力等具身智能玩家,還是如谷歌的AutoRT 控制系統,又或 RT-2機器人大模型,都在從不同維度推動人形機器人發展。在最長遠的想象力,進入家庭的人形機器人將會帶來巨大的市場空間。
原本以特斯拉、智元機器人等人形機器人都將to B場景看作最先落地的未來,To C家庭場景則更具有難度,但Mobile ALOHA的機器人讓To C場景看到曙光。
全自動的機器人時代雖尚未來到,但Mobile ALOHA僅通過兩指夾具,便完成了洗衣、做飯等高難度動作,這讓家務機器人、人形機器人有了更加具象的想象空間。