當AI大模型卷向服務(wù)機器人，會有哪些新故事？｜硬氪分析

業(yè)界

TIME

2024-03-13 13:10

36氪

　　作者｜黃楠

　　編輯｜彭孝秋

　　不久前，英偉達成立通用具身智能體研究實驗室（GEAR）的消息曝光，將機器人再度推上了風(fēng)口。

　　過去一年，AI 大模型浪潮中，以大模型+機器人的路徑，為人與機器共存提供新的交互模式。甚至有觀點認為，機器人大腦的進化速度，主要取決于大模型的發(fā)展速度。

　　市場對機器人的火熱反映到實際的資本環(huán)境上，是動輒數(shù)億、乃至數(shù)十億的融資項目、相關(guān)零部件規(guī)模陡然增長、以及下游概念股也乘風(fēng)而起......具身智能，成為機器人落地故事里備受矚目的關(guān)鍵詞。

　　但進入實際的落地中，機器人只能完成一些定制化任務(wù)，缺乏對復(fù)雜場景認知能力，應(yīng)用局限；而另一邊，機器按照已設(shè)定算法運行，也難以產(chǎn)生更大智能，思考能力和決策能力無法得到提升。

　　如何讓具身智能機器人在與人、環(huán)境的不斷交互中繼續(xù)學(xué)習(xí)，成為了一個關(guān)鍵命題。

開放場景下的機器人難題

　　長久以來，AI和機器人領(lǐng)域都存在著一個經(jīng)典悖論——莫拉維克悖論提出，和傳統(tǒng)假設(shè)不同，計算機要實現(xiàn)例如推理等人類所具備的高階智慧、僅需少量的計算能力，而若要直覺、感知等能力，卻需要巨大的運算能力。

　　簡單來說，電腦可以在和人類圍棋對弈中輕松取勝，但如果讓機器人為你取出冰箱里的可樂，卻并不簡單。

　　這一過程包括了幾個必要步驟。首先，機器人需要聽懂人發(fā)出的指令，將任務(wù)進行拆解；第二步是做出決策，確定目標定位并規(guī)劃行進路線；第三步到達目的地后，面對冰箱里各式物品，機器人既要能識別出“可樂”、還要能控制機械臂完成揀取動作；最后再將物品交到指定地點。

　　過去，上述行動可以預(yù)先設(shè)定，但由于技術(shù)不成熟，機器人只能提供case by case服務(wù)；即它只學(xué)會了取“可樂”，一旦物品換成“雪碧”，則需要工程師重新設(shè)定一套流程。

　　當機器人邁進真實場景里，往往面臨著泛化能力弱、交付難度高的兩大痛點。

　　雅可比機器人CEO邱迪聰在與硬氪交談中，將機器人應(yīng)用場景劃分為封閉式和開放場景。

　　其中，封閉式場景指采用經(jīng)典的定制化模式。預(yù)設(shè)機器人的任務(wù)執(zhí)行邊界，用戶下發(fā)指令后，先收集現(xiàn)有數(shù)據(jù)進行訓(xùn)練，在限定范圍內(nèi)窮舉出所有任務(wù)可能性，盡可能覆蓋更多的解決路徑。

　　例如工業(yè)場景的運輸機器人，工程師會針對特定園區(qū)提前設(shè)置運輸線路，機器人只需在固定路徑上完成配送任務(wù)，靈活性低；即使存在多條路線，這些路徑亦經(jīng)過編排和規(guī)劃，機器一旦脫離該地圖所設(shè)定的任務(wù)，便無法運轉(zhuǎn)。因此面對新任務(wù)，機器人需要再次收集數(shù)據(jù)訓(xùn)練、設(shè)定方案和測試，從而導(dǎo)致了極大的資源和人力損耗。

　　開放場景則是指不受強封閉式規(guī)范和范圍限制的長尾問題，如商超服務(wù)、居家養(yǎng)老等。當機器人與人、環(huán)境進行大量的交互，數(shù)據(jù)集或存在少樣本、甚至零樣本的突發(fā)情況，這對機器人理解、處理多種任務(wù)的泛化能力要求極高。

　　比如自動分揀，目前機器人可完成物流分揀、倉庫分揀，但商超分揀卻遲遲未能實現(xiàn)。其主要原因就在于，倉庫物流中心的貨物可以標準化，按外形、大小分類，同時貨品密封性強，有更多冗余。相比之下，商超里品類繁多，同樣是1.5L白瓶包裝，它可能是牛奶、酸奶或是椰汁；再加上品類特性不同，比如雞蛋和紙巾的抗摔程度大相徑庭，這也對分揀機器人提出了極高的要求，從視覺到力控，都必須做的很精準。

　　在邱迪聰?shù)脑O(shè)想中，機器人不應(yīng)只是指令的執(zhí)行者，還要具備舉一反三的學(xué)習(xí)能力。“今天機器人在清掃、巡檢等任務(wù)中可以做得很好，但想要真正走進人們?nèi)粘Ｉ睿x不開它的感知、決策、執(zhí)行能力。”

　　而2023年國內(nèi)大模型的爆發(fā)式增長，令邱迪聰看到了AI+機器人的新機會。邱迪聰畢業(yè)于美國卡內(nèi)基梅隆（CMU）大學(xué)機器人學(xué)院，曾參與NASA火星車研發(fā)、L4級自動駕駛等項目，有超過8年AI與機器人跨領(lǐng)域研究和落地經(jīng)驗。

　　隨著技術(shù)改進和成本下降，掃地機器人、工業(yè)手臂等任務(wù)型機器人滲透率顯著提高。但要提高機器人智能水平，需要更先進的算法和數(shù)據(jù)支撐。

　　自然語言的數(shù)據(jù)是離線的，屬于方法論上的學(xué)習(xí)；而機器人決策離不開很多高質(zhì)量數(shù)據(jù)，其中多數(shù)來自于開放場景中遇到的突發(fā)性狀況。由此，從單一的封閉式場景任務(wù)向開放場景延展，成為機器人從業(yè)者魚貫而入的一條路徑。

　　去年4月，邱迪聰和團隊成立了雅可比機器人，聚焦具身智能商超服務(wù)機器人，通過人類語音指令的控制，即可讓機器人在商超場景下實現(xiàn)多任務(wù)執(zhí)行能力，包括自主巡檢、自動補貨、貨品分揀等。4個月后，雅可比機器人完成天種子輪融資，投資者包括AI大牛、奇績創(chuàng)壇創(chuàng)始人陸奇。

　　一邊是開放場景對機器人提出的極高要求，包括開放詞匯的感知能力、非機器學(xué)習(xí)方法的任務(wù)規(guī)劃、高頻任務(wù)執(zhí)行的閉環(huán)能力等；另一邊，大模型的語義理解、抽象規(guī)劃和推理等能力被印證，可以處理許多復(fù)雜任務(wù)，這為機器人在長尾場景中應(yīng)用提供了一個可行性的通路。

給機器人裝上「大腦+小腦」

　　諾貝爾經(jīng)濟學(xué)獎得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一書中提出，人類的兩種思考模式，第一種是以直覺判斷為主的“快思考”，第二種是“慢思考”，需要進行大量的推理和計算。

　　大模型與過去 AI 技術(shù)不同點就在于，它采用了“慢思考”模式，令機器人可以在與人類的交互中不斷學(xué)習(xí)，獲得更好解決任務(wù)、解決更多任務(wù)的能力。但也正因如此，關(guān)注AI、機器人賽道的投資人郭旭告訴硬氪，絕大部分落地或完整的機器人產(chǎn)品和項目，普遍希望“一招通吃”，例如大模型的能力很強，就想直接做一個端到端的巨型通用模型來解決所有問題。

　　對此邱迪聰指出，“從實際ROI投入產(chǎn)出比的角度來說，可能不一定劃算、或者說不一定適合當前這個階段。”

　　開放場景用戶的需求復(fù)雜，大模型的訓(xùn)練和推理費用高昂。據(jù)海外《The Economics of Large Language Models》研究測算，每個token（1000 token約為750個單詞）的訓(xùn)練成本通常約為6N（N為參數(shù)的計量單位），推理成本約2N。即推理成本相當于訓(xùn)練成本的三分之一。一旦模型上線使用，其推理成本可能遠超訓(xùn)練成本。

　　因此，大模型應(yīng)用于機器人的部署成本也很高。最終帶來的結(jié)果是，其市場價格并非普通中小型企業(yè)能消費得起的，市場規(guī)模和普及程度有限。

　　要平衡這種尷尬局面，類人腦機器人不失為一個重要的探索方向。即讓機器人模仿人腦的運轉(zhuǎn)分工，通過“大腦+小腦”兩個結(jié)構(gòu)互補，大腦負責(zé)視覺、聽覺和意識等高層次的感知和決策功能，小腦則負責(zé)協(xié)同數(shù)據(jù)來控制運動、平衡和行為姿態(tài)。

　　以邱迪聰和團隊提出的“通用機器人大腦”為例，通用機器人大腦由“大腦”J-Mind和“小腦”J-Box構(gòu)成，J-Mind負責(zé)理解任務(wù)、下發(fā)指令，并交由J-Box來執(zhí)行。

　　首先在感知層，結(jié)合了LLM+VLM（大型視覺 - 語言模型）的技術(shù)路線可以就指令、結(jié)合物理環(huán)境進行理解，提高機器人對開放場景的認知能力，即不僅能“看到”場景中的各種物品，還能“看懂”用戶的需求。比如機器人原先只認識可樂，但在看到雪碧、橙汁等新物品時，可以通過其外形與可樂相似、“推斷”出它們也是罐裝飲料，并讀取包裝信息，從而認知到新物品。

　　雅可比機器人工作中

　　邱迪聰告訴硬氪，雅可比機器人之所以選擇商超作為自身產(chǎn)品的首個應(yīng)用場景，正是因為商超的人員聚集效應(yīng)，有大量反復(fù)的物品信息和交互產(chǎn)生，可以為機器人自我學(xué)習(xí)提供數(shù)據(jù)支撐。也即是說，機器人是從真實場景中收集數(shù)據(jù)實時學(xué)習(xí)，而非在已有的數(shù)據(jù)庫找答案。

　　在決策層，機器人通過J-Mind可以將用戶需求轉(zhuǎn)化具體的指令和子步驟，形成任務(wù)分配輸出與決策動態(tài)閉環(huán)，下發(fā)執(zhí)行任務(wù)給到J-Box。隨后，再由J-Box來驅(qū)動機器人完成操控、抓取、放下等動作。

　　機器人正在進行「抓取、放下」

　　例如，當商超貨架缺貨時，店員只需以口頭或文字輸入的形式，提出“貨架上可樂缺貨、需補貨”的指令，雅可比機器人可自動移動到所需補貨的貨架前，識別貨架陳列狀態(tài)。當J-Mind在多類物品識別到可樂后，可將補貨指令拆解為子步驟，由J-Box來抓取可樂、并把可樂放置到貨架的空缺位置中。

　　這種“大腦+小腦”路線在通用機器人大腦的基礎(chǔ)框架上，集成了很多經(jīng)典的主流機器人算法，無需部署工程師，開箱即可使用；同時還支持人工調(diào)度和機器人自動化協(xié)助，靈活性更高，由機器人大腦來判斷任務(wù)是否需要調(diào)用大模型、亦或是用算法就能解決的，進而降低服務(wù)成本。

商業(yè)化困局：迭代周期長、高成本

　　公開數(shù)據(jù)顯示，2017年至2021年五年間，全球智能服務(wù)機器人從原本未達百億的市場增長至200億美元，預(yù)計到2026年將超過600億美元。

　　其中，中國智能專業(yè)服務(wù)機器人市場也從2021年的百億元、預(yù)計到2026年可邁向千億規(guī)模，增速較快。

　　可以看到，相比于商場里只能移動或展示廣告的傳統(tǒng)機器人，大模型的出現(xiàn)讓人們看到了具身智能的希望，以雅可比為代表的商超機器人已經(jīng)實現(xiàn)了一個臺階的提升。

　　不過，其痛點也依舊存在。在技術(shù)層面，大模型增強了機器人的理解能力，但機器人本身是一個復(fù)雜的跨學(xué)科系統(tǒng)，涉及仿生學(xué)設(shè)計、AI應(yīng)用、動力學(xué)建模、能量管理等等，要實現(xiàn)從理解、決策到控制運動、執(zhí)行任務(wù)，還需要匹配各種算法和軟件。AI技術(shù)升級迭代不是線性發(fā)展的，周期長、投入高，存在長期無法突破關(guān)鍵技術(shù)的風(fēng)險。

　　硬件方面，機器人的征集結(jié)構(gòu)復(fù)雜，核心零部件決定了其精度、穩(wěn)定性、負荷能力等重要性能指標，其中技術(shù)難度最高分別是減速器、伺服系統(tǒng)和控制器，占成本的70%。加上傳感器等其他零部件，這些都會增加機器人的制造和后期維護的成本。

　　邱迪聰就告訴硬氪，商超場景客戶對ROI十分關(guān)注。為此，雅可比機器人已找到核心零部件的供應(yīng)渠道，“這種方式的成本控制空間較高，核算下來符合預(yù)期。”

　　此外，機器人在產(chǎn)品化過程中，基于開放場景的融合打磨和迭代，也需要時間來產(chǎn)生和驗證價值。

　　某機器人廠商的市場負責(zé)人向硬氪表示，“下游買家一定是需要拓展和教育的，很難實現(xiàn)一上市就得以被接受和認可。解決方法一是產(chǎn)品持續(xù)迭代，二是要與客戶保持緊密溝通，這是一個共同打磨產(chǎn)品、共同打磨場景的過程，通過這種共創(chuàng)的形式，發(fā)掘更多產(chǎn)品價值。”

　　例如除商超場景外，雅可比機器人也在探索餐飲服務(wù)、辦公室、家用等環(huán)境。機器人作為餐廳服務(wù)員可以完成點菜、上菜等任務(wù)；作為公司前臺可以引導(dǎo)訪客，并完成材料分發(fā)、倒水等任務(wù)；作為家庭助手，協(xié)助整理衣物、擦洗家具等。

　　? 機器人餐飲服務(wù)工作流程

　　 “我們最終的目標是，從商超場景出發(fā)，將機器人所學(xué)遷移至更多場景中，進入到日常的家庭生活，真正實現(xiàn)多個任務(wù)的自動化閉環(huán)。”邱迪聰說到。

　　無法否認，目前市場上的機器人整體還處于一種“玩具”的階段，遠沒有達到大規(guī)模產(chǎn)業(yè)化的地步。但可以期待的是，通過機器人和大模型的融合方法，有“大腦+小腦”的仿真演化，有大模型與經(jīng)典算法的自動化協(xié)同，有規(guī)則和模型的相互轉(zhuǎn)化，一個更復(fù)雜的、可以不斷自我成長的機器人智能體或許已經(jīng)不遠了。

THE END

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；刊載之目的為傳播更多信息，如內(nèi)容不適請及時通知我們。

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

當AI大模型卷向服務(wù)機器人，會有哪些新故事？｜硬氪分析

相關(guān)熱點

最新文章

相關(guān)推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節(jié)點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復(fù)消息，背后原因挺“傷人”

關(guān)注我們

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

當AI大模型卷向服務(wù)機器人，會有哪些新故事？｜硬氪分析

相關(guān)熱點

最新文章

相關(guān)推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙 航天員劉伯明成功開啟天和核心艙節(jié)點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復(fù)消息，背后原因挺“傷人”

關(guān)注我們

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節(jié)點艙出艙艙門