對話王田苗：萬億市場之下，大模型+機器人還有四大問題未解決

對話王田苗：萬億市場之下，大模型+機器人還有四大問題未解決 | 硬氪專訪

來源：下飯影片釋出時間：2024-04-30 13:37

作者｜黃楠

編輯｜袁斯來

今年3月，一段兩分半鐘的影片點選量破百萬。沒有太多花哨的情節，白色背景前，一個人形機器人遵照人類指令，遞給對方蘋果，歸置好桌上的杯子和餐碟，並解釋這樣做的原因。

這段影片來自當紅人形機器人初創公司Figure。成立不外兩年，Figure估值已達26億美元，其投資人包括微軟、英偉達、英特爾、貝佐斯等，被戲稱金主覆蓋半個矽谷。

影片中，Figure機器人啟動頁面，出現醒目的“powered by OpenAI”。除了自己開發的神經網路技術，Figure這款產品背後顯然有OpenAI的生成式AI支撐。

AI讓人形機器人擁有新的可能。一個誕生於1950年的概念“具身智慧”（Embodied Artificial Intelligence）進入人們視野。

在這一概念下，藉助大模型，機器人感知、決議計劃與互動提升，具備更強的自主學習能力和環境適應性。機器人賦予大模型現實的物理載體，讓曾經的虛擬智慧走進現實世界。

技術和現實的交織足以掀起廣闊的想象，業界普遍認為具身智慧將是一個萬億市場。

最近一系列的行業進展似乎給出了證明：2月份， FigureAI完成6.75億美元融資；3月份，英偉達釋出人形機器人通用模型Project GR00T，推動機器人理解自然語言，並觀察人類行為模仿動作；同是3月份，斯坦福李飛飛團隊釋出開源“靈巧手”、成本僅2.5萬美元；而在4月16日，波士頓動力先是宣佈了數字液壓驅動的雙足人形機器人Atlas退役，不到12小時又釋出了代表力量與靈活的全電驅動Atlas 001，展現出腰與脖的全向旋轉機構及髖部球形關節……

一級市場的機器人專案投資火熱，二級市場的核心零部件廠商、概念股也風起潮湧，人形機器人公司優必選上市後，市值一度超過千億港元。

然而，“機器人+大模型”落地狂潮中，仍有保持謹慎樂觀的少數者。北航機器人研究所名譽所長、中關村智友研究院院長王田苗就是其中一員。

北航機器人研究所名譽所長、中關村智友研究院院長王田苗

90年代初，中國工業機器人尚在萌芽期，王田苗已經進入一個和移動機器人相關的國家重大專案組中，研究無人駕駛技術。30多年過去，王田苗和團隊研發出海內第一款獲得許可證的醫療機器人，也成為硬科技領域低調但不可忽視的創業導師。

2020年，王田苗聯合十五位科學家發起成立了“智友科學家基金”，一如既往，王田苗和團隊希望發現和培育服務國家科技戰略的早期硬科技專案。具身智慧、機器人、機器人上游核心部件正是他關注的重要領域。

與硬氪交流的一個多小時裡，王田苗語氣中難掩對具身智慧或將掀起產業變革的興奮。中關村智友研究院已經覆蓋包括高精度RV減速器、全真精密光學影像系統、力感測器柔性智慧裝備、具身智慧AI通用機器人平臺等軟硬體方向。

但在行業沉浮三十多年後，王田苗早已習慣以冷靜的目光審視狂熱。以Figure釋出的產品為例，“Figure機器人在影片中呈現的延遲時長約為2-3秒，它使用了Pipeline、管道型路線，即自然語言傳送後、機器人大腦可以理解並生成指令，由指令來控制。當接入通用大腦後，其延遲速度約要乘以20倍。” 王田苗告訴硬氪。

具身智慧走過半個多世紀，某一款產品的爆火消弭並不會落地和商業化等現實性問題。一個溫度驟升的行業需要這樣的視角，才不至於在蜂擁而入的資本和宏大敘事中迷失。

圍繞具身智慧的機遇與挑戰話題，硬氪對王田苗進行了專訪，以下是本次交流（經編輯）：

有效的機器人通用基礎模型還未出現

硬氪：對比上一代機器人技術路徑，具身智慧的革命性體現在哪裡？

王田苗：具身智慧強調和追求機器人泛化及大規模應用。第一，它透過嵌入大模型互動，使機器人能夠聽懂語言，理解客戶的指示，並讓具身智慧體到相應的地方進行操作。第二是結構化的固定環境加上感知垂直大模型，能識別並重建環節，拓寬機器人使用的環境，提高智慧化水平。因此，人們期待具身智慧即大模型+機器人能夠實現“一腦多機”或“一腦多型”的爆發。

硬氪：具身智慧真正得到學術界、工業界、金融界重視是在這兩三年。狹義來看，是否可以理解為讓機器人透過自我學習進行認知和決議計劃，從而完成相應的任務？

王田苗：從大語言模型的發展開始，我們可以看到語言處理領域的明顯提高。傳統的解決方法通常是依賴於知識圖譜，並結合人為設計的邏輯以及多個小任務模型來解決問題。然而隨著技術不斷進步，尤其是AlphaGo在圍棋領域的優秀表現，以及AlphaZero在蛋白質分析方面的突破，人們開始期待用一個通用模型的訓練和微調，來解決所有問題。這也是為什麼大模型被視為未來社會數字化、智慧化、治理化的執行底座。

機器人作為人們改造世界的工具，具身智慧概念誕生後，人們開始思考，機器人領域是不是也能誕生這樣通用大模型。

目前工業機器人的裝機總量約為300萬臺，每年世界60萬臺，中國佔總量的一半、是30萬臺。有這樣一個“通用大腦”後，就能大規模、高效率地泛化遷移應用，解決許多問題。

硬氪：那這個機器人通用模型現在出現了嗎？

王田苗：目前還沒有一個有效的模型出現。

以實時性問題為例。Figure機器人在影片中呈現的延遲時長約為2-3秒，它使用了Pipeline、管道型路線，即自然語言傳送後、機器人大腦可以理解並生成指令，由指令來控制。當接入通用大腦後，其延遲速度約要乘以20倍。

硬氪：有什麼解決方案？

王田苗：常見的解決方案是，為不同的任務設定多個小模型，並提供不同的引數訓練，端到端減少推理成本。另外，將專用小GPU晶片置入到機器人中，也可提高任務實時性，目前特斯拉已在自動駕駛中嘗試了這種做法。

硬氪：今年有哪些細分場景的模型值得關注？

王田苗：今年3月，李飛飛團隊開發Behavior-1K，完成了對1000種日常活動的定義，並以房屋、花園、餐廳、辦公室等50個場景為基礎，標註9000多個擁有豐富物理和語義屬性的物體。

接著到4月，特斯拉推出多模態大模型Grok-1.5v，利用端到端高速大模型FSD推理，有望連線數字世界與物理世界，解決自動駕駛邊緣案例的線上迭代學習問題。

硬氪：業界對機器人「大腦+小腦」路線的關注度很高。大腦用大模型認知智慧、人機互動以及相關場景的調動，小腦實時控制機器人本體，產生靈巧操作，隨著大模型能力提升，是否有可能反哺給小腦，進而帶動其感知、行為等能力提升？另外有關技能型勞動操作，會不會具有專業小模型，分別實現高效作業比如焊工、鉗工、車工、打磨拋光、噴塗、裝配、拆裝等。

王田苗：這個問題正是目前學術界、產業界所關注，並且產生爭議的地方。

大腦主要負責慢思維與推理，是智力的核心所在；而小腦則聯絡關係著對事物的反應敏感程度，更多涉及身體的協調與運動的控制。從邏輯上講，人們希望今後機器人的大腦能越來越聰明、弱化小腦能力，力圖透過大模型得以統一。比如大模型知道什麼是蘋果，也知道蘋果可以飽腹，當我們向機器人提問“什麼東西能吃”時，機器人就能自動取出一個蘋果。但要真正實現它，現階段仍有很多挑戰。

在人類歷史進化過程中，人類行為的智慧進化遠遠先於語言智慧的進化。這可能意味著語言、視覺感知、觸覺感知以及行為等智慧在大腦圖譜中並不是同一個位置，很可能是由不同模型所驅動的。莫拉維克悖論也揭示了這一現象--電腦下棋容易、感知和行動智慧方面卻面臨挑戰，這通常表現為頂層智慧的智慧程度高、精度差、反應慢，而底層智慧的智慧程度低、精度高、反應快。

硬氪：更具體看，還有哪些問題是沒有解決的？

王田苗：首先是如何讓機器人的“大腦”更聰明。現階段機器人在解決複雜環境感知、動作生成、靈巧操作等問題時存在侷限性。儘管大模型增強了其學習、語義理解、推理及判斷能力，但在從理解、推理、判斷、執行到運動系列過程中，還涉及其他多種模型演算法和軟硬體協同的問題，包括感知智慧模型、行為智慧模型以及原有智慧控制理論，如MPC模型預測控制與WBC全身協調控制等。

問題一：機器人基礎大模型RFMS問題

同時，Scaling laws（尺度定律，這一定律表明，模型大小、資料集大小和用於訓練的計算浮點數，與模型的效能存線上性相關。）能否在機器人基礎大模型中復現尚未可知，這些技術的開發和迭代本身具有難度，再加上週期較長、投入高，短期內要突破關鍵技術仍面臨著不小的挑戰和風險。

問題二：智慧進化與大小模型問題

第三是要解決具身智慧大模型與硬體的融合、配合問題。人形機器人的整機結構複雜，僅零部件就超過5000個，從理解指令到執行任務，都是極大的工程量。

因此有觀點提出，在機器人的智慧層、感知層、動作層中分設Agent，由Agent來呼叫工具解決具體問題。

問題三：具身智慧的體系結構問題

最後就是落地環節。機器人產品化過程需要用時間來產生並驗證價值，如果說研究具身智慧的出發點是為了降低時間成本或提升效率，進而實現生產力的飛躍，而非為了取代人類工作，那麼基於場景的融合打磨與迭代至關重要。

問題四：勞動型具身智慧研發優先應用的領域問題

硬氪：要實現專業和通用，過程中的難點是什麼？

王田苗：軟體方面的挑戰主要是真實、實用、海量資料的產生與訓練問題。其中，資料收集尤為關鍵，機器人所需的資料不僅涵蓋網際網路資料和影片採集資料，更需要包括眾多物理環境中的真實互動資料，這些模擬生成的資料是難以替代的。

此外，資料對齊也是一大難題。語言模型能夠學習並生成人類能理解的語言，但在機器人領域，我們面臨著海量未標註的異構行為大資料，這使得語義與資料的對齊變得異常困難。其中還涉及到語義歧義問題、模型可能產生的幻覺的安全問題，以及標準化測試平臺和訓練完成後安全使用評價問題等。

另一方面就是效率與成本問題。從仿生機器人的發展歷程來看，自1997年日本本田推出的Asimo人形機器人，到2008年波士頓動力的大狗機器人，再到後續活蹦亂跳的人形機器人，甚至從特斯拉人形機器人到Figure人形機器人，我們確實見證了具身智慧在大模型、感知、算力等方面有了重大突破。

然而，不能忽視的是，具身智慧在結構、驅動、動力等真實能力方面，尚未實現根本性的突破。其中，行為智慧成功成本，與“行為資料取樣學習次數”乘以“每一次訓練成功的成本”得到的結果相比，其比值仍然遠遠小於1。這導致具身智慧的載體性物種在靈巧性、成本性、能源維護性、使用體驗安全性等方面仍存在諸多挑戰，距離通用機器人走向千家萬戶還有距離。

此外，實時性和推理速度也是當前具身智慧面臨的重要問題。目前基於大模型的機器人控制週期線上決議計劃最快也需要50ms，一般延遲達1-5秒，這遠遠無法滿足目前工業應用中對機器人要求10ms以下，最好在3ms的要求。

硬氪：在機器人和AI結合中，有哪些比較關鍵的成本？

王田苗：機器人結構複雜，核心零部件決定了其精度、穩定性、負荷能力等重要效能指標，其中技術難度最高分別是減速器、伺服系統和控制器，佔成本的60-70%。加上感測器等其他零部件，都會增加機器人的製造和後期維護的成本。

此外，為了解決實時性問題，需要大量GPU算力與訓練的能耗。有研究測算，每個token（1000 token約為750個單詞）的訓練成本通常約為6N（N為引數的計量單位），推理成本約2N，即推理成本相當於訓練成本的三分之一。

機器人的三大主導方向

硬氪：面向開放場景的泛化問題，技術上該怎麼解決？

王田苗：從具身智慧的體系結構出發，對機器人下達拿水杯的指令時，這是意圖；機器人會將其分解為具體的運動步驟，包括視覺範圍內看到水杯、接近、拿起，一系列動作由感知模型和操作模型協同完成，當機器人後續面對多工場景時，理想狀態下它能夠利用先前的經驗進行復制泛化，減少對程式設計水平和質量要求。

現實生活中，由於所有的視覺感知都是變化的，人機互動、任務規劃、動作軌跡和操作模型需要應對突發性事件，由此也有想法提出，每一層都應有一個具身代理，再根據特定任務產出領域大模型。

硬氪：具身智慧會優先在哪些場景中落地？

王田苗：從廣義來看，將機器人和大模型運用在社會上，我堅信會從商務、工業、最後再進入消費環節。

其中，商務場景包括物流（室內外與低空）、出租、藥店、超市、清潔、接待等，更容易率先取得突破性進展；第二類是工業與農業，工業包括汽車、核工業、化學藥品、醫院傳染病處置、電池回收拆裝等，農業則包括種植、採摘、分揀、屠宰、上下料、預製菜、包裝等；最後才是消費場景，例如打掃、炒菜、陪護、養老、打掃房間、護工保姆等。

硬氪：在產品形態上是否有創新空間？

王田苗：當然。一方面，有工業界和理性的企業熱衷於用新技術、新形態去探索專業化的新應用，他們注重技術的實用性和對專業領域的適用性，希望透過不斷的技術創新來推動業務發展。

另一方面，大部分學者或懷揣夢想的創業者則認為通用大模型+人形機器人是未來的發展方向，更關注技術的前沿性和未來潛力，相信技術將為人類社會帶來革命性的影響。

二者有所不同，前者注重應用上的創新性，後者是完全顛覆性的創新，兩條路線哪一條率先走通，都離不開市場檢驗。我們看到，在物流、清潔、無人計程車等場景中，並沒有人形機器人的身影，包括焊接、噴塗等環節中多有應用。市場和供求關係緊密相關，家庭環境更關注其智慧化、情感化、安全化，工業場景更強調效率、準確率和成本，場景約束不同，兩類場景會刺激不同型別的機器人及其核心零部件創新。

硬氪：如何看待機器人接下來要重點突破的發展趨勢？

王田苗：當下有三個主導方向。

第一是攻克核心零部件，包括高動態、高精度、高扭矩的驅動單元，剛柔耦合的新材料靈巧手，人工肌肉與電子皮膚，低成本的生物感測器，上游正向設計的電機或減速器等。

第二是夯實垂直應用並通過出海獲得利潤，特別是面向具有連鎖店或生產服務屬性的中小微企業，提供服務應用。

第三是擁抱大模型。包括大腦機器人基礎大模型，具身代理Agents，低功耗專用小模型算力GPU與編譯器，以及生成式資料動作庫；同時，關注小腦實時技能操作、行為智慧控制和實時安全評測等方面的技術進展；免程式設計與安全演算法，通用機器人與人形機器人應用App的開發也是重要一環；此外，資料服務--垂直模型專用技能資料服務公司，“勞動”派遣運營服務公司等也有望成為產業鏈中不可或缺的一方。相信大模型和機器人會是未來大國可持續競爭力的發展焦點。

上一篇：多項晶片領域... 下一篇：體檢發現“心...