0

作者丨向 欣
編輯丨高景輝
雷峰網報道:機器人進入真實世界“干活”,到底需要什么數據?
面對這個問題,大多數具身智能從業者可能都會回答“操作”。的確,人們干活離不開雙手,那么人形機器人的末端精細操作數據,順理成章地成了重中之重。
但橋介數物創始人尚陽星,給出了一個截然不同的答案。
在他看來,機器人全身運動數據的重要性被大大低估了,機器人想進入真實環境完成復雜任務,僅靠操作能力遠遠不夠,底層的全身運動能力才是基礎。
他做了一個比喻:如果把機器人類比成電腦,運動控制能力相當于操作系統的內核,操作模型則是應用軟件。沒了底層系統,應用就無法運行。
也就是說,缺少高質量的運動數據和全身運動模型,機器人將難以適應不同地形、應對突發擾動,實現長時間穩定運行和落地。
基于這個判斷,橋介數物在半年前啟動了“跨本體全身運動數據工廠”的建設,并于近期正式投入使用。
橋介將他們采集的數據定義為跨本體全身運動數據(Cross-Embodiment Whole-Body Motion Data),簡稱CWM。
CWM包含人體全身動作、第一人稱和第三人稱視角視頻、語義標簽、環境信息以及接觸與物理狀態信息,是一種多模態數據,用于訓練通用的全身運動模型,最大的亮點是具備跨本體能力。
有了數據工廠,深耕運動控制基礎設施,橋介數物想構建一個人形機器人的通用操作系統,類似于尚陽星早些時候在中國移動具身智能產業大會上提出的Runtime Robot OS(運行時機器人操作系統)。
簡單來說,這是一套通用的底層運動能力基礎設施,讓不同機器人復用同一套運動模型,新機型接入后,也無需再為大量動作重復訓練。
橋介的定位也隨之發生變化,由具身小腦廠商,成長為具身智能基礎設施公司。不過在某種意義上,這其實是一種回歸,尚陽星說:“從創業開始,我想做的就是機器人時代的基礎設施。”

01
▎AI科技評論:現在機器人Demo已經能跑能跳能越障了,看起來全身運動已經算不上核心瓶頸,為什么你們還要做運動數據工廠?
尚陽星:目前能看到的機器人運動視頻,基本都是針對特定場景調出來的。例如春晚的機器人,七八個工程師花三四個月才能完成一個表演,換個場景就不行了。
這里的核心問題是運動泛化能力差。我們理解的泛化,是讓一套系統適應不同地形、不同機型、不同動作,在復雜環境中長期穩定運行。現在還沒有機器人能做到這一點。
我們之前給客戶做運動控制,用的雖是通用框架,但還需針對性適配。建數據工廠,就是為了訓練出真正通用的底層運動模型,讓機器人能擁有像人類一樣的運動能力,而這件事目前遠遠沒有被解決。
▎AI科技評論:真實環境里,機器人最容易在哪些地方出問題?
尚陽星:首先是感知問題,當前機器人的感知是被動的,就像人閉著眼睛走路,所以遇到意外時反應很劇烈,人流密集時存在安全隱患。最近也有些公司發布了機器人的語言交互demo,但這種理解都比較淺,沒有對真實外部世界的理解。
其次是長期運行問題。長時間運行后,關節出現磨損、性能變化時,機器人很難像人類受傷后那樣繼續調整動作并適應環境,持續學習與自我補償能力仍然不足。這都是我們會著力解決的方向。
▎AI科技評論:做通用的底層運動模型,對具身智能落地有實質性價值嗎?
尚陽星:行業大多僅聚焦人形機器人上半身控制,往后要實現機器人全身協同作業,就必須搭建通用全身運動控制基礎模型。依托這套模型,手部動作操作模型可直接部署應用,不用重復解決全身運動適配難題。
▎AI科技評論:機器人全身運動能力那么重要,為什么行業不太重視運動數據,反而都聚焦上半身控制,去采集操作數據了?
尚陽星:因為疊衣服、端咖啡、擰螺絲這些操作類任務成果直觀,價值容易被看見。
機器人的運動能力可以視為Windows、iOS這些底層的基礎運行系統,操作能力則相當于系統之上的各種APP。如果沒了底層系統,所有應用都無法運行。
機器人也一樣,沒有穩定的全身運動能力,復雜操作只能局限在固定桌面,無法真正落地。
市場需要大家多做應用,但也需要有人做基礎設施。基礎設施平時不被注意,一壞就出問題;做好了卻不容易被察覺,但非常重要。
▎AI科技評論:為什么不去外面買數據,而是選擇自建數據工廠?
尚陽星:三個原因。一是市面上買不到高質量的運動控制數據,賣這類數據的人極少,而且價格貴。國內專注于運動控制且特別重視這件事的,可能只有橋介。我們內部之前也有用動捕設備采集,但進度很慢,需要更加工業化、規模化的采集手段。
二是我們發現過去數據都有很強的“本體綁定”問題。機型變了數據就沒法用了,遷移能力很差。我們需要更多無本體的數據,促進模型快速迭代。
三是我們發現數據量越多,全身運動基礎模型表現越好。這不僅是我們在工作過程中發現的規律,英偉達在一個項目中也提到了這個觀點,數據規模越大,模型效果會更好。英偉達開源了數百小時的運動數據,不過這個量級離上限還差得很遠。既然發現這個領域也存在Scaling Law ,我們就下定決心投入了。
▎AI科技評論:最近大家都在談世界模型,很多人認為它會成為機器人理解物理世界的關鍵能力。橋介也會往這個方向布局嗎?
尚陽星:我們也在訓練動作層面的世界模型。訓練世界模型本身也需要大量數據,視頻是其中重要的一類。不過,世界模型可以接受任何形式的視頻,但在處理動作這個維度上,需要做一些特殊處理。

02
▎AI科技評論:你們是怎么采集數據的?
尚陽星:我們的數據工廠使用動捕 + 視頻(包括第一人稱和第三人稱)方式,采集后還會人為標注語義標簽。
我們采集的是人類全身運動數據,包括手部和全身的動作,一開始會從不涉及精細操作的全身動作入手。這類數據可以和行業現有的操作數據配合使用,是一種補充。
▎AI科技評論:為什么要選擇這種采集方式?這會比行業主流的方式更好嗎?
尚陽星:優勢在于兩點。一是無本體,數據可以跨本體遷移,且采集更為簡單。很多廠商采用遙操作,數據和本體強綁定,復用性較差,而且還需要人去適應機器人,動捕不需要。
二是數據精度更高。現在很多人體數據依賴視頻提取,全身動作還原精度有限。要采集高精度、高質量的全身人體動作,目前只有全身動捕這一種方法。這些高精度數據后續也能用于訓練視頻動作提取模型。
▎AI科技評論:去年開始行業開始流行無本體采集方案,UMI就很受歡迎,為什么不用這種成本更低且簡易的方案?
尚陽星:UMI 本質上是去掉機器人本體,只保留末端執行器,用夾爪和相機采集數據。問題在于,如果用夾爪采集,以后本體上的夾爪無法換成其他執行器,靈活性也比人手差,而且視頻提取的人體全身動作精度也不夠高。
后來行業開始轉向采集人體數據,因為人體數據更通用,不會綁定某一個機器人。
新的問題是,人和機器人結構不同,不同機器人之間也有差異,所以人體動作還需要經過重定向和適配。因此我們特別強調跨本體能力。
▎AI科技評論:你們的跨本體是如何實現的,有技術壁壘嗎?
尚陽星: 遷移中涉及的核心技術是重定向。我們做了一套自己的重定向引擎,可以自動適配不同機器人構型、動作和地形,還支持邊采集邊重定向。
行業很多重定向方案只考慮運動學,就是只復現運動軌跡,我們還加入了動力學,會同時考慮重力、受力和平衡問題。一般的數據工廠都不會做到這一步。這也屬于我們的技術優勢。
比如人跳起來是一條拋物線,如果機器人只是照著軌跡模仿,很容易落地失敗。加入動力學后,它會結合自身結構和受力情況調整動作,更符合真實物理規律。
▎AI科技評論:在數據遷移過程中,哪些構型的機器人更容易遷移,哪些更難?
尚陽星:橋介采集的是人類數據,因此主要面向與人類形態最接近的雙足人形機器人。機器人的形態與人越像,數據遷移越容易;越不像則越難。
▎AI科技評論:為什么不選落地更容易的四足狗或者輪足人形做運動控制?很多人覺得,四足狗加個機械臂比人形落地更快、成本更低,輪足在很多場景也夠用了。
尚陽星:輪足在特定場景確實夠用,但如果目標是物理世界的AGI,就需要更通用的形態,也就是雙足人形。
至于落地,我有個非共識的看法:人形機器人會比四足更先落地。
這有點像大語言模型。語言能力其實是人類后演化出來的,但因為互聯網文本數據足夠多,所以它反而最先突破。機器人運動也是一樣,過去運動數據沒人系統記錄,但現在如果開始大規模采集,可能也會很快突破。

03
▎AI科技評論:你們收集的全身運動數據不涉及精細操作,未來要怎么和市面上的操作數據融合?
尚陽星:我覺得不會有融合問題,或者說我們會把融合做好。我們更傾向于分層式架構:上層負責認知和任務理解,底層負責實時運動控制,而橋介提供的是底層運動控制模型。
原因是認知模型體量大、推理慢,運動控制模型則對實時性和安全性要求很高,兩者很難用同一個模型兼顧。Figure的具身模型就是多個系統。
未來機器人行業也會像操作系統和應用軟件一樣,形成更明確的軟件分工。
▎AI科技評論:這其中有個很大的問題是行業數據格式不統一,你們怎么處理?
尚陽星:現在行業的數據格式,大多沿用了影視動畫行業的體系,所以標準并沒有特別混亂。
出現這個問題的原因之一就是數據和本體強綁定,應該采集無本體數據,現在這已經是大趨勢。
▎AI科技評論:做數據工廠,最難的環節是什么?
尚陽星:數據處理、數據閉環是最難的。
大規模數據需要完整的數據管線,解決調配、算力處理等問題。數據工廠還要跑通“設計—采集—處理—訓練—反饋”的完整閉環,背后涉及大量系統協同和流程管理。
其中采集環節是成本最高的,反饋環節決定數據有效性。單純動作采集難度不高,花錢配齊設備就能做,難的是后續整體運營與統籌管理。
▎AI科技評論:你們怎么定義高質量運動數據,數據質量又如何保障?
尚陽星:高質量數據首先要噪聲小、軌跡穩定,動作姿態自然,不能出現肢體穿插、穿透等異常情況。
數據質量主要取決于錄制方式和動捕設備精度。動捕設備直接錄制的數據精度高、質量好;從視頻提取的數據精度就差不少。
因此在源頭環節,就得高精度動捕設備做標準化采集,我們設計了涵蓋動作分類、質量權重、標簽維度、環境參數、位姿信息及質檢標準在內的準入體系。
但設備本身存在局限,難免出現異常數據,所以采集完成后會經過人工核驗,程序自動篩選環節,通過自研管線完成跨本體的數據清洗、動作重定向等等,就連訓練階段也會再次篩查。
最后,訓練結果還會反向指導數據采集。比如哪些動作效果不好、哪些場景覆蓋不夠,都會反饋給采集端,用來調整下一輪的數據采集方向,形成持續優化的數據閉環。

▎AI科技評論:行業有種觀點是臟數據也有用,你們也會收集這類數據嗎?
尚陽星:臟數據應該分為兩類,任務失敗數據和低質量數據,兩類數據的價值完全不一樣。
大家說的臟數據,應該是指機器人執行任務失利后恢復的數據,比如摔倒后自主起身,這類數據很有采集價值。
而低質量數據,是采集時因設備故障等問題錄出來本身就是錯誤失常的動作數據,這類數據沒有用處,不需要留存。
▎AI科技評論:同時滿足高質量和大規模兩個要求一直是具身數據領域的難題,橋介是怎么平衡數據規模和數據質量的?
尚陽星: 先用一小批有一定規模、高質量的數據訓練模型,再用該模型從視頻中挖掘更大規模的數據,相互增強。
視頻包含了一切信息,只是目前提取不出來。就像自動駕駛,視頻里可能包含深度信息,但模型能力不夠就提取不了,需要視頻與深度的配對數據訓練模型。
機器人同理,視頻包含大量人體動作信息,人看視頻就能學會,但當前從視頻中提取這些信息的基礎設施還沒建好。
▎AI科技評論:訓練過程中會用仿真數據嗎?
尚陽星:會,而且仿真數據是必須的。人體數據經過重定向后,機器人還需要在仿真環境里做強化學習訓練,用來彌補人體動作和機器人實際執行之間的差距。
離開數據工廠后的復雜環境適應,本質上也依賴強化學習來完成泛化。
▎AI科技評論:使用的真實數據和仿真數據的比例是多少?
尚陽星:仿真數據會比真實數據多好幾個量級。

04
▎AI科技評論:現在數據工廠處于什么階段?
尚陽星:已經跑通了所有流程,在產能爬坡階段。過去三個月,我們在內部試點中跑通了跨本體全身運動數據工廠的端到端鏈路,累計產出了近千小時高質量 CWM 數據,數據訓練出的模型在十多款不同足式機器人上完成了驗證。
我們規劃今年內一天采集數十個小時的數據,一個月就是數千小時。今年預計會收集上萬小時的數據。
▎AI科技評論:這些數據會帶來哪些提升?未來會開放給行業嗎?
尚陽星:主要是我們模型泛化能力的提升,特別是不同動作之間的泛化。目前機器人跳不高或做不好極端動作,補充更多數據后就能學會。
我們的數據主要服務于內部模型訓練,不會直接給外部使用。但如果有合作方想購買數據,也可以談。
▎AI科技評論:具體到產品上,今年會拿出什么?
尚陽星:數據訓練出來的能力,會通過我們的平臺化產品提供給大家。
去年更多的是非泛化的動作。今年我們重點解決兩個泛化:跨本體和跨機型。
6月我們會推出一個革命性的產品,這會是歷史上第一個將機器人運動控制做成標準化方案的產品。
我們的設想是,未來任意機器人接入平臺后,就能快速獲得對應運動能力,不再為每個動作重復訓練。
比如平臺可以和機器人拳賽結合,讓用戶自由組合不同機型的技能,分力量型、速度型等不同能力,不同本體之間的比賽才更有看頭。
▎AI科技評論:目前橋介在數據工廠上的投入,大概是什么量級?
尚陽星:我們采購了一批動捕設備,一套動捕設備約幾十萬元,再算上場地搭建、團隊人員運營等成本,整體投入在千萬級別。
▎AI科技評論:數據合格率高嗎?一條數據的成本是多少?
尚陽星:現在數據合格率可以達到90%以上。我們不按“條”,按“小時”計價,因為不同數據條的時長差異很大。一小時數據的采集成本大約是幾百元,未來也會繼續降本。
▎AI科技評論:如果想讓機器人真正達到接近人類的運動能力,需要多大規模的數據量?
尚陽星:大概需要幾十萬小時量級的數據,人形機器人運動才會達到很好效果。這是基于人的一生約幾十萬小時推斷,但人動作有重復,也不可能做遍所有動作,所以只是非常粗略的估算。
如果數據量上來,發現數據對模型訓練沒用了,我們也會停止。
▎AI科技評論:這么說的話,聚焦運動控制,天花板會不會很低,未來你們還會拓展其他方向嗎?
尚陽星:等到集齊足量運動數據、機器人運動能力成熟后,我們也不會止步于此。先依靠海量全身運動動捕數據打好基礎,讓模型擁有動作組合能力,可靈活搭配不同動作完成各類任務。
后續場景類、融合感知的規劃數據,可依托成熟模型從視頻中提取,覆蓋海量復雜現實場景。
我們的最終目標是提供基礎設施,讓用戶在平臺上做組合創新,壁壘在于構建應用生態。
▎AI科技評論:基礎設施的概念,聽起來比你們之前“小腦廠商”的定位更為宏大。
尚陽星:其實從創業開始,我們想做的就是通用機器人時代的基礎設施廠商。運動控制雖然不等于操作系統,但是操作系統中很重要的一部分。橋介的長期定位是做人形機器人的操作系統,打造生態。
▎AI科技評論:之前有投資人和你說,你做硬件他們才投,現在他們的看法改變了嗎?
尚陽星:我們最近每天都在接待投資人,最近關閉了一輪融資,正在開啟新一輪融資。我感覺越來越多投資人都看明白了,有投資人和我直說,硬件現在太卷了,投了那么多家,最后能留下來的估計沒幾家。有長期價值的是底層平臺能力。(雷峰網(公眾號:雷峰網))
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。