0

作者丨高景輝
編輯丨馬曉寧
具身智能的熱度之高毋庸置疑,就連我們身邊不關注科技新聞的人,刷短視頻也能時不時刷到幾條機器人。雷峰網也時不時聽到這樣的疑問,機器人都這么厲害了,怎么現在街頭巷尾,還是看不到多少干活的機器人呢?
在機器人本體和控制逐漸成熟的現在,莫拉維克悖論就顯得更具有先知意義了:對人類來說需要復雜推理和計算的高階認知任務,計算機容易實現;而對人類而言看似簡單的低級感知與運動技能,就算機器人的身體學會了,但是它們的大腦還學不會。機器人不去干活,是因為它們不想嗎?是因為它們不會啊。

許多具身公司都會將物流分揀當成展示機器人能力的一個窗口,Figure 03人形機器人現在美國某個物流倉庫里晝夜不停地直播分揀,但真的物流分揀人員看了估計要搖頭:哪有這么規規整整的包裹,哪有這么不急不躁、安靜明亮的工作環境啊。
具身機器人要想做好泛化性,在隨機環境下還能把工作干好,最重要的技術難點仍然是具身大腦。不少公司都在不斷推出最新的大腦模型,還附加各種宣傳,但是除了真正的技術專家外,大部分人對于一款大腦模型有多強,還是無感的。所以星動紀元(Robotera)發布它的自研具身模型Era0登頂 RoboChallenge 榜單的消息時,我的第一反應是,這真的能證明他很厲害嗎?


01
這實在不能怪我太鈍感。主要是這兩年來,我們也是被各類大模型榜單轟炸到疲憊了。今天這個第一,明天那個最強,實際呢,還是要用戶體驗說了算。
具身模型的能力,要在真機評測上去體驗。如果短期內還不能達到人手一臺的使用率,那我們可以借助第三方的體驗。仔細查查RoboChallenge,原來這還真是全球首個大規模具身真機評測榜單。那就讓這些模型全部上真機,讓所有人都可以一眼直觀地看出,它們水平到底如何。
RoboChallenge 怎么去測試具身模型能力呢?他的規定是,在標準化真機環境中,所有參測模型必須完整通過 30 個不同任務才能進入總榜,同時測試環境全程隨機化,物體的擺放位置、光照條件、初始姿態每次都不同,而且所有測試數據完全公開,杜絕了現場調參作弊的可能。
雷峰網(公眾號:雷峰網)在 RoboChallenge 的官網上發現了他們公開的30個評測任務和得分榜單,其中SR代表任務成功率,Score代表任務得分率。ERA0在兩項任務中實現了成功率與過程得分的雙滿分表現,一項是把開瓶器放入抽屜(put_opener_in_drawer),一項是擰開水龍頭(turn_on_faucet)。


還有兩個任務比較出眾,原因是在 Top8 模型中,Era0是唯一一個取得非零成績的模型。一項是做素食三明治(make_vegetarian_sandwich),該任務涉及多步驟、真實食材處理和精細擺放,整體難度較高,Era0 成功率為 20%。一項是擦桌子(wipe_the_table),Era0 在此任務上取得 60% 的成功率。


這兩項任務之所以高難,因為很多要求超出了現在模型的普遍能力。就說制作一個簡單的素食三明治,就涉及到了多個步驟,機器人要依次完成取面包、放生菜、加番茄片、蓋另一片面包、切成兩半等。人手拿起來一個生菜葉子很簡單,機械臂拿起來,稍微大力一點生菜就爛了。
大部分具身模型缺乏對全局進度的感知,缺乏對全局進度的感知,很容易忘記已經完成到哪一步,蓋了面包片就完事兒了;或在發生小失誤后無法進行修正,番茄掉了撿不起來等等,那這個任務基本上就直接失敗了。
所以做三明治,不僅需要模型擁有長程時序規劃能力,還要有多食材的精細操作能力。Era0能得分,說明這款模型也在雙臂協同、柔性物體操作、多視角感知、長時序記憶等多個核心能力維度上均展現出顯著優勢。
如此說來,能夠看到真機實測過程中的真實視頻和客觀評分,我們對 Era0 的能力范疇就有一些把握了。

02
但是仍然會有一些疑問,比如說都是做模型,大部分都是走的VLA+世界模型路線,憑什么 Era0 就要更強一些?
星動紀元 Era0 做三明治的例子,讓我想起不久前 Genesis 的 GENE-26.5 做“番茄炒蛋”的 demo,當時其流暢的動作驚艷了不少業者。
Genesis為什么能讓機器人把活干得這么好?創始人周銜曾在采訪中說,Genesis AI 要做的是整套系統。的確,Genesis是從全局視角重新審視整個系統:他們在硬件層面最大限度地縮小差距;在工作中捕捉高保真數據;通過優化控制減少延遲和跟蹤誤差……
星動紀元的 Era0 也是同樣的道理,Era0 的成功,絕不能說是某一項環節上做對了,很大程度上得益于從數據到推理全鏈路的系統性優化。
首先在數據層面,星動紀元建立了一套量化的數據質檢與處理標準操作流程。
要知道,原始數據中存在大量噪聲。靜止幀、異常動作、元信息不匹配等問題,都會影響模型的訓練效果。而星動紀元的 SOP 涵蓋了靜止幀清理、異常數據篩查、元信息對齊以及人工抽檢等環節,從源頭保證了訓練數據的質量。
在此基礎上,星動紀元積累了大規模跨本體預訓練動作數據。這些數據覆蓋了豐富的操作場景,讓 Era0 具備了扎實的基礎動作執行能力。跨本體訓練策略也進一步提高了數據使用效率,使模型在不同機器人平臺上都有很好的可遷移性。
在模型層面,Era0 采用了兩項關鍵技術。
第一項是視覺定位感知增強策略。在預訓練階段,訓練樣本不僅包含高層語義信息,還同時標注了目標在圖像中的具體位置。這強化了模型的視覺感知能力,讓它能夠更準確地識別物體并定位抓取點。

第二項是短程時序記憶機制。Table30 中的很多任務都存在歷史依賴現象。比如擦桌子,機器人需要記住哪些區域已經擦過,哪些還沒有。僅憑當前單幀觀測,模型無法判斷任務狀態,容易陷入動作循環。
時序記憶機制讓模型能夠關注到近期已發生的動作狀態。它會記住過去幾幀的觀測和動作,結合當前信息做出決策。這有效解決了非馬爾可夫狀態下的歧義問題,讓長程任務的執行更加穩定。


Era0在雙臂協同、柔性物體操作、多視角感知、分類任務、長時序任務等多個靈巧操作核心維度上均位列第一
在工程與推理層面,星動紀元也做了大量優化:
訓練階段,他們采用 15Hz 的數據進行訓練,提高了訓練效率。訓練完成后,增加了基于訓練數據的回放擬合驗證環節。這個環節能夠發現僅通過損失曲線難以暴露的問題,比如數據中的異常樣本和噪聲干擾。
推理階段,為了使動作軌跡更加連續平滑,他們加入了動作插值。這減少了機械臂的抖動和誤差累積,提升了真機執行的穩定性。同時,通過合理配置執行步長和動作執行時間,保證了操作精度。對夾爪動作的后處理,也進一步提高了抓取的穩定性。
DeepMind研究員姚順宇有一個判斷:大模型領域最稀缺的不是天才,而是靠譜、對自己做的事情負責的人。這種“靠譜精神”,恰恰也是具身智能突圍的關鍵。
星動紀元 Era0 模型的訓練過程,同樣遵循這個原則。Era0 在 RoboChallenge 上的奪冠沒有捷徑,靠的是百 TB 級的真實交互數據積累,融合VLA與世界模型的訓練推理閉環,以及團隊都在每一個可能被忽略的節點上死磕。正是這些“微小到不起眼”的細節被極致優化,成功率才得以一步步提升,最終實現質的飛躍。

星動紀元Era0 模型在RoboChallenge不同任務上的表現

03
就在 Figure 還在網上直播的時候,星動紀元已經開始進入了實際場景,并且是同樣的物流分揀場景。星動紀元自研人形機器人“星動M7”,不久前在中國郵政廣州郵區中心正式上崗,能分揀軟包、硬盒、不同規格包裹,還能翻轉包裹確保面單朝上,同時有識別異常件的功能。今年Q2星動紀元還要開啟千臺級批量交付。

客戶愿意為機器人買單,某種程度上也是具身智能真正可以被稱為一個行業的開端。過去幾年,行業的核心矛盾是 “能不能做”,大家比拼的是誰能先在實驗室里實現某個單點功能;而現在,行業的核心矛盾已經變成了 “能不能用”,比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。
在物流分揀中心,機器人要面對的不是固定的 30 種物品,而是每天數以萬計、形態各異的包裹;在工廠車間,它要適應的不是恒定的光照和溫度,而是晝夜交替的光線變化、設備運行的震動和粉塵;在商業場景中,它還要滿足 7×24 小時不間斷運行的穩定性要求。這些在榜單中不會被考核的指標,恰恰是商業化公司必須跨越的生死線。
能夠被物流客戶認可,根本原因是 Era0 模型的優勢,滿足了物流行業的需求。Era0 有一套標準化的數據預處理流程(清洗、去噪、質檢),就可以確保用來訓練模型的數據是真實可信且高質量的,同時也能提升模型的學習效率。最終,訓練出的模型應用到物流分揀場景時,會表現出三個具體的優勢:識別更準確、誤判更少、運行更穩定。
“增強型視覺定位感知”等于給機器人裝上了一雙既聰明又帶距離感的眼睛,一眼就能認出傳送帶上是哪類商品,同時精確計算出手臂該伸到哪里、以什么角度去抓,從而讓一條分揀線靈活處理成千上百種不同的貨品。
規模化跨本體預訓練,可以讓能力快速遷移到物流抓取、搬運、擺放等分揀動作,適配不同設備與場景,落地更快。
同時時序記憶決策能力、高效訓練迭代、以及真機執行動作穩定精準等等特征,都意味著在分揀操作上,流程連貫效率高、抓取穩定失誤少。
假設每個環節提升10%,那么十個環節的提升就能帶來兩倍多的改善。具身智能真正能夠實用起來,就在于連續、微小優化帶來的系統性的效果提升,給客戶帶來顯著的實用性。這就是我們從星動紀元身上學到的經驗。

04
比賽結果,是具身智能大腦技術實力的試金石。在權威賽事中脫穎而出,意味著一款模型在泛化性、魯棒性、操作精度等核心維度上經受了最嚴苛的檢驗,獲得了學術界與產業界的共同認可。
但必須清醒地認識到,“打榜” 從來都不是具身智能行業的終極目標,它只是驗證技術可行性的中間環節,真正決定一家企業能走多遠、整個行業能走多快的,永遠是落地能力。
具身智能行業已經走到了一個關鍵的轉折點。過去幾年,行業的核心矛盾是 “能不能做”,大家比拼的是誰能先在實驗室里實現某個單點功能;而現在,行業的核心矛盾已經變成了 “能不能用”,比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。未來具身智能的競爭戰場一定會從賽場轉向工廠、倉庫、餐廳、醫院等真實場景。
目前物流行業是星動紀元的第一個落地場景。基于通用具身基座,Era0 的能力可以拓展到更多行業。比如在制造業,機器人可以完成裝配、檢測、搬運等任務。在服務業,機器人可以在餐廳、酒店、醫院等場所提供服務。端茶倒水、清潔衛生、配送物品,這些都是 Era0 已經具備的能力。

星動紀元的 "AI Native 全棧" 技術路線,讓他們能夠快速響應不同行業的需求,不需要為每個行業重新開發模型,只需要在通用基座的基礎上進行微調,就能快速適配新的場景。
如果有一天,大街小巷都是機器人工作的身影,具身智能涌現也就不是夢了。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。