這次登頂 RoboChallenge 的，終于是「能干活」的機器人了

本文作者：高景輝

2026-05-26 16:28

導語：RoboChallenge奪冠只是開始，落地才是真正的“大考”。

RoboChallenge奪冠只是開始，落地才是真正的“大考”。

作者丨高景輝

編輯丨馬曉寧

具身智能的熱度之高毋庸置疑，就連我們身邊不關注科技新聞的人，刷短視頻也能時不時刷到幾條機器人。雷峰網也時不時聽到這樣的疑問，機器人都這么厲害了，怎么現在街頭巷尾，還是看不到多少干活的機器人呢？

在機器人本體和控制逐漸成熟的現在，莫拉維克悖論就顯得更具有先知意義了：對人類來說需要復雜推理和計算的高階認知任務，計算機容易實現；而對人類而言看似簡單的低級感知與運動技能，就算機器人的身體學會了，但是它們的大腦還學不會。機器人不去干活，是因為它們不想嗎？是因為它們不會啊。

許多具身公司都會將物流分揀當成展示機器人能力的一個窗口，Figure 03人形機器人現在美國某個物流倉庫里晝夜不停地直播分揀，但真的物流分揀人員看了估計要搖頭：哪有這么規規整整的包裹，哪有這么不急不躁、安靜明亮的工作環境啊。

具身機器人要想做好泛化性，在隨機環境下還能把工作干好，最重要的技術難點仍然是具身大腦。不少公司都在不斷推出最新的大腦模型，還附加各種宣傳，但是除了真正的技術專家外，大部分人對于一款大腦模型有多強，還是無感的。所以星動紀元（Robotera）發布它的自研具身模型Era0登頂 RoboChallenge 榜單的消息時，我的第一反應是，這真的能證明他很厲害嗎？

這次登頂 RoboChallenge 的，終于是「能干活」的機器人了

一個三明治，

怎么就難倒了一堆機器人？

這實在不能怪我太鈍感。主要是這兩年來，我們也是被各類大模型榜單轟炸到疲憊了。今天這個第一，明天那個最強，實際呢，還是要用戶體驗說了算。

具身模型的能力，要在真機評測上去體驗。如果短期內還不能達到人手一臺的使用率，那我們可以借助第三方的體驗。仔細查查RoboChallenge，原來這還真是全球首個大規模具身真機評測榜單。那就讓這些模型全部上真機，讓所有人都可以一眼直觀地看出，它們水平到底如何。

RoboChallenge 怎么去測試具身模型能力呢？他的規定是，在標準化真機環境中，所有參測模型必須完整通過 30 個不同任務才能進入總榜，同時測試環境全程隨機化，物體的擺放位置、光照條件、初始姿態每次都不同，而且所有測試數據完全公開，杜絕了現場調參作弊的可能。

雷峰網(公眾號：雷峰網)在 RoboChallenge 的官網上發現了他們公開的30個評測任務和得分榜單，其中SR代表任務成功率，Score代表任務得分率。ERA0在兩項任務中實現了成功率與過程得分的雙滿分表現，一項是把開瓶器放入抽屜（put_opener_in_drawer），一項是擰開水龍頭（turn_on_faucet）。

還有兩個任務比較出眾，原因是在 Top8 模型中，Era0是唯一一個取得非零成績的模型。一項是做素食三明治（make_vegetarian_sandwich），該任務涉及多步驟、真實食材處理和精細擺放，整體難度較高，Era0 成功率為 20%。一項是擦桌子（wipe_the_table），Era0 在此任務上取得 60% 的成功率。

這兩項任務之所以高難，因為很多要求超出了現在模型的普遍能力。就說制作一個簡單的素食三明治，就涉及到了多個步驟，機器人要依次完成取面包、放生菜、加番茄片、蓋另一片面包、切成兩半等。人手拿起來一個生菜葉子很簡單，機械臂拿起來，稍微大力一點生菜就爛了。

大部分具身模型缺乏對全局進度的感知，缺乏對全局進度的感知，很容易忘記已經完成到哪一步，蓋了面包片就完事兒了；或在發生小失誤后無法進行修正，番茄掉了撿不起來等等，那這個任務基本上就直接失敗了。

所以做三明治，不僅需要模型擁有長程時序規劃能力，還要有多食材的精細操作能力。Era0能得分，說明這款模型也在雙臂協同、柔性物體操作、多視角感知、長時序記憶等多個核心能力維度上均展現出顯著優勢。

如此說來，能夠看到真機實測過程中的真實視頻和客觀評分，我們對 Era0 的能力范疇就有一些把握了。

奪冠的秘訣，在于每一個細節

但是仍然會有一些疑問，比如說都是做模型，大部分都是走的VLA+世界模型路線，憑什么 Era0 就要更強一些？

星動紀元 Era0 做三明治的例子，讓我想起不久前 Genesis 的 GENE-26.5 做“番茄炒蛋”的 demo，當時其流暢的動作驚艷了不少業者。

Genesis為什么能讓機器人把活干得這么好？創始人周銜曾在采訪中說，Genesis AI 要做的是整套系統。的確，Genesis是從全局視角重新審視整個系統：他們在硬件層面最大限度地縮小差距；在工作中捕捉高保真數據；通過優化控制減少延遲和跟蹤誤差……

星動紀元的 Era0 也是同樣的道理，Era0 的成功，絕不能說是某一項環節上做對了，很大程度上得益于從數據到推理全鏈路的系統性優化。

首先在數據層面，星動紀元建立了一套量化的數據質檢與處理標準操作流程。

要知道，原始數據中存在大量噪聲。靜止幀、異常動作、元信息不匹配等問題，都會影響模型的訓練效果。而星動紀元的 SOP 涵蓋了靜止幀清理、異常數據篩查、元信息對齊以及人工抽檢等環節，從源頭保證了訓練數據的質量。

在此基礎上，星動紀元積累了大規模跨本體預訓練動作數據。這些數據覆蓋了豐富的操作場景，讓 Era0 具備了扎實的基礎動作執行能力。跨本體訓練策略也進一步提高了數據使用效率，使模型在不同機器人平臺上都有很好的可遷移性。

在模型層面，Era0 采用了兩項關鍵技術。

第一項是視覺定位感知增強策略。在預訓練階段，訓練樣本不僅包含高層語義信息，還同時標注了目標在圖像中的具體位置。這強化了模型的視覺感知能力，讓它能夠更準確地識別物體并定位抓取點。

第二項是短程時序記憶機制。Table30 中的很多任務都存在歷史依賴現象。比如擦桌子，機器人需要記住哪些區域已經擦過，哪些還沒有。僅憑當前單幀觀測，模型無法判斷任務狀態，容易陷入動作循環。

時序記憶機制讓模型能夠關注到近期已發生的動作狀態。它會記住過去幾幀的觀測和動作，結合當前信息做出決策。這有效解決了非馬爾可夫狀態下的歧義問題，讓長程任務的執行更加穩定。

Era0在雙臂協同、柔性物體操作、多視角感知、分類任務、長時序任務等多個靈巧操作核心維度上均位列第一

在工程與推理層面，星動紀元也做了大量優化：

訓練階段，他們采用 15Hz 的數據進行訓練，提高了訓練效率。訓練完成后，增加了基于訓練數據的回放擬合驗證環節。這個環節能夠發現僅通過損失曲線難以暴露的問題，比如數據中的異常樣本和噪聲干擾。

推理階段，為了使動作軌跡更加連續平滑，他們加入了動作插值。這減少了機械臂的抖動和誤差累積，提升了真機執行的穩定性。同時，通過合理配置執行步長和動作執行時間，保證了操作精度。對夾爪動作的后處理，也進一步提高了抓取的穩定性。

DeepMind研究員姚順宇有一個判斷：大模型領域最稀缺的不是天才，而是靠譜、對自己做的事情負責的人。這種“靠譜精神”，恰恰也是具身智能突圍的關鍵。

星動紀元 Era0 模型的訓練過程，同樣遵循這個原則。Era0 在 RoboChallenge 上的奪冠沒有捷徑，靠的是百 TB 級的真實交互數據積累，融合VLA與世界模型的訓練推理閉環，以及團隊都在每一個可能被忽略的節點上死磕。正是這些“微小到不起眼”的細節被極致優化，成功率才得以一步步提升，最終實現質的飛躍。

星動紀元Era0 模型在RoboChallenge不同任務上的表現

商業化場景，才是真正的“大考”

就在 Figure 還在網上直播的時候，星動紀元已經開始進入了實際場景，并且是同樣的物流分揀場景。星動紀元自研人形機器人“星動M7”，不久前在中國郵政廣州郵區中心正式上崗，能分揀軟包、硬盒、不同規格包裹，還能翻轉包裹確保面單朝上，同時有識別異常件的功能。今年Q2星動紀元還要開啟千臺級批量交付。

客戶愿意為機器人買單，某種程度上也是具身智能真正可以被稱為一個行業的開端。過去幾年，行業的核心矛盾是 “能不能做”，大家比拼的是誰能先在實驗室里實現某個單點功能；而現在，行業的核心矛盾已經變成了 “能不能用”，比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。

在物流分揀中心，機器人要面對的不是固定的 30 種物品，而是每天數以萬計、形態各異的包裹；在工廠車間，它要適應的不是恒定的光照和溫度，而是晝夜交替的光線變化、設備運行的震動和粉塵；在商業場景中，它還要滿足 7×24 小時不間斷運行的穩定性要求。這些在榜單中不會被考核的指標，恰恰是商業化公司必須跨越的生死線。

能夠被物流客戶認可，根本原因是 Era0 模型的優勢，滿足了物流行業的需求。Era0 有一套標準化的數據預處理流程（清洗、去噪、質檢），就可以確保用來訓練模型的數據是真實可信且高質量的，同時也能提升模型的學習效率。最終，訓練出的模型應用到物流分揀場景時，會表現出三個具體的優勢：識別更準確、誤判更少、運行更穩定。

“增強型視覺定位感知”等于給機器人裝上了一雙既聰明又帶距離感的眼睛，一眼就能認出傳送帶上是哪類商品，同時精確計算出手臂該伸到哪里、以什么角度去抓，從而讓一條分揀線靈活處理成千上百種不同的貨品。

規模化跨本體預訓練，可以讓能力快速遷移到物流抓取、搬運、擺放等分揀動作，適配不同設備與場景，落地更快。

同時時序記憶決策能力、高效訓練迭代、以及真機執行動作穩定精準等等特征，都意味著在分揀操作上，流程連貫效率高、抓取穩定失誤少。

假設每個環節提升10%，那么十個環節的提升就能帶來兩倍多的改善。具身智能真正能夠實用起來，就在于連續、微小優化帶來的系統性的效果提升，給客戶帶來顯著的實用性。這就是我們從星動紀元身上學到的經驗。

打榜不是終點，“落地”剛剛開始

比賽結果，是具身智能大腦技術實力的試金石。在權威賽事中脫穎而出，意味著一款模型在泛化性、魯棒性、操作精度等核心維度上經受了最嚴苛的檢驗，獲得了學術界與產業界的共同認可。

但必須清醒地認識到，“打榜” 從來都不是具身智能行業的終極目標，它只是驗證技術可行性的中間環節，真正決定一家企業能走多遠、整個行業能走多快的，永遠是落地能力。

具身智能行業已經走到了一個關鍵的轉折點。過去幾年，行業的核心矛盾是 “能不能做”，大家比拼的是誰能先在實驗室里實現某個單點功能；而現在，行業的核心矛盾已經變成了 “能不能用”，比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。未來具身智能的競爭戰場一定會從賽場轉向工廠、倉庫、餐廳、醫院等真實場景。

目前物流行業是星動紀元的第一個落地場景。基于通用具身基座，Era0 的能力可以拓展到更多行業。比如在制造業，機器人可以完成裝配、檢測、搬運等任務。在服務業，機器人可以在餐廳、酒店、醫院等場所提供服務。端茶倒水、清潔衛生、配送物品，這些都是 Era0 已經具備的能力。

這次登頂 RoboChallenge 的，終于是「能干活」的機器人了

星動紀元的 "AI Native 全棧" 技術路線，讓他們能夠快速響應不同行業的需求，不需要為每個行業重新開發模型，只需要在通用基座的基礎上進行微調，就能快速適配新的場景。

如果有一天，大街小巷都是機器人工作的身影，具身智能涌現也就不是夢了。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

高景輝

編輯

發私信

當月熱門文章