超越 SONIC ！人形機器人通用小腦迎來 GPT 時刻

本文作者：齊鋮湧

2026-06-22 17:48

導語：全球首個人形通用小腦GPT基座大模型來了。

AstraBrain-WBC 0.5 論文深度解讀

作者丨齊鋮湧

編輯丨林覺民

全球首個人形通用小腦GPT基座大模型來了。

在美國科羅拉多州丹佛會議中心舉行的CVPR 2026現場，銀河通用聯合研究團隊提出的AstraBrain-WBC 0.5，用一組數字直接刷新了行業認知：

▎引入"20億幀最大人類行為數據規模"

▎真機實測效果，顯著優于SONIC

▎零樣本泛化成功率92.58%

史上最大規模、整整20億幀人類動作數據，80.4M參數，零樣本泛化成功率92.58%，把傳統三層MLP的76.89%遠遠甩在身后，在MPJPE、MPJVE等多項指標上全面超越SONIC、TWIST、Any2Track等當前最優方法。

這是人形機器人運控領域前所未有的事。（雷峰網）

引入"最大人類行為數據規模"，

真機實測超越SONIC

一個模型，沒有任何預先編程，就能直接跟做從未見過的新動作。在室外泥地里拿起鋤頭干活，在家庭里絲滑穩定地擼貓/鏟屎，在拳打腳踢下保持魯棒，也能風度翩翩跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作，同樣是零樣本，無需針對任務微調。

這就是銀河通用最新發布——全球首個人形通用小腦GPT基座大模型的含金量。

AstraBrain-WBC 0.5，作為全球首個人形機器通用小腦GPT基座大模型，有幾個特點：第一是GPT式預訓練，告別三層MLP，實現規模即智能。

它通過引入GPT式預訓練+時序因果建模、加入超大規模數據訓練，其中Transformer相比MLP，擁有更強的可擴展性，打破單一動作過擬合，實現了零樣本泛化追蹤全新動作。

再加上訓練數據組最近鄰檢索，實現完全OOD泛化，以及諧波自編碼器與聚類，重塑訓練流程，讓這個人形機器人運控領域的"GPT式大規模預訓練系統"，呈現出幾個顯著亮點：

▎引入了"最大人類行為數據規模"。

從規模上看，AstraBrain-WBC 0.5包含了20億幀、8000萬參數，其中20億幀可以簡單等效于20億token，這個數字已經比肩2018年GPT-1的量級（GPT-1約1.17億參數），這是人形機器人運控領域有史以來最大規模的人類行為數據集。

比此前最常用的公開數據集AMASS（約720萬幀）高出兩個數量級，是業內同類跟蹤模型訓練集的200倍以上。

▎真機實測效果，顯著優于SONIC。

真機實測中，在沒有任何預先編程的前提下，不僅能拿鋤頭，跳華爾茲，還能完成武術踢腿、籃球運球投籃等高動態動作，而且全是零樣本，無需針對任務微調。

在四個未見舞蹈動作的跟蹤誤差對比中，AstraBrain-WBC 0.5在MPJPE、MPJVE等多項指標上，顯著優于SONIC、TWIST、Any2Track等當前最優方法；而當模型擴容到80.4M參數的AstraBrain-WBC 0.5，成功率躍升至92.58%，把三層MLP的76.89%遠遠甩在身后。

20億幀，堪比2018年GPT-1的量級，Scaling Law在人形運動控制領域真實存在。

但這只是結果。要理解AstraBrain-WBC 0.5為什么能做到這些，得先看看它解決了什么問題。

在過去幾年，人形機器人運動控制領域雖然發展很快，但"敏捷"、"穩定"和"泛化"始終不可兼得。有些方法能讓人形機器人奔跑跳躍，完成舞蹈、武術動作，也有些方法讓人形機器人泛化能力強，能跟蹤更開放的動作輸入，但一遇到復雜舞蹈、快速接觸切換、或是"金雞獨立""葉問蹲"等平衡性動作，機器人全身大幅協調，就會變得僵硬，動作精度明顯下降。要敏捷，就會犧牲穩定性和泛化性；要泛化，動作質量就打折扣。

AstraBrain-WBC 0.5正是沖著這個"不可能三角"去的。

AstraBrain-WBC 0.5解讀：把全身運動視為"動作語言"

核心思想，可以概括為一句話：把人體全身運動看作一種"動作語言"，用處理自然語言的方式去理解和生成它。

https://arxiv.org/abs/2606.03985

論文中提到了GPT之所以能在文本領域實現通用智能，關鍵在于以下三方面：

? 海量且均衡的數據

? 因果Transformer架構的自回歸預測能力

? 從大量"專家"中提煉出的通用表示（預訓練語料）

AstraBrain-WBC 0.5團隊認為，這三點同樣適用于人形運動控制，于是先采集海量人類動作數據集，再用諧波運動嵌入方法讓模型吃下數據，再經過專家經驗的Transformer模型訓練，最后在部署方面控制住推理延遲。完成了運控大模型的閉環。

我深扒了一下論文，具體來說，AstraBrain-WBC 0.5的整套方案分為三個緊密銜接的階段：數據基建、架構改造、雙階段訓練。

▎第一、數據基建，解決"模型吃什么"的問題

人形機器人運控數據很稀缺，AstraBrain-WBC 0.5團隊沒有局限于某個單一數據集，而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多個來源的動作數據，再加上超過一千小時的高質量內部采集數據，統一重定向到宇樹G1的29自由度關節空間。

但光是"堆數據"不夠。不同動作的頻率、幅度、風格差異巨大，直接混在一起訓練，模型會"消化不良"。

AstraBrain-WBC 0.5團隊引入了Harmonic Motion Embedding（HME，諧波運動嵌入）技術，基于動作的周期特征進行聚類，把約20億幀原始數據切分成大約300個運動簇。

這一步非常關鍵。它相當于給動作數據做了一次"詞性標注"和"句法分析"，讓后續的訓練更有條理。沒有這一步，20億幀數據就是一鍋粥；有了這一步，它變成了一本結構清晰的詞典。

▎第二、架構改造，解決"用什么吃數據"的問題

團隊徹底拋棄了淺層MLP，改用GPT風格的Causal Transformer（因果Transformer）。這個選擇不是跟風，而是有扎實的控制理論依據：在線動作跟蹤本質上是一個時序預測問題，機器人每一步的決策都依賴于過去的狀態和動作歷史。Causal Transformer的"因果注意力"機制，天然適合處理這種"只能看過去、不能偷看未來"的場景。

相比MLP只能看當前幾幀的"短視"，Transformer可以捕捉更長的時間上下文，理解動作的連貫性和節奏感。一個舞蹈動作失敗，往往不是因為當前這一步錯了，而是因為三步之前的重心沒調好。Transformer的長記憶能力，讓它能夠"復盤"歷史，做出更連貫的決策。

▎第三、雙階段訓練，解決"怎么消化"的問題

團隊沒有天真地指望一個Transformer直接硬啃20億幀數據。他們采用了"先分后總"的策略：第一階段，為300個運動簇分別訓練約300個PPO（近端策略優化）運動專家，讓每個專家把自己那一類動作學到極致；

第二階段，用DAgger（數據集聚合）算法，把這300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中，相當于專科會診，再培養一個全科醫生。專家策略負責在各自領域達到性能上限，蒸餾過程則負責把分散的知識整合成通用能力。

這三個階段環環相扣，缺一不可。沒有高質量的數據基建，Transformer就是無米之炊；沒有架構升級，數據再多也裝不進小容量的MLP；沒有雙階段訓練，大規模數據會導致訓練不穩定、收斂困難。

這是一個系統工程，不是某個單點技術的突破。

架構創新：Transformer重構小腦，終結MLP時代

接下來聊聊AstraBrain-WBC 0.5的創新性。我覺得論文中首先值得一提的，是架構創新。

簡單來說，用Transformer替代MLP，是首次實現人形運控模型的規模化擴展。

這是論文最直接、但也最容易被我們"理所當然化"的貢獻。

這部分團隊做了非常扎實的對比實驗：在同樣的2M token訓練數據下，三層MLP的成功率是76.89%，8層TCN（時序卷積網絡）提升到81.48%，而參數量僅5.7M的AstraBrain-WBC 0.5-S就達到了83.26%。

當數據量提升到20億token、模型參數擴展到80.4M時，成功率躍升至92.58%。

論文中也給出了對比：當數據量達到最大的AstraBrain-WBC 0.5-L，在全部評測指標上幾乎都實現性能最優。

這組數字說明了兩件事。

第一，Transformer的容量天花板遠高于MLP和TCN，能夠持續從更多數據中"汲取營養"；第二，在人形運動控制領域，Scaling Law是真實存在的。

更值得注意的是，團隊證明了Transformer在保持高容量的同時，依然可以滿足實時控制的嚴苛要求。

這里面有個細節：團隊通過ONNX導出、TensorRT編譯、C++流式數據通道等工程優化，在單張RTX 4090顯卡上把端到端推理延遲壓到了1.5毫秒以下。作為對比，傳統方案TWIST在CPU ONNX上的延遲是2.79—3.32毫秒。

這意味著，即便模型大了幾十倍，真機部署時的響應速度依然比很多傳統小模型更快。

這一點打破了"大模型必然慢"的偏見，為后續更大規模的模型奠定了基礎。

20億幀超大規模人類動作數據集：

首次驗證小腦大模型 Scaling low

如果說架構創新是最容易被看見的，數據基建就是這篇論文中最容易被忽略的部分。

我們都知道，人形動作數據如果分布太窄，模型只會在窄分布里越來越熟。未來要接住各種動作，數據來源必須更雜。我看了下論文里提到的20億幀、8000萬參數的分布，這個參數量達到了“最大人類行為數據規模”，這體現出銀河通用團隊在數據積累層面的強大技術壁壘。

他們統一不同數據源的骨骼偏差、過濾低質量動作片段、進行時序分段和數據增廣、通過HME聚類保證數據分布均衡。

在最終的數據集里，我又發現了一個細節。看右側圖表這樣的配比，能看得出來，這個數據配比融入了各種數據來源，既保證了多樣性，又避免了某些數據源的過度主導，明顯是多次試驗驗證得到的。

某種意義上，它證實了一件事：只要你有足夠的數據、足夠的算力、足夠好的架構，人形機器人的運動控制也能像自然語言一樣，通過規模化實現質變。

零樣本泛化關鍵：300個專家"會診"1個模型

雙階段訓練是整套系統的核心，也是煉成通用能力的關鍵。

在第一訓練階段，論文提到一個細節：AstraBrain-WBC 0.5團隊沒有把所有動作直接扔給一個模型硬學。它先用HME把動作分簇，再訓練一批motion experts。AstraBrain-WBC 0.5的處理很直接：先承認動作分布不同，讓專家各自把一塊學穩，再把專家經驗蒸餾回一個大模型。

訓練這300個PPO專家，消耗了15000 GPU小時中的75%，投入是巨大的，但也是必要的。

第二階段是蒸餾。團隊用DAgger算法，讓AstraBrain-WBC 0.5在專家策略生成的軌跡上學習，逐步把300個專家的"集體智慧"壓縮到一個模型里。為防止越學越偏，用算法收集學生模型的"犯錯數據"并交給專家重新標注，這就解決了"分布偏移"。

最終得到的AstraBrain-WBC 0.5，既保留了專家策略的高性能，又具備了單一模型的通用性和部署便利性。這是一種典型的"用工程復雜度換模型通用性"的思路，也是大模型時代常見的技術路線。

其實當時看論文看到這里，我想到一個現實問題：以后人形機器人底層運控如果真的走向基座化，算力賬本可能不會只出現在VLA和世界模型里。身體這一層，也開始有自己的數據賬本、專家賬本和蒸餾賬本。

從"只會走"到"全身動"：伯克利之后，誰把GPT范式推到了極致？

其實AstraBrain-WBC 0.5的工作，并不是憑空出現的范式創新。不少人看到這里，應該想到了2024年伯克利團隊的《Humanoid Locomotion as Next Token Prediction》論文，它的核心思路是用"預測下一個token"的自回歸方式做人形機器人的行走控制。

當時這篇論文在學術界引起了很大反響，因為它首次把GPT的范式引入機器人運動領域，證明了在單一行走任務上，自回歸模型可以取得不錯的效果。

而AstraBrain-WBC 0.5，則是在此基礎上往前邁出了一大步。

伯克利的工作主要聚焦于行走（Locomotion），這是一個相對單一的任務域。行走雖然復雜，但本質上是一個周期性運動，狀態空間相對有限。

而AstraBrain-WBC 0.5解決的是全身運動跟蹤，涵蓋走路、跑步、舞蹈、武術、搬運、倒地起身等極其豐富的動作類型。

從"只會走"到"全身都會動"，這中間的難度跨越不是線性的，而是指數級的。

更重要的是，AstraBrain-WBC 0.5實現了零樣本泛化。

從效果上看，AstraBrain-WBC 0.5在多個維度實現了突破：

第一是高動態動作支持。真機實測視頻中，機器人可以完成跳躍、快速轉身、武術踢腿等動作。

很多人形動作失敗，看起來發生在某一幀，根源往往在前面幾步。節奏沒接上，重心提前偏了，腳落點稍微錯了一點，后面再想補就很難。Transformer真正有用的地方，是它給tracker更長的時間視野。

第二是超低延遲響應。端到端推理延遲低于1.5毫秒。在人形機器人控制中，延遲非常要命。每多一毫秒，機器人在受到擾動時的恢復窗口就小一分。

第三是魯棒性。論文展示了機器人在受到外部推力、地面摩擦變化等干擾下的表現。這不是"死記硬背"某個動作軌跡，而是真正理解。

論文里，團隊用四個未見舞蹈動作的真機跟蹤誤差橫向對比AstraBrain-WBC 0.5與SONIC、TWIST、Any2Track，AstraBrain-WBC 0.5-B在多項指標上優于GMT、TWIST、Any2Track。

此外還有一個在線遙操作驗證的實驗：實時MoCap流持續重定向到G1關節空間，AstraBrain-WBC 0.5不額外微調，直接驅動機器人跟隨。這些都是非常直觀的突破。

銀河通用重構人形機器人商業版圖

最后，拋開頂會論文的學術意義，我們再聊聊AstraBrain-WBC 0.5的產業價值。

首先，AstraBrain-WBC 0.5作為一個預訓練的"運控基座"，其他研究者可以直接零樣本跟蹤新的參考動作，大幅降低研究門檻。再加上開源了代碼和部分工具，這意味著全球的研究者都可以在此基礎上進行二次開發。

放在娛樂場景，AstraBrain-WBC 0.5讓"一鍵生成復雜擬人化表演"成為可能。以后舞蹈編導可以給遠在千里之外的機器人實時復現，迪士尼或者劇組的機器人拿到遠程運控信號，就可以隨時開跳。對于應急救援等嚴肅場景，AstraBrain-WBC 0.5的泛化能力也讓機器人可以在未知環境中執行更復雜的身體任務。

最后，必須要說的是，AstraBrain-WBC 0.5也是具身頭部公司銀河通用的"銀河星腦"的小腦部分。

銀河星腦是全球首個集成"大腦-小腦-神經控制"于一體的全身全手端到端具身大模型，其中AstraBrain-WBC 0.5所擅長的，就是把高層指令轉化為具體的關節運動。

回顧銀河通用的發展軌跡，這家公司成立于2023年5月，短短兩年多時間，已經完成了從零樣本抓取、零售場景、導航基座到AstraBrain（全身全手大模型）的技術布局。

AstraBrain-WBC 0.5作為其中的"小腦"模塊，不僅補齊了全身運動控制這塊關鍵拼圖，也為整個銀河星腦的泛化能力提供了堅實的身體底座。

銀河通用帶領團隊的這項工作，在學術領域最大的意義或許在于：在人形機器人運控領域已經找到了一條可擴展、可復現的技術路徑，就像2018年的GPT-1的出現，雖然遠不及今天的GPT-4，但它卻奠定了一個路書。

而在商業視角下，AstraBrain-WBC 0.5的價值還在于它正在重構人形機器人的商業模型。

一個預訓練的通用運控基座，意味著銀河通用無需為每個新場景重新投入研發成本，舞蹈、巡檢、救援共用同一套"身體操作系統"。

邊際成本隨部署規模遞減，毛利率曲線將顯著抬升。而零樣本泛化能力大幅縮短了客戶驗證周期，從"定制開發"變成"即插即用"，客戶獲取速度有望復制軟件行業的規模化擴張路徑。（雷峰網(公眾號：雷峰網)）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

齊鋮湧

編輯

發私信

當月熱門文章