0
| 本文作者: 小七 | 2026-06-01 20:33 |
過(guò)去,機(jī)器人聽(tīng)到“幫我把毛巾放進(jìn)洗手池”——它只會(huì)機(jī)械地執(zhí)行一串預(yù)設(shè)動(dòng)作。現(xiàn)在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應(yīng)該先拿起毛巾,再移動(dòng)過(guò)去,最后放下。邊思考,邊行動(dòng)。
這一能力依托于我們最新的 VLA(視覺(jué)-語(yǔ)言-行動(dòng))模型架構(gòu)設(shè)計(jì):讓同一個(gè)模型、同一套權(quán)重,同時(shí)完成推理與行動(dòng),讓機(jī)器人擁有“行動(dòng)中的思考能力”。
G0.5 在 R1 Lite 機(jī)器人上,零樣本(未經(jīng)任何該場(chǎng)景的微調(diào)),僅憑自然語(yǔ)言指令直接驅(qū)動(dòng)機(jī)器人完成操作任務(wù)。模型從未見(jiàn)過(guò)當(dāng)前的環(huán)境布局、物體類別和指令組合,卻能實(shí)時(shí)理解指令意圖、分解動(dòng)作并輸出流暢的雙臂控制。
這正是 G0.5 “言出法隨”的開(kāi)箱即用能力——一個(gè)模型,一句話,直接干活。
過(guò)去,機(jī)器人學(xué)習(xí)一項(xiàng)新任務(wù)通常意味著:重新采集數(shù)據(jù)、重新微調(diào)模型、重新適配場(chǎng)景。它們可以出色地完成被訓(xùn)練過(guò)的任務(wù),卻很難泛化到新的物體、新的環(huán)境和新的指令。
我們通過(guò)大規(guī)模、多任務(wù)預(yù)訓(xùn)練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開(kāi)合、移動(dòng)等原子動(dòng)作,不再是單個(gè)任務(wù)中的固定片段,而是沉淀為模型可以復(fù)用的能力單元。
在面對(duì)新的場(chǎng)景、空間布局和從未見(jiàn)過(guò)的物體時(shí),僅憑自然語(yǔ)言指令,G0.5 就能直接執(zhí)行操作,機(jī)器人開(kāi)始 “邊思考邊行動(dòng)”(Think While Acting)。

1. 統(tǒng)一異構(gòu)動(dòng)作編解碼器:讓一種“動(dòng)作語(yǔ)言”覆蓋所有機(jī)器人
不同機(jī)器人的形態(tài)、自由度、控制頻率千差萬(wàn)別——雙臂人形、移動(dòng)底盤(pán)、單臂工業(yè)機(jī)器人,每一種都有各自的動(dòng)作維度。過(guò)去的做法,要么每種機(jī)器人單獨(dú)搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要么把所有自由度拍平成一個(gè)長(zhǎng)向量再做量化。前者無(wú)法跨本體共享知識(shí),后者會(huì)讓 token 數(shù)量隨總自由度線性膨脹——哪怕當(dāng)前這一步只是手指動(dòng)一下,模型也得為所有關(guān)節(jié)生成 token,浪費(fèi)嚴(yán)重,而且語(yǔ)義高度糾纏、遷移性差。
我們認(rèn)為,動(dòng)作 token 本應(yīng)像語(yǔ)言一樣既結(jié)構(gòu)化又稀疏。為此我們?cè)O(shè)計(jì)了一套統(tǒng)一的異構(gòu)動(dòng)作編解碼器。得益于這套設(shè)計(jì),G0.5 用一套動(dòng)作詞表就能涵蓋從桌面雙臂到全身移動(dòng)操作的各類本體,自回歸解碼帶來(lái)的額外開(kāi)銷也被控制在可接受范圍內(nèi)——這正是我們能把 VLM 重新放回“動(dòng)作生成者”位置、而不是退化為條件編碼器的關(guān)鍵前提。

G0.5 Action tokenizer

2. 原生動(dòng)作思維鏈:讓機(jī)器人不僅“邊思考邊行動(dòng)”,還聽(tīng)得懂“怎么做”
統(tǒng)一動(dòng)作詞表讓我們可以把 VLM 重新放回“動(dòng)作生成者”的位置。這件事真正的回報(bào),是 VLM 在預(yù)訓(xùn)練中習(xí)得的生成式能力——鏈?zhǔn)剿季S、上下文學(xué)習(xí)、prompt 調(diào)制——可以原生作用于動(dòng)作生成,而不必先穿過(guò) VLM-as-Encoder 架構(gòu)里那個(gè)“條件編碼”的壓縮瓶頸。
多數(shù)現(xiàn)有工作中,鏈?zhǔn)剿季S(CoT)只是訓(xùn)練時(shí)的輔助任務(wù),推理模塊和動(dòng)作模塊被割裂在兩套參數(shù)、兩個(gè)目標(biāo)里——推理結(jié)果想影響動(dòng)作,必須先被壓成一段隱狀態(tài)再喂給下游 expert,中間既有語(yǔ)義損失,延遲也不可控。我們認(rèn)為應(yīng)回歸本源,將 CoT 與動(dòng)作生成融合在同一個(gè)自回歸流中:模型會(huì)先輸出子任務(wù)分解、目標(biāo)物體框、2D 軌跡提示等推理結(jié)果,再輸出動(dòng)作 token。
這套設(shè)計(jì)帶來(lái)兩個(gè)可分別驗(yàn)證的收益:
?長(zhǎng)程任務(wù)的零樣本分解能力:在 BEHAVIOR-1K 這類需要將自然語(yǔ)言指令拆解成數(shù)十個(gè)子步驟的家居任務(wù)上,單個(gè) G0.5 checkpoint 僅訓(xùn)練一個(gè) epoch 即超過(guò)訓(xùn)練四個(gè) epoch 的 π0.5 ,也超過(guò)由四個(gè) checkpoint 組成的 Challenge 冠軍方案。在預(yù)訓(xùn)練分布外的家居任務(wù)上,模型同樣能零樣本完成子任務(wù)分解。
?語(yǔ)言對(duì)行為的實(shí)時(shí)塑造:因?yàn)?prompt 直接進(jìn)入和動(dòng)作 token 同一條 AR 流,自然語(yǔ)言可以在推理時(shí)連續(xù)調(diào)制動(dòng)作分布,無(wú)需重新訓(xùn)練。作為一個(gè)代表性的定性示例,在“打開(kāi)烤面包機(jī)開(kāi)關(guān)”任務(wù)上,由于開(kāi)關(guān)行程較長(zhǎng),僅給“打開(kāi)開(kāi)關(guān)”指令時(shí)模型的按壓力度不夠;一旦在指令中追加“push harder”,模型會(huì)明顯加大下壓力度并最終觸發(fā)開(kāi)關(guān)。

G0.5 在 R1 Lite 上零樣本執(zhí)行“把毛巾放進(jìn)洗手池”:在同一自回歸流中,模型先生成思考(子任務(wù)、目標(biāo)物體框),再輸出動(dòng)作 token,并從每一幀觀測(cè)閉環(huán)重規(guī)劃。
3. 時(shí)空注意力模塊:為機(jī)器人注入上下文感知先驗(yàn)
真實(shí)的復(fù)雜家居任務(wù)不能僅依賴單幀畫(huà)面的“本能反應(yīng)”。當(dāng)視線被機(jī)械臂短暫遮擋,或任務(wù)意外失敗時(shí),機(jī)器人必須依賴歷史上下文才能維持穩(wěn)定的空間感知。我們?yōu)?G0.5 配備了輕量級(jí)時(shí)空注意力模塊,融合數(shù)秒的歷史視覺(jué)信息,使模型在局部視野丟失時(shí)依然能穩(wěn)健執(zhí)行。
實(shí)驗(yàn)表明,得益于預(yù)訓(xùn)練階段習(xí)得的感知先驗(yàn),G0.5 在 BEHAVIOR-1K 中“移動(dòng)箱子到儲(chǔ)物間”“裝車”“搬木柴”“整理臥室”等長(zhǎng)程任務(wù)上穩(wěn)定優(yōu)于 π0.5。

G0.5 在 7 個(gè)獨(dú)立評(píng)測(cè)場(chǎng)景中全面領(lǐng)先,核心數(shù)據(jù)如下:






真實(shí)世界微調(diào)評(píng)測(cè):在 R1 Pro / R1 Lite 的六個(gè)任務(wù)-本體設(shè)置上,G0.5(深橙)在成功率與過(guò)程分上整體大幅領(lǐng)先 π0.5 與 GR00T-N1.7。

DROID 零樣本評(píng)測(cè):無(wú)任何該機(jī)器人微調(diào),G0.5 在 10 個(gè)桌面操作任務(wù)上平均成功率 82.5%,逐任務(wù)均優(yōu)于 π0.5-DROID 與 MolmoAct2-DROID。
Pick-and-Place 基準(zhǔn):從零樣本到 50 小時(shí)后訓(xùn)練,G0.5(深色)在“語(yǔ)言跟隨率”與“任務(wù)成功率”兩項(xiàng)指標(biāo)上,各數(shù)據(jù)規(guī)模均優(yōu)于 π0.5
從這些結(jié)果中,我們可以看見(jiàn):
?大規(guī)模預(yù)訓(xùn)練使 G0.5 獲得了具身基礎(chǔ)模型的關(guān)鍵能力。在此基礎(chǔ)上,僅需輕量后訓(xùn)練即可在 7個(gè)基準(zhǔn)上超越 π0.5 并取得了SOTA的效果, 驗(yàn)證了該預(yù)訓(xùn)練范式的有效性。
?零樣本開(kāi)箱即用:DROID(Franka)和 PP Bench(R1 Lite)兩項(xiàng)零樣本泛化實(shí)驗(yàn)表明,G0.5 的預(yù)訓(xùn)練智能可以直接遷移到任何同型號(hào)機(jī)器人平臺(tái)和一個(gè)全新的環(huán)境。
?單模型泛化與性能優(yōu)勢(shì):在 BEHAVIOR-1K 挑戰(zhàn)賽的 50 個(gè)長(zhǎng)程移動(dòng)操作家居任務(wù)評(píng)測(cè)中,僅憑單一模型權(quán)重,G0.5 只需后訓(xùn)練1個(gè) epoch(0.29)便顯著超越了多模型集成的冠軍方案與 π0.5,并在4個(gè) epoch 下進(jìn)一步提升至 0.31,展現(xiàn)出更高的性能上限,超過(guò)半數(shù)任務(wù)表現(xiàn)更優(yōu)。
?預(yù)訓(xùn)練表征克服長(zhǎng)程任務(wù)瓶頸:這直接驗(yàn)證了基于結(jié)構(gòu)化動(dòng)作空間與視覺(jué)記憶的預(yù)訓(xùn)練先驗(yàn),才是模型跨越長(zhǎng)程移動(dòng)操作鴻溝、實(shí)現(xiàn)高效泛化的核心所在。
G0.5是星海圖具身基礎(chǔ)模型的重要升級(jí):
?不再把 VLM 當(dāng)編碼器,而是讓它重新成為行動(dòng)者;
?不再割裂推理與動(dòng)作,而是讓模型邊思考邊行動(dòng);
?不再只執(zhí)行預(yù)設(shè)程序,而是讓模型聽(tīng)得懂“怎么做”、記得住“發(fā)生了什么”。
我們相信,通用具身智能需要一條可擴(kuò)展的模型和數(shù)據(jù)路徑。接下來(lái),我們將在更多機(jī)器人數(shù)據(jù)、更復(fù)雜的環(huán)境、更長(zhǎng)的任務(wù)時(shí)序中繼續(xù)推進(jìn)。
后續(xù)模型開(kāi)源后,G0.5 也將支持在多種本體上的“開(kāi)箱即用”部署,助力開(kāi)發(fā)者開(kāi)展落地實(shí)踐。
技術(shù)報(bào)告已完整公開(kāi):
https://opengalaxea.github.io/G05/
https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf