星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

本文作者：小七

2026-06-01 20:33

導(dǎo)語(yǔ)：第一代“邊想邊干"的機(jī)器人模型，從執(zhí)行動(dòng)作到理解世界。

過(guò)去，機(jī)器人聽(tīng)到“幫我把毛巾放進(jìn)洗手池”——它只會(huì)機(jī)械地執(zhí)行一串預(yù)設(shè)動(dòng)作。現(xiàn)在，我們讓G0.5做到了：先想——毛巾在哪？洗手池在哪？應(yīng)該先拿起毛巾，再移動(dòng)過(guò)去，最后放下。邊思考，邊行動(dòng)。

這一能力依托于我們最新的 VLA（視覺(jué)-語(yǔ)言-行動(dòng)）模型架構(gòu)設(shè)計(jì)：讓同一個(gè)模型、同一套權(quán)重，同時(shí)完成推理與行動(dòng)，讓機(jī)器人擁有“行動(dòng)中的思考能力”。

言出法隨：零樣本泛化至新物體、新環(huán)境、新指令

G0.5 在 R1 Lite 機(jī)器人上，零樣本（未經(jīng)任何該場(chǎng)景的微調(diào)），僅憑自然語(yǔ)言指令直接驅(qū)動(dòng)機(jī)器人完成操作任務(wù)。模型從未見(jiàn)過(guò)當(dāng)前的環(huán)境布局、物體類別和指令組合，卻能實(shí)時(shí)理解指令意圖、分解動(dòng)作并輸出流暢的雙臂控制。

這正是 G0.5 “言出法隨”的開(kāi)箱即用能力——一個(gè)模型，一句話，直接干活。

從“記住任務(wù)”到“學(xué)會(huì)操作”

過(guò)去，機(jī)器人學(xué)習(xí)一項(xiàng)新任務(wù)通常意味著：重新采集數(shù)據(jù)、重新微調(diào)模型、重新適配場(chǎng)景。它們可以出色地完成被訓(xùn)練過(guò)的任務(wù)，卻很難泛化到新的物體、新的環(huán)境和新的指令。

我們通過(guò)大規(guī)模、多任務(wù)預(yù)訓(xùn)練，讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開(kāi)合、移動(dòng)等原子動(dòng)作，不再是單個(gè)任務(wù)中的固定片段，而是沉淀為模型可以復(fù)用的能力單元。

在面對(duì)新的場(chǎng)景、空間布局和從未見(jiàn)過(guò)的物體時(shí)，僅憑自然語(yǔ)言指令，G0.5 就能直接執(zhí)行操作，機(jī)器人開(kāi)始 “邊思考邊行動(dòng)”（Think While Acting）。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

三大核心能力：讓具身基礎(chǔ)模型學(xué)會(huì)“邊想邊干”

1. 統(tǒng)一異構(gòu)動(dòng)作編解碼器：讓一種“動(dòng)作語(yǔ)言”覆蓋所有機(jī)器人

不同機(jī)器人的形態(tài)、自由度、控制頻率千差萬(wàn)別——雙臂人形、移動(dòng)底盤(pán)、單臂工業(yè)機(jī)器人，每一種都有各自的動(dòng)作維度。過(guò)去的做法，要么每種機(jī)器人單獨(dú)搞一套（如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化），要么把所有自由度拍平成一個(gè)長(zhǎng)向量再做量化。前者無(wú)法跨本體共享知識(shí)，后者會(huì)讓 token 數(shù)量隨總自由度線性膨脹——哪怕當(dāng)前這一步只是手指動(dòng)一下，模型也得為所有關(guān)節(jié)生成 token，浪費(fèi)嚴(yán)重，而且語(yǔ)義高度糾纏、遷移性差。

我們認(rèn)為，動(dòng)作 token 本應(yīng)像語(yǔ)言一樣既結(jié)構(gòu)化又稀疏。為此我們?cè)O(shè)計(jì)了一套統(tǒng)一的異構(gòu)動(dòng)作編解碼器。得益于這套設(shè)計(jì)，G0.5 用一套動(dòng)作詞表就能涵蓋從桌面雙臂到全身移動(dòng)操作的各類本體，自回歸解碼帶來(lái)的額外開(kāi)銷也被控制在可接受范圍內(nèi)——這正是我們能把 VLM 重新放回“動(dòng)作生成者”位置、而不是退化為條件編碼器的關(guān)鍵前提。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

G0.5 Action tokenizer

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

2. 原生動(dòng)作思維鏈：讓機(jī)器人不僅“邊思考邊行動(dòng)”，還聽(tīng)得懂“怎么做”

統(tǒng)一動(dòng)作詞表讓我們可以把 VLM 重新放回“動(dòng)作生成者”的位置。這件事真正的回報(bào)，是 VLM 在預(yù)訓(xùn)練中習(xí)得的生成式能力——鏈?zhǔn)剿季S、上下文學(xué)習(xí)、prompt 調(diào)制——可以原生作用于動(dòng)作生成，而不必先穿過(guò) VLM-as-Encoder 架構(gòu)里那個(gè)“條件編碼”的壓縮瓶頸。

多數(shù)現(xiàn)有工作中，鏈?zhǔn)剿季S（CoT）只是訓(xùn)練時(shí)的輔助任務(wù)，推理模塊和動(dòng)作模塊被割裂在兩套參數(shù)、兩個(gè)目標(biāo)里——推理結(jié)果想影響動(dòng)作，必須先被壓成一段隱狀態(tài)再喂給下游 expert，中間既有語(yǔ)義損失，延遲也不可控。我們認(rèn)為應(yīng)回歸本源，將 CoT 與動(dòng)作生成融合在同一個(gè)自回歸流中：模型會(huì)先輸出子任務(wù)分解、目標(biāo)物體框、2D 軌跡提示等推理結(jié)果，再輸出動(dòng)作 token。

這套設(shè)計(jì)帶來(lái)兩個(gè)可分別驗(yàn)證的收益:

?長(zhǎng)程任務(wù)的零樣本分解能力：在 BEHAVIOR-1K 這類需要將自然語(yǔ)言指令拆解成數(shù)十個(gè)子步驟的家居任務(wù)上，單個(gè) G0.5 checkpoint 僅訓(xùn)練一個(gè) epoch 即超過(guò)訓(xùn)練四個(gè) epoch 的 π0.5 ,也超過(guò)由四個(gè) checkpoint 組成的 Challenge 冠軍方案。在預(yù)訓(xùn)練分布外的家居任務(wù)上,模型同樣能零樣本完成子任務(wù)分解。

?語(yǔ)言對(duì)行為的實(shí)時(shí)塑造：因?yàn)?prompt 直接進(jìn)入和動(dòng)作 token 同一條 AR 流，自然語(yǔ)言可以在推理時(shí)連續(xù)調(diào)制動(dòng)作分布，無(wú)需重新訓(xùn)練。作為一個(gè)代表性的定性示例，在“打開(kāi)烤面包機(jī)開(kāi)關(guān)”任務(wù)上，由于開(kāi)關(guān)行程較長(zhǎng)，僅給“打開(kāi)開(kāi)關(guān)”指令時(shí)模型的按壓力度不夠；一旦在指令中追加“push harder”，模型會(huì)明顯加大下壓力度并最終觸發(fā)開(kāi)關(guān)。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng) G0.5 在 R1 Lite 上零樣本執(zhí)行“把毛巾放進(jìn)洗手池”：在同一自回歸流中，模型先生成思考（子任務(wù)、目標(biāo)物體框），再輸出動(dòng)作 token，并從每一幀觀測(cè)閉環(huán)重規(guī)劃。

3. 時(shí)空注意力模塊：為機(jī)器人注入上下文感知先驗(yàn)

真實(shí)的復(fù)雜家居任務(wù)不能僅依賴單幀畫(huà)面的“本能反應(yīng)”。當(dāng)視線被機(jī)械臂短暫遮擋，或任務(wù)意外失敗時(shí)，機(jī)器人必須依賴歷史上下文才能維持穩(wěn)定的空間感知。我們?yōu)?G0.5 配備了輕量級(jí)時(shí)空注意力模塊，融合數(shù)秒的歷史視覺(jué)信息，使模型在局部視野丟失時(shí)依然能穩(wěn)健執(zhí)行。

實(shí)驗(yàn)表明，得益于預(yù)訓(xùn)練階段習(xí)得的感知先驗(yàn)，G0.5 在 BEHAVIOR-1K 中“移動(dòng)箱子到儲(chǔ)物間”“裝車”“搬木柴”“整理臥室”等長(zhǎng)程任務(wù)上穩(wěn)定優(yōu)于 π0.5。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

領(lǐng)跑七大評(píng)測(cè)場(chǎng)景，全面超越 SOTA

G0.5 在 7 個(gè)獨(dú)立評(píng)測(cè)場(chǎng)景中全面領(lǐng)先，核心數(shù)據(jù)如下：

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

真實(shí)世界微調(diào)評(píng)測(cè)：在 R1 Pro / R1 Lite 的六個(gè)任務(wù)-本體設(shè)置上，G0.5（深橙）在成功率與過(guò)程分上整體大幅領(lǐng)先 π0.5 與 GR00T-N1.7。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng)

DROID 零樣本評(píng)測(cè)：無(wú)任何該機(jī)器人微調(diào)，G0.5 在 10 個(gè)桌面操作任務(wù)上平均成功率 82.5%，逐任務(wù)均優(yōu)于 π0.5-DROID 與 MolmoAct2-DROID。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機(jī)器人邊思考邊行動(dòng) Pick-and-Place 基準(zhǔn)：從零樣本到 50 小時(shí)后訓(xùn)練，G0.5（深色）在“語(yǔ)言跟隨率”與“任務(wù)成功率”兩項(xiàng)指標(biāo)上，各數(shù)據(jù)規(guī)模均優(yōu)于 π0.5

從這些結(jié)果中，我們可以看見(jiàn)：

?大規(guī)模預(yù)訓(xùn)練使 G0.5 獲得了具身基礎(chǔ)模型的關(guān)鍵能力。在此基礎(chǔ)上，僅需輕量后訓(xùn)練即可在 7個(gè)基準(zhǔn)上超越 π0.5 并取得了SOTA的效果, 驗(yàn)證了該預(yù)訓(xùn)練范式的有效性。

?零樣本開(kāi)箱即用：DROID（Franka）和 PP Bench（R1 Lite）兩項(xiàng)零樣本泛化實(shí)驗(yàn)表明，G0.5 的預(yù)訓(xùn)練智能可以直接遷移到任何同型號(hào)機(jī)器人平臺(tái)和一個(gè)全新的環(huán)境。

?單模型泛化與性能優(yōu)勢(shì)：在 BEHAVIOR-1K 挑戰(zhàn)賽的 50 個(gè)長(zhǎng)程移動(dòng)操作家居任務(wù)評(píng)測(cè)中，僅憑單一模型權(quán)重，G0.5 只需后訓(xùn)練1個(gè) epoch（0.29）便顯著超越了多模型集成的冠軍方案與 π0.5，并在4個(gè) epoch 下進(jìn)一步提升至 0.31，展現(xiàn)出更高的性能上限，超過(guò)半數(shù)任務(wù)表現(xiàn)更優(yōu)。

?預(yù)訓(xùn)練表征克服長(zhǎng)程任務(wù)瓶頸：這直接驗(yàn)證了基于結(jié)構(gòu)化動(dòng)作空間與視覺(jué)記憶的預(yù)訓(xùn)練先驗(yàn)，才是模型跨越長(zhǎng)程移動(dòng)操作鴻溝、實(shí)現(xiàn)高效泛化的核心所在。