0
| 本文作者: 鄭佳美 | 2026-06-08 10:41 |

作者丨鄭佳美
編輯丨馬曉寧
機(jī)器人要進(jìn)入更復(fù)雜的真實(shí)環(huán)境,真正的難點(diǎn)已經(jīng)超出“能不能完成一個(gè)動(dòng)作”。
更關(guān)鍵的問題是:當(dāng)桌面變得雜亂、光照發(fā)生變化、任務(wù)步驟變長,或者目標(biāo)物體變得透明、難以定位時(shí),機(jī)器人能否穩(wěn)定判斷自己該看哪里、該做哪一步、空間位置是否準(zhǔn)確。
這也是視覺-語言-動(dòng)作模型(VLA)正在面對(duì)的核心挑戰(zhàn)。VLA 可以讓機(jī)器人根據(jù)圖像觀測(cè)和語言指令生成動(dòng)作,但在很多端到端訓(xùn)練框架中,動(dòng)作生成過程仍然高度隱式。模型給出了動(dòng)作,卻很難解釋它依賴了哪些線索。
對(duì)真實(shí)機(jī)器人來說,可控可解釋已經(jīng)成為走向復(fù)雜任務(wù)的重要基礎(chǔ)。只有知道機(jī)器人為什么這樣行動(dòng),研究者和工程團(tuán)隊(duì)才更容易診斷失敗、改進(jìn)模型,并把系統(tǒng)帶到更多變化場(chǎng)景中。
圍繞這一問題,復(fù)旦大學(xué)可信具身智能研究院聯(lián)合上海交通大學(xué)、香港大學(xué) OpenDriveLab 等機(jī)構(gòu)提出了 GuidedVLA。該工作已被 Robotics: Science and Systems(RSS)2026 接收,并開放了論文、項(xiàng)目主頁、代碼、模型權(quán)重和數(shù)據(jù)集。
GuidedVLA 的核心思路可以概括為一句話:在 VLA 的動(dòng)作生成中加入顯式引導(dǎo),把任務(wù)相關(guān)因素拆成更清晰、更可檢查的分工。


01
過去幾年,VLA 成為具身智能研究中的重要路線。它把視覺理解、語言指令和動(dòng)作生成連接起來:機(jī)器人看到環(huán)境,理解任務(wù),再輸出下一步動(dòng)作。
這條路線的優(yōu)勢(shì)很明顯。模型結(jié)構(gòu)更統(tǒng)一,訓(xùn)練方式更簡潔,也更容易吸收視覺語言模型中的知識(shí)。但它也帶來一個(gè)現(xiàn)實(shí)問題:動(dòng)作解碼器往往需要自己從數(shù)據(jù)中學(xué)習(xí)哪些因素真正影響任務(wù)成功。
在固定環(huán)境中,這種方式可能已經(jīng)足夠。但真實(shí)機(jī)器人任務(wù)很少如此理想。一個(gè)水果旁邊可能多出干擾物;同一個(gè)杯子可能因?yàn)楣庹崭淖兌庥^不同;長程任務(wù)中,機(jī)器人需要知道自己已經(jīng)完成了抓取,下一步應(yīng)該移動(dòng)還是放置;涉及按壓、插入、疊放等操作時(shí),二維圖像中的語義理解還不夠,空間幾何也會(huì)直接影響成敗。
換句話說,機(jī)器人在行動(dòng)前至少要回答三個(gè)基礎(chǔ)問題:
目標(biāo)是誰?
現(xiàn)在做到哪一步?
空間位置準(zhǔn)不準(zhǔn)?
GuidedVLA 正是圍繞這三個(gè)問題展開。

02
GuidedVLA 延續(xù)已有 VLA 框架,并在動(dòng)作解碼器中指定部分注意力頭,讓它們分別關(guān)注三類任務(wù)相關(guān)因素:目標(biāo)、步驟和空間。

第一類是 Object Head,負(fù)責(zé)目標(biāo)定位。它讓模型在生成動(dòng)作時(shí)更穩(wěn)定地關(guān)注任務(wù)相關(guān)物體區(qū)域,例如要抓取的物體、要放置的位置,減少背景和干擾物帶來的影響。對(duì)雜亂桌面、小目標(biāo)、透明物體等任務(wù)來說,看準(zhǔn)目標(biāo)本身就是成功的一半。
第二類是 Skill Head,負(fù)責(zé)識(shí)別任務(wù)階段。真實(shí)機(jī)器人任務(wù)往往包含多個(gè)階段:先抓取,再移動(dòng),再放置;先清掃,再收集,再倒入托盤。如果模型不知道當(dāng)前處在哪個(gè)階段,就容易提前跳步,或在最后階段失敗。Skill Head 的作用,是讓動(dòng)作生成過程對(duì)任務(wù)進(jìn)度更敏感。
第三類是 Depth Head,負(fù)責(zé)補(bǔ)充空間幾何。很多操作失敗的原因,常常不在物體類別識(shí)別,而在高度、距離、插入角度、接觸位置不夠準(zhǔn)確。Depth Head 通過接入凍結(jié)深度編碼器的特征,讓特定注意力頭處理更明確的 3D 幾何信息。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
這三類分工讓 GuidedVLA 的可解釋性更具體:研究者除了看到一個(gè)動(dòng)作結(jié)果,還能進(jìn)一步觀察模型是否看到了目標(biāo)、是否理解當(dāng)前階段、是否利用了空間線索。

03
對(duì)已有 VLA 進(jìn)行改造時(shí),一個(gè)關(guān)鍵問題是:新增引導(dǎo)會(huì)不會(huì)破壞原模型已經(jīng)學(xué)到的能力?
GuidedVLA 采用了類似 ControlNet 的殘差適配思路。它保留原有的主注意力分支,同時(shí)新增 factor-specific 控制分支,再通過 zero-initialized projection 與主分支融合。直觀來說,新分支在訓(xùn)練初期不會(huì)直接擾動(dòng)原模型,隨著訓(xùn)練推進(jìn),再逐步把目標(biāo)、步驟、空間等任務(wù)相關(guān)信息注入動(dòng)作解碼器。
這使 GuidedVLA 更像是在已有 VLA 上增加一層可指定接口,無需從零開始重建系統(tǒng)。
為了降低標(biāo)注成本,團(tuán)隊(duì)還設(shè)計(jì)了自動(dòng)因子標(biāo)注流水線。物體掩碼由 Qwen3-VL 生成 point prompts,再用 SAM2 在視頻段中傳播;技能標(biāo)簽由 Qwen3-VL 根據(jù)階段描述和技能列表生成;深度引導(dǎo)則直接使用凍結(jié)深度編碼器特征,不需要人工深度標(biāo)注。
論文中給出的效率數(shù)字也很直觀:92% 的 episodes 無需人工修正;標(biāo)注 50 個(gè) episodes 時(shí),自動(dòng)流水線約需 4 分鐘,而純?nèi)斯ぜs需 43.5 分鐘。

04
GuidedVLA 的實(shí)驗(yàn)覆蓋仿真基準(zhǔn)和真實(shí)機(jī)器人平臺(tái)。
在 LIBERO-Plus 上,研究團(tuán)隊(duì)評(píng)估了模型在相機(jī)視角、機(jī)器人初態(tài)、語言變化、光照、背景紋理、傳感器噪聲、物體布局等 7 類擾動(dòng)下的表現(xiàn)。π0 基線總成功率為 68.2;加入三類分工后的 GuidedVLA 達(dá)到 75.4。
更值得注意的是,單類分工的優(yōu)勢(shì)和任務(wù)類型基本對(duì)應(yīng):Object Head 在物體相關(guān)任務(wù)上更強(qiáng),Skill Head 在目標(biāo)/階段相關(guān)任務(wù)上更強(qiáng),Depth Head 在空間相關(guān)任務(wù)上更強(qiáng)。這說明這些分工的作用超出了簡單增加模型參數(shù),更體現(xiàn)在不同類型問題上的針對(duì)性。
在 RoboTwin 2.0 上,GuidedVLA 在 8 個(gè)隨機(jī)化、未見設(shè)置的操作任務(wù)中,將 π0 平均成功率從 77.38% 提升到 90.63%。例如,Click Bell 需要精確控制 Z 軸,Depth Head 將成功率從 35% 提升到 63%;Beat Hammer Block 需要高度對(duì)齊,成功率從 78% 提升到 96%;Lift Pot 涉及嚴(yán)格的抓取、穩(wěn)定和抬起序列,Skill Head 在該任務(wù)上取得單頭最佳表現(xiàn)。

真實(shí)機(jī)器人實(shí)驗(yàn)覆蓋兩個(gè)雙臂平臺(tái):ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務(wù);后者包括將燒杯放入加熱套、套疊燒杯、將燒杯放置到加熱設(shè)置上等實(shí)驗(yàn)室操作任務(wù)。論文特別說明,這些實(shí)驗(yàn)室任務(wù)聚焦透明剛性物體和緊幾何約束帶來的操控挑戰(zhàn),并不評(píng)估完整安全關(guān)鍵化學(xué)流程。雷峰網(wǎng)
每個(gè)任務(wù)和模型進(jìn)行 20 次試驗(yàn)。結(jié)果顯示,在三類設(shè)置下,GuidedVLA 均優(yōu)于 Base Policy:
In-Domain average:Base Policy 55.8%,GuidedVLA 75.8%。
Scene average:Base Policy 44.2%,GuidedVLA 67.5%,相對(duì)提升約 52.7%。
Lighting average:Base Policy 57.5%,GuidedVLA 79.2%。


05
GuidedVLA 進(jìn)一步驗(yàn)證了一個(gè)關(guān)鍵問題:這些可解釋分工,是否真的和任務(wù)成功相關(guān)?
論文從目標(biāo)、步驟、空間三類因素分別分析。結(jié)果顯示,當(dāng) Object Head 落在目標(biāo)區(qū)域內(nèi)的注意力比例從 0.25 增加到 1.0,成功率從 61.3% 提升到 77.4%;當(dāng) Skill Head 的技能識(shí)別準(zhǔn)確率提高,成功率從 66.2% 提升到 77.7%;當(dāng) Depth Head 中真實(shí)深度特征比例從 0 增加到 1.0,成功率從 15.0% 提升到 76.2%。

這組分析說明,GuidedVLA 的價(jià)值既體現(xiàn)在最終分?jǐn)?shù)提升,也體現(xiàn)在它把“為什么能做得更好”拆成了可觀察的中間因素。
對(duì)機(jī)器人系統(tǒng)來說,這一點(diǎn)很重要。真實(shí)環(huán)境中的失敗往往由多種原因共同造成:可能是目標(biāo)定位不準(zhǔn),可能是任務(wù)階段錯(cuò)亂,也可能是空間估計(jì)不夠精確。只有把這些因素拆開,系統(tǒng)才更容易被診斷和持續(xù)改進(jìn)。

06
對(duì)具身智能來說,模型能力提升很重要,可控可解釋同樣是走向真實(shí)任務(wù)的基礎(chǔ)能力。
GuidedVLA 給出的啟發(fā)是:把任務(wù)中真正關(guān)鍵的因素顯式納入訓(xùn)練和結(jié)構(gòu)設(shè)計(jì),可以減少動(dòng)作解碼器對(duì)隱式學(xué)習(xí)的單一依賴。目標(biāo)、步驟、空間這三類因素并不復(fù)雜,卻覆蓋了許多機(jī)器人操作任務(wù)中最常見的失敗來源。
從研究角度看,這為 VLA 的動(dòng)作生成提供了一種更清晰的分析入口。從工程角度看,它也讓后續(xù)排查和迭代更有抓手:機(jī)器人沒有完成任務(wù)時(shí),研究者可以進(jìn)一步判斷問題出在目標(biāo)定位、階段理解,還是空間幾何。
這項(xiàng)工作給出了一條務(wù)實(shí)路線:讓機(jī)器人不僅做出動(dòng)作,也讓行動(dòng)過程更有依據(jù)。
論文:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
會(huì)議:Robotics: Science and Systems(RSS)2026
arXiv:https://arxiv.org/abs/2605.12369
項(xiàng)目主頁:https://guidedvla.github.io/project_page/
代碼:https://github.com/GuidedVLA/GuidedVLA
模型權(quán)重:https://huggingface.co/ybwowen/pi0-libero-object-depth-skill
數(shù)據(jù)集:https://huggingface.co/datasets/ybwowen/libero
作者:Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang
機(jī)構(gòu):Institute of Trustworthy Embodied AI (TEAI), Fudan University;Shanghai Key Laboratory of Multimodal Embodied AI;Shanghai Jiao Tong University;OpenDriveLab, The University of Hong Kong

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。