0
| 本文作者: 陳淑瑜 | 2026-05-22 11:45 | 專題:CVPR 計算機視覺與模式識別會議 |
這句話對你來說輕而易舉。因為你看到了杯子,理解了“拿起來”的含義,手自然地伸過去、捏住、提起。但對一個 AI 系統來說,這中間隔著數道幾乎不可逾越的鴻溝:語言到動作、動作到視覺、視覺到空間、空間到執行。
傳統做法是強迫模型學會直接映射,通過輸入一段文字或一組動作參數,讓其直接輸出像素級的視頻幀或關節角度。這種方法在受限環境和充足標注數據下勉強可行,但一旦面對真實世界的復雜性,系統就會崩潰,因為鴻溝太寬,直接跨越注定失敗。
清華大學智能產業研究院趙昊團隊在 CVPR 2026 發表的四篇論文,共享著同一個設計哲學:當兩種模態之間的鴻溝太大,真正的解法是為它們搭橋,找到一種“第三語言”。這個“第三語言”,就是中間表示。
這四篇論文分別從動作到視頻、圖像到 4D 場景、首幀到未來視頻、異構硬件到統一策略四個不同的角度,驗證了同一個核心假設:引入合適的中間表示,比強迫模型學會直接映射更有效。

01
機器人學習領域有一個看似簡單卻長期未能很好解決的問題:如何讓機器人通過觀看人類操作視頻來學習新技能?
這個問題的困難程度遠超想象。對人類來說直觀的東西,對機器人來說卻是無法理解的數據流,因為視頻是一幀幀像素,動作是七維或更高維的連續控制信號,這兩種表示之間存在巨大的“表征鴻溝”。
現有的機器人視頻生成方法通常采用端到端的方式:輸入動作序列,直接輸出對應的視頻幀。這種做法在實踐中面臨兩個根本性問題:
動作空間和像素空間的結構差異太大,動作是低維的連續向量,像素是高維的離散網格,強行讓模型學習從前者到后者的直接映射,就像讓一個只會說中文的人直接聽懂法語,中間沒有任何翻譯。
缺乏結構化約束:生成的視頻往往在多視角一致性上表現糟糕。同一個動作從兩個不同視角看,本應是同一個 3D 事件的不同投影,但端到端模型經常會生成兩個視角下完全不一致的像素。
這個問題背后有一個更深層的原因:人類在理解動作時,是在一個抽象的 3D 空間表示中進行思考,而不是通過和機器人一樣通過像素去構造世界。當你看到一只手伸向杯子,你腦中構建的是一個 3D 的“手——杯關系”,如果機器人也能在這個 3D 空間表示中進行推理,那么它對動作的理解將會深刻得多。
ORV(Occupancy-centric Robot Video Generation)正是從這個洞察出發的。
它的核心思路是:在動作空間和像素空間之間,插入 Occupancy 作為中間表示,讓動作先變成 4D Occupancy,再從 Occupancy 渲染成視頻。
什么是 Occupancy?
它是一個結構化的 3D 表示,通過在空間中的每個體素上標記“是否被占據”,來實現對場景幾何的緊湊描述。
當動作被轉換成增加了時間維度的 4D Occupancy 序列,動作的空間含義就被顯式地表達了出來。此時的邏輯從抽象的“關節角度變化了這么多”轉變為具象的“手在 3D 空間中移動到了這里,與物體發生了這樣的交互”。
同時,Occupancy 天然地解決了多視角一致性的問題:一旦擁有了 4D Occupancy,從任意視角渲染出對應的視頻幀就變成了一個確定性的投影問題,從不同視角投影出的視頻自然高度一致。

ORV 框架
ORV 的技術實現分為兩個階段。
第一階段是 Action-to-Occupancy 映射:給定一個機器人動作序列,訓練一個條件擴散模型,將其轉換成未來若干幀的 4D Occupancy 序列。
第二階段是 Occupancy-to-Video 渲染:利用可微分的體素渲染技術,將 4D Occupancy 序列從指定相機視角渲染成 2D 視頻幀。
兩步映射,每一步的鴻溝都比直接從動作到視頻窄得多。
這個設計的價值很快在實驗中得到了驗證。ORV 在多個標準機器人視頻生成 benchmark 上進行了評估,結果顯示它在 FVD(Fréchet Video Distance)上比最強的端到端基線降低了 18.8%,生成的視頻在視覺質量和時間一致性上都顯著更優。
更有說服力的是,當把這些生成的視頻用于訓練機器人策略時,ORV 生成的視頻幫助策略在真實機器人任務上取得了 +6.4% 的成功率提升。這 6.4% 的飛躍,本質上驗證了“第三語言”假設:更好的中間表示能帶來更高的生成質量,并讓生成的數據對下游任務更有價值。

ORV 訓練數據集整理流程
由于在 Occupancy 空間中進行推理,ORV 學到的動作-Occupancy 映射在一定程度上是物理真實的,且不依賴于特定的視覺紋理。這使得它能夠在仿真環境中訓練,并直接在真實機器人上生成視頻,實現了 Sim-to-Real 的跨域遷移。而 Occupancy 作為可解釋的結構化表示,其生成的序列可以被人類直接觀察和理解,這對于機器人學習系統的調試和安全驗證至關重要。
從更廣闊的視角看,ORV 揭示了一個在多模態 AI 中具有普適性的設計原則:當你試圖在兩個差異巨大的模態之間建立映射時,不要強迫模型直接消化,而是為它們找到一種中間表示,讓映射分兩步走。這個原則,正是后續幾篇論文共同的方法論基礎。

論文鏈接:https://arxiv.org/abs/2506.03079

02
從 NeRF 到 3D Gaussian Splatting,從單目深度估計到多視角立體視覺,3D 和 4D 重建在近年取得了令人矚目的進展。但幾乎所有方法都在默默接受一個假設:你必須知道相機的位姿。
這個假設在受控環境下是合理的,你可以預先標定好相機,或者用 COLMAP 等工具從輸入圖像中估計位姿。但一旦離開受控環境,在動態場景、弱紋理區域或相機快速運動時,位姿估計的誤差就會直接傳遞到最終的重建結果中。
這主要是因為位姿估計和場景重建是兩個分離的步驟,前者的誤差無法被后者糾正,從而導致誤差累積。
但類比人類的視覺,我們在看一組圖片時,即使不知道精確的相機位姿,也能理解場景的 3D 結構。由此可見,相機位姿或許并不是 4D 重建的必要條件,它只是技術實現中的一個“便利假設”:它強行把“場景內容”和“觀察視角”捆綁在了一起,而這兩者其實是可分離的信息。
DGGT(Dynamic Gaussian Graph Transformer)做了一個大膽的事情——把相機位姿從“輸入”變成了“輸出”。它提出了一個端到端的框架,輸入一組無關聯的圖像,可以是單目視頻,也可以是多視角圖像,甚至可以是完全無序的圖像集合;輸出兩個東西:場景的 4D 動態表示,以及每張輸入圖像對應的相機位姿。
這個設計讓模型在學會重建場景的同時,自己推斷出每張圖像是從哪個視角拍攝的。這聽起來像是一個“不知道位姿就沒法重建,不知道重建就沒法估計位姿”的惡性循環,但 DGGT 通過 Transformer 架構的全局注意力機制,實現了位姿推斷和場景重建的相互迭代優化。

整體架構圖
DGGT 的核心表示是 Gaussian Map。每個場景被表示為一組包含位置、協方差、顏色、不透明度以及時間維度動態變化的 4D Gaussian 參數。
作為一種顯式的 3D 表示,它不像 NeRF 的隱式表示那樣需要體積渲染;它不僅可微、可端到端訓練,而且非常高效。最重要的是,它是與相機位姿解耦的。
一旦擁有了 Gaussian Map 作為場景的 4D 表示,相機位姿的估計就簡化為了一個對齊問題:通過調整相機位姿,使得從當前位姿渲染出的視圖與輸入圖像最匹配。渲染、比較、調整位姿、調整 Gaussian Map,整個過程循環迭代,端到端地進行。
DGGT 是成為首個真正實現無位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于靜態 3D 重建且需要額外約束,而 DGGT 能夠同時處理動態場景和未知位姿,且不需要任何位姿標注。
更令人印象深刻的是它的泛化能力:在 Waymo 數據集上訓練的 DGGT,可以直接零樣本遷移到 nuScenes 數據集上進行 4D 重建,LPIPS 降低了 61.4%。這個跨數據集的泛化能力,很大程度上得益于 Gaussian Map 作為與位姿解耦的中間表示。
DGGT 的另一個精巧設計是“Lifespan Head”。在 4D 動態場景中,不同的 Gaussian 有不同的“生命周期”:墻壁和地板在整個時間序列中都存在,而移動的車輛和行人只在某些時間幀中出現。
Lifespan Head 的作用就是預測每個 Gaussian 的出現和消失時間。論文的消融實驗顯示,去掉該模塊會導致 PSNR(峰值信噪比)下降 3.2 dB。這再次驗證了中間表示的力量:引入一個專門的中間預測目標,如每個 Gaussian 的生命周期,模型能學會更好的 4D 場景動態建模。
在速度方面,傳統 4D 重建方法通常需要數分鐘到數小時來重建一個動態場景,而 DGGT 的前向傳播只需要 0.4 秒。這種高效率意味著 DGGT 可以被部署在需要實時 4D 重建的應用場景中,例如自動駕駛的實時環境建模和機器人的實時場景理解。

只需0.4 秒的前向傳播
DGGT 最深刻的啟示在于:它挑戰了“需要多少先驗知識”這個根本問題。在傳統流程中,相機內參、外參、深度圖或點云等先驗知識就像拐杖,雖然讓問題變得可解,但也讓整個系統變得脆弱。DGGT 的方向是扔掉這些拐杖,因為一個好的中間表示應該能夠從數據中自己學會這些信息。
這個思想,與 ORV 的“Occupancy 作為中間表示”形成了有趣的呼應:ORV 用Occupancy 讓動作和視頻之間的鴻溝變窄了;DGGT 中,Gaussian Map 讓圖像和 4D 場景之間的鴻溝變窄了。兩篇論文雖然應用場景截然不同,但共享著同一個設計哲學——找到一個與輸入/輸出解耦的中間表示,讓復雜的問題分解成兩個簡單的問題。

論文鏈接:https://arxiv.org/abs/2512.03004

03
如果要讓一個 AI 模型預測“接下來會發生什么”(例如給定一張起始幀圖像和一系列動作,生成接下來若干幀的視頻),那你將會面臨一個由幾何、外觀、時序交織而成的巨大組合復雜性問題。
這個被稱為“視頻預測”的任務極其困難,因為這些因素在像素層面高度耦合。
現有的方法大致分為兩類。一類是端到端方法,直接用巨大的視頻生成模型從起始幀+動作生成未來幀。Sora、VideoPoet 等大模型是這類方法的代表,它們在生成質量上令人印象深刻,但計算成本極高,生成結果的可控性也差;另一類是解耦方法,試圖把視頻預測分解成幾個子問題,可控性更好,但子問題之間的誤差會累積,手工設計的解耦方式也往往不是最優的。
PAM(Pose-Appearance-Motion)走的是一條中間路線。它設計了一個三級級聯的“翻譯鏈”,每一級解決一個相對簡單的問題,每一級的輸出作為下一級的輸入。
第一級是 Pose(姿態)預測。給定起始幀和動作序列,模型預測未來每一幀的“姿態表示”,這一級解決的是“東西會去哪”的問題,不涉及物體長什么樣,只涉及它們的空間位置和姿態變化。
第二級是 Appearance(外觀)遷移。給定起始幀中的真實外觀信息和第一級預測的姿態序列,模型將外觀信息“遷移”到每一幀的姿態上。這一級只解決“它長什么樣”,不涉及運動軌跡。個姿態上”。
第三級是 Motion(運動)精細化。在前兩級輸出的基礎上,模型對像素級的動態細節(如陰影變化、遮擋處理、紋理細節)進行雕琢,解決“它怎么動”的最終質感。
這個三級級聯的設計有幾個精妙之處。
首先,它成功分解了組合復雜性,分開處理姿態、外觀、運動比混合處理要簡單得多。其次,每一級都變成了相對簡單的映射問題,每一個局部映射的鴻溝都比直接端到端映射要窄得多。第三,級聯設計帶來了極好的可控性,你可以獨立地修改姿態、更換外觀或微調運動細節,每一級的輸出都做到了可解釋、可編輯。

“三級級聯”架構圖
PAM 的實驗結果令人印象深刻。在分辨率方面,此前的機器人視頻預測方法受限于計算成本和模型容量,通常只能生成 256×256 分辨率的視頻,這個分辨率對于實際應用來說太低了,PAM 將生成分辨率提升到 480×720,像素量是此前方法的 3.3 倍到 4.5 倍,這種提升得益于級聯設計分攤了計算壓力。在質量上,其 FVD 相比最強基線降低了約 25%(從 38.83 降至 29.13),且推理速度不減。
但 PAM 最有說服力的實驗在于對下游任務的賦能。在機器人抓取任務的測試中,使用 50% 真實數據 + 50% PAM 合成數據訓練的模型,達到了與 100% 真實數據訓練相當的性能。 這標志著合成數據對下游任務的“可用性”終于跨過了臨界點——從早期的“湊數”變成了真正“可用”。

使用不同比例真實數據的數據增強分析
PAM 還實現了與所有現有方法的本質區別:零真實首幀依賴。此前的視頻預測方法都需要至少一幀真實的起始幀作為參考,而 PAM 通過將姿態、外觀、運動三級完全解耦,使得即使在沒有真實首幀的情況下(比如只有文字描述或者語義布局),也能生成合理的視頻。它把視頻預測從一個“基于參考的渲染問題”提升到了一個“從結構化表示生成視頻的問題”,大大擴展了應用范圍。
PAM 最值得思考的地方在于它展示了“中間表示”可以串聯成鏈。ORV 中有一個中間表示(Occupancy),DGGT 中有一個中間表示(Gaussian Map),到了 PAM,中間表示變成了三個級聯的表示(Pose → Appearance → Motion)。
這暗示了一個可能的通用設計模式:當一個直接映射的鴻溝仍然太寬時,可以嘗試在中間插入多個級聯的表示,讓復雜性逐層分解。
這個模式在人類認知中也能找到對應,當你想象“接下來會發生什么”時,你并不是一次性地在腦海中渲染出完整的未來畫面,而是先想“大概會發生什么”,再想“涉及的東西長什么樣”,最后補充細節。

論文鏈接:https://arxiv.org/abs/2603.22193

04
靈巧手是實現通用機器人操作的關鍵硬件。
從 6 自由度的簡單二指夾爪,到 24 自由度的 Shadow Hand,不同靈巧手有不同的自由度數量、不同的關節結構、不同的驅動方式。但這個領域有一個長期困擾研究者和工程師的問題:硬件碎片化。
為一個靈巧手訓練的策略,往往無法直接遷移到另一個靈巧手上。如果想在不同硬件平臺上都實現靈巧操作,基本上需要為每一個平臺單獨收集數據、單獨訓練策略,這在工程上是無法擴展的。更深層的問題在于,整個領域的研究也因硬件碎片化而各自為政,不同硬件上得到的實驗結果甚至無法直接對比。
這個問題本質上也是一個“模態鴻溝”問題。不同的靈巧手雖然都旨在實現“靈巧操作”,但它們的“動作語言”完全不同。直接在兩種完全無關的機械關節語言之間做映射,就像在兩種完全無關的語言之間直接翻譯,幾乎是不可能的任務。
UniDex 提出了一個優雅的解法:設計一個統一的動作空間,讓所有靈巧手都“說同一種語言”。這個統一的空間叫做 FAAS(Function-Actuator-Aligned Space)。

FAAS 不再用“關節角度”來描述靈巧手的動作,而是用“功能”來描述,比如“捏住這個物體”、“包裹住這個物體”、“用拇指和食指夾住這個物體”,這些是與具體硬件無關的高層語義。
具體來說,FAAS 對每一種靈巧手定義了一個“功能基元”集合(如 pinch、wrap、press 等),每個功能基元對應一組通過運動學逆向求解得到的關節角度配置。每種靈巧手的動作都被投影到這個共享的功能基元空間上,相當于做了一次“翻譯”:把 Allegro Hand 的 16 個關節角度翻譯成“它在執行哪個功能基元”,再把“這個功能基元”翻譯成 Shadow Hand 的 24 個關節角度。
策略在這個統一的空間上訓練并輸出與硬件無關的“功能基元”,需要在具體硬件上執行時,只需將其轉換成該硬件的關節角度即可。

UniDex-VLA 的概述
這個設計的精妙之處在于,它把“硬件異構性”從“策略學習階段”推遲到了“執行階段”。策略學習只需要在統一的 FAAS 空間中進行,不需要關心具體硬件;硬件的差異由 FAAS 的投影層來處理。這就像是你用中文寫文章,需要發表時再翻譯成英文、法文、日文其他語言一樣,文章的核心內容只需要創作一次。
UniDex 的實驗結果令人印象深刻。在一個靈巧手上訓練的策略,可以直接部署到另一個完全不同的靈巧手上,無需任何微調。論文在 8 種靈巧手上驗證了這種零樣本跨手遷移能力,涵蓋了 6 自由度到 24 自由度的廣泛范圍,這意味著機器人操作策略的“硬件依賴性”可以被消除。
同時,UniDex 構建了包含 50K+ 軌跡的大規模靈巧操作數據集,為全行業提供了一個寶貴的統一基準。在面對困難的多階段工具使用任務時,UniDex 取得了 81% 的任務完成率,達到了此前方法難以企及的高度。

UniDex 的介紹
FAAS 作為中間表示的意義,與前幾篇論文一脈相承。 UniDex 用 FAAS 彌合了異構硬件與統一策略之間的鴻溝。

論文鏈接:https://arxiv.org/abs/2603.22264

05
回顧這四篇論文,一個清晰的設計模式浮現出來:當兩種模態之間的鴻溝太大,直接映射注定失敗。真正的解法,是為它們找到一種“第三語言”。
ORV 用 Occupancy 作為動作和視頻之間的第三語言;DGGT 用 Gaussian Map 作為圖像和 4D 場景之間的第三語言;PAM 用 Pose、Appearance、Motion 三級級聯作為首幀和未來視頻之間的第三語言;UniDex 用 FAAS 作為異構硬件和統一策略之間的第三語言。
這四篇論文不僅僅是四篇獨立的 CVPR 2026 論文。它們共同指向了一個可能在多模態 AI 中具有普適性的設計原則:中間表示是消除鴻溝的系統性解法。
這個原則的實踐意義是明確的:下次你面對一個多模態 AI 問題,在急著擴大模型、增加數據之前,先問問自己:這兩種模態之間的鴻溝是什么?有沒有一種中間表示,可以讓這個鴻溝變窄?
有時候,一個好的中間表示,勝過十個更大的模型。雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。