尋找 AI 的「第三語言」：中間表示如何打通多模態鴻溝｜ CVPR 2026

本文作者：陳淑瑜

2026-05-22 11:45

專題：CVPR 計算機視覺與模式識別會議

導語：在不能直接相連的信號之間，安插一個它們都能讀懂的中介。

“請把杯子拿起來”。

這句話對你來說輕而易舉。因為你看到了杯子，理解了“拿起來”的含義，手自然地伸過去、捏住、提起。但對一個 AI 系統來說，這中間隔著數道幾乎不可逾越的鴻溝：語言到動作、動作到視覺、視覺到空間、空間到執行。

傳統做法是強迫模型學會直接映射，通過輸入一段文字或一組動作參數，讓其直接輸出像素級的視頻幀或關節角度。這種方法在受限環境和充足標注數據下勉強可行，但一旦面對真實世界的復雜性，系統就會崩潰，因為鴻溝太寬，直接跨越注定失敗。

清華大學智能產業研究院趙昊團隊在 CVPR 2026 發表的四篇論文，共享著同一個設計哲學：當兩種模態之間的鴻溝太大，真正的解法是為它們搭橋，找到一種“第三語言”。這個“第三語言”，就是中間表示。

這四篇論文分別從動作到視頻、圖像到 4D 場景、首幀到未來視頻、異構硬件到統一策略四個不同的角度，驗證了同一個核心假設：引入合適的中間表示，比強迫模型學會直接映射更有效。

ORV：當機器人看視頻時，它在看什么？

機器人學習領域有一個看似簡單卻長期未能很好解決的問題：如何讓機器人通過觀看人類操作視頻來學習新技能？

這個問題的困難程度遠超想象。對人類來說直觀的東西，對機器人來說卻是無法理解的數據流，因為視頻是一幀幀像素，動作是七維或更高維的連續控制信號，這兩種表示之間存在巨大的“表征鴻溝”。

現有的機器人視頻生成方法通常采用端到端的方式：輸入動作序列，直接輸出對應的視頻幀。這種做法在實踐中面臨兩個根本性問題：

動作空間和像素空間的結構差異太大，動作是低維的連續向量，像素是高維的離散網格，強行讓模型學習從前者到后者的直接映射，就像讓一個只會說中文的人直接聽懂法語，中間沒有任何翻譯。
缺乏結構化約束：生成的視頻往往在多視角一致性上表現糟糕。同一個動作從兩個不同視角看，本應是同一個 3D 事件的不同投影，但端到端模型經常會生成兩個視角下完全不一致的像素。

這個問題背后有一個更深層的原因：人類在理解動作時，是在一個抽象的 3D 空間表示中進行思考，而不是通過和機器人一樣通過像素去構造世界。當你看到一只手伸向杯子，你腦中構建的是一個 3D 的“手——杯關系”，如果機器人也能在這個 3D 空間表示中進行推理，那么它對動作的理解將會深刻得多。

ORV（Occupancy-centric Robot Video Generation）正是從這個洞察出發的。

它的核心思路是：在動作空間和像素空間之間，插入 Occupancy 作為中間表示，讓動作先變成 4D Occupancy，再從 Occupancy 渲染成視頻。

什么是 Occupancy？

它是一個結構化的 3D 表示，通過在空間中的每個體素上標記“是否被占據”，來實現對場景幾何的緊湊描述。

當動作被轉換成增加了時間維度的 4D Occupancy 序列，動作的空間含義就被顯式地表達了出來。此時的邏輯從抽象的“關節角度變化了這么多”轉變為具象的“手在 3D 空間中移動到了這里，與物體發生了這樣的交互”。

同時，Occupancy 天然地解決了多視角一致性的問題：一旦擁有了 4D Occupancy，從任意視角渲染出對應的視頻幀就變成了一個確定性的投影問題，從不同視角投影出的視頻自然高度一致。

ORV 框架

ORV 的技術實現分為兩個階段。

第一階段是 Action-to-Occupancy 映射：給定一個機器人動作序列，訓練一個條件擴散模型，將其轉換成未來若干幀的 4D Occupancy 序列。
第二階段是 Occupancy-to-Video 渲染：利用可微分的體素渲染技術，將 4D Occupancy 序列從指定相機視角渲染成 2D 視頻幀。

兩步映射，每一步的鴻溝都比直接從動作到視頻窄得多。

這個設計的價值很快在實驗中得到了驗證。ORV 在多個標準機器人視頻生成 benchmark 上進行了評估，結果顯示它在 FVD（Fréchet Video Distance）上比最強的端到端基線降低了 18.8%，生成的視頻在視覺質量和時間一致性上都顯著更優。

更有說服力的是，當把這些生成的視頻用于訓練機器人策略時，ORV 生成的視頻幫助策略在真實機器人任務上取得了 +6.4% 的成功率提升。這 6.4% 的飛躍，本質上驗證了“第三語言”假設：更好的中間表示能帶來更高的生成質量，并讓生成的數據對下游任務更有價值。

ORV 訓練數據集整理流程

由于在 Occupancy 空間中進行推理，ORV 學到的動作-Occupancy 映射在一定程度上是物理真實的，且不依賴于特定的視覺紋理。這使得它能夠在仿真環境中訓練，并直接在真實機器人上生成視頻，實現了 Sim-to-Real 的跨域遷移。而 Occupancy 作為可解釋的結構化表示，其生成的序列可以被人類直接觀察和理解，這對于機器人學習系統的調試和安全驗證至關重要。

從更廣闊的視角看，ORV 揭示了一個在多模態 AI 中具有普適性的設計原則：當你試圖在兩個差異巨大的模態之間建立映射時，不要強迫模型直接消化，而是為它們找到一種中間表示，讓映射分兩步走。這個原則，正是后續幾篇論文共同的方法論基礎。

論文鏈接：https://arxiv.org/abs/2506.03079

DGGT：無需姿態的動態場景重建

從 NeRF 到 3D Gaussian Splatting，從單目深度估計到多視角立體視覺，3D 和 4D 重建在近年取得了令人矚目的進展。但幾乎所有方法都在默默接受一個假設：你必須知道相機的位姿。

這個假設在受控環境下是合理的，你可以預先標定好相機，或者用 COLMAP 等工具從輸入圖像中估計位姿。但一旦離開受控環境，在動態場景、弱紋理區域或相機快速運動時，位姿估計的誤差就會直接傳遞到最終的重建結果中。

這主要是因為位姿估計和場景重建是兩個分離的步驟，前者的誤差無法被后者糾正，從而導致誤差累積。

但類比人類的視覺，我們在看一組圖片時，即使不知道精確的相機位姿，也能理解場景的 3D 結構。由此可見，相機位姿或許并不是 4D 重建的必要條件，它只是技術實現中的一個“便利假設”：它強行把“場景內容”和“觀察視角”捆綁在了一起，而這兩者其實是可分離的信息。

DGGT（Dynamic Gaussian Graph Transformer）做了一個大膽的事情——把相機位姿從“輸入”變成了“輸出”。它提出了一個端到端的框架，輸入一組無關聯的圖像，可以是單目視頻，也可以是多視角圖像，甚至可以是完全無序的圖像集合；輸出兩個東西：場景的 4D 動態表示，以及每張輸入圖像對應的相機位姿。

這個設計讓模型在學會重建場景的同時，自己推斷出每張圖像是從哪個視角拍攝的。這聽起來像是一個“不知道位姿就沒法重建，不知道重建就沒法估計位姿”的惡性循環，但 DGGT 通過 Transformer 架構的全局注意力機制，實現了位姿推斷和場景重建的相互迭代優化。

整體架構圖

DGGT 的核心表示是 Gaussian Map。每個場景被表示為一組包含位置、協方差、顏色、不透明度以及時間維度動態變化的 4D Gaussian 參數。

作為一種顯式的 3D 表示，它不像 NeRF 的隱式表示那樣需要體積渲染；它不僅可微、可端到端訓練，而且非常高效。最重要的是，它是與相機位姿解耦的。

一旦擁有了 Gaussian Map 作為場景的 4D 表示，相機位姿的估計就簡化為了一個對齊問題：通過調整相機位姿，使得從當前位姿渲染出的視圖與輸入圖像最匹配。渲染、比較、調整位姿、調整 Gaussian Map，整個過程循環迭代，端到端地進行。

DGGT 是成為首個真正實現無位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于靜態 3D 重建且需要額外約束，而 DGGT 能夠同時處理動態場景和未知位姿，且不需要任何位姿標注。

更令人印象深刻的是它的泛化能力：在 Waymo 數據集上訓練的 DGGT，可以直接零樣本遷移到 nuScenes 數據集上進行 4D 重建，LPIPS 降低了 61.4%。這個跨數據集的泛化能力，很大程度上得益于 Gaussian Map 作為與位姿解耦的中間表示。

DGGT 的另一個精巧設計是“Lifespan Head”。在 4D 動態場景中，不同的 Gaussian 有不同的“生命周期”：墻壁和地板在整個時間序列中都存在，而移動的車輛和行人只在某些時間幀中出現。

Lifespan Head 的作用就是預測每個 Gaussian 的出現和消失時間。論文的消融實驗顯示，去掉該模塊會導致 PSNR（峰值信噪比）下降 3.2 dB。這再次驗證了中間表示的力量：引入一個專門的中間預測目標，如每個 Gaussian 的生命周期，模型能學會更好的 4D 場景動態建模。

在速度方面，傳統 4D 重建方法通常需要數分鐘到數小時來重建一個動態場景，而 DGGT 的前向傳播只需要 0.4 秒。這種高效率意味著 DGGT 可以被部署在需要實時 4D 重建的應用場景中，例如自動駕駛的實時環境建模和機器人的實時場景理解。

只需0.4 秒的前向傳播

DGGT 最深刻的啟示在于：它挑戰了“需要多少先驗知識”這個根本問題。在傳統流程中，相機內參、外參、深度圖或點云等先驗知識就像拐杖，雖然讓問題變得可解，但也讓整個系統變得脆弱。DGGT 的方向是扔掉這些拐杖，因為一個好的中間表示應該能夠從數據中自己學會這些信息。

這個思想，與 ORV 的“Occupancy 作為中間表示”形成了有趣的呼應：ORV 用Occupancy 讓動作和視頻之間的鴻溝變窄了；DGGT 中，Gaussian Map 讓圖像和 4D 場景之間的鴻溝變窄了。兩篇論文雖然應用場景截然不同，但共享著同一個設計哲學——找到一個與輸入/輸出解耦的中間表示，讓復雜的問題分解成兩個簡單的問題。

論文鏈接：https://arxiv.org/abs/2512.03004

PAM：三級“翻譯鏈”的精巧設計

如果要讓一個 AI 模型預測“接下來會發生什么”（例如給定一張起始幀圖像和一系列動作，生成接下來若干幀的視頻），那你將會面臨一個由幾何、外觀、時序交織而成的巨大組合復雜性問題。

這個被稱為“視頻預測”的任務極其困難，因為這些因素在像素層面高度耦合。

現有的方法大致分為兩類。一類是端到端方法，直接用巨大的視頻生成模型從起始幀+動作生成未來幀。Sora、VideoPoet 等大模型是這類方法的代表，它們在生成質量上令人印象深刻，但計算成本極高，生成結果的可控性也差；另一類是解耦方法，試圖把視頻預測分解成幾個子問題，可控性更好，但子問題之間的誤差會累積，手工設計的解耦方式也往往不是最優的。

PAM（Pose-Appearance-Motion）走的是一條中間路線。它設計了一個三級級聯的“翻譯鏈”，每一級解決一個相對簡單的問題，每一級的輸出作為下一級的輸入。

第一級是 Pose（姿態）預測。給定起始幀和動作序列，模型預測未來每一幀的“姿態表示”，這一級解決的是“東西會去哪”的問題，不涉及物體長什么樣，只涉及它們的空間位置和姿態變化。
第二級是 Appearance（外觀）遷移。給定起始幀中的真實外觀信息和第一級預測的姿態序列，模型將外觀信息“遷移”到每一幀的姿態上。這一級只解決“它長什么樣”，不涉及運動軌跡。個姿態上”。
第三級是 Motion（運動）精細化。在前兩級輸出的基礎上，模型對像素級的動態細節（如陰影變化、遮擋處理、紋理細節）進行雕琢，解決“它怎么動”的最終質感。

這個三級級聯的設計有幾個精妙之處。

首先，它成功分解了組合復雜性，分開處理姿態、外觀、運動比混合處理要簡單得多。其次，每一級都變成了相對簡單的映射問題，每一個局部映射的鴻溝都比直接端到端映射要窄得多。第三，級聯設計帶來了極好的可控性，你可以獨立地修改姿態、更換外觀或微調運動細節，每一級的輸出都做到了可解釋、可編輯。

“三級級聯”架構圖

PAM 的實驗結果令人印象深刻。在分辨率方面，此前的機器人視頻預測方法受限于計算成本和模型容量，通常只能生成 256×256 分辨率的視頻，這個分辨率對于實際應用來說太低了，PAM 將生成分辨率提升到 480×720，像素量是此前方法的 3.3 倍到 4.5 倍，這種提升得益于級聯設計分攤了計算壓力。在質量上，其 FVD 相比最強基線降低了約 25%（從 38.83 降至 29.13），且推理速度不減。

但 PAM 最有說服力的實驗在于對下游任務的賦能。在機器人抓取任務的測試中，使用 50% 真實數據 + 50% PAM 合成數據訓練的模型，達到了與 100% 真實數據訓練相當的性能。 這標志著合成數據對下游任務的“可用性”終于跨過了臨界點——從早期的“湊數”變成了真正“可用”。

使用不同比例真實數據的數據增強分析

PAM 還實現了與所有現有方法的本質區別：零真實首幀依賴。此前的視頻預測方法都需要至少一幀真實的起始幀作為參考，而 PAM 通過將姿態、外觀、運動三級完全解耦，使得即使在沒有真實首幀的情況下（比如只有文字描述或者語義布局），也能生成合理的視頻。它把視頻預測從一個“基于參考的渲染問題”提升到了一個“從結構化表示生成視頻的問題”，大大擴展了應用范圍。

PAM 最值得思考的地方在于它展示了“中間表示”可以串聯成鏈。ORV 中有一個中間表示（Occupancy），DGGT 中有一個中間表示（Gaussian Map），到了 PAM，中間表示變成了三個級聯的表示（Pose → Appearance → Motion）。

這暗示了一個可能的通用設計模式：當一個直接映射的鴻溝仍然太寬時，可以嘗試在中間插入多個級聯的表示，讓復雜性逐層分解。

這個模式在人類認知中也能找到對應，當你想象“接下來會發生什么”時，你并不是一次性地在腦海中渲染出完整的未來畫面，而是先想“大概會發生什么”，再想“涉及的東西長什么樣”，最后補充細節。

論文鏈接：https://arxiv.org/abs/2603.22193

UniDex：讓所有靈巧手說同一種語言

靈巧手是實現通用機器人操作的關鍵硬件。

從 6 自由度的簡單二指夾爪，到 24 自由度的 Shadow Hand，不同靈巧手有不同的自由度數量、不同的關節結構、不同的驅動方式。但這個領域有一個長期困擾研究者和工程師的問題：硬件碎片化。

為一個靈巧手訓練的策略，往往無法直接遷移到另一個靈巧手上。如果想在不同硬件平臺上都實現靈巧操作，基本上需要為每一個平臺單獨收集數據、單獨訓練策略，這在工程上是無法擴展的。更深層的問題在于，整個領域的研究也因硬件碎片化而各自為政，不同硬件上得到的實驗結果甚至無法直接對比。

這個問題本質上也是一個“模態鴻溝”問題。不同的靈巧手雖然都旨在實現“靈巧操作”，但它們的“動作語言”完全不同。直接在兩種完全無關的機械關節語言之間做映射，就像在兩種完全無關的語言之間直接翻譯，幾乎是不可能的任務。

UniDex 提出了一個優雅的解法：設計一個統一的動作空間，讓所有靈巧手都“說同一種語言”。這個統一的空間叫做 FAAS（Function-Actuator-Aligned Space）。

FAAS 不再用“關節角度”來描述靈巧手的動作，而是用“功能”來描述，比如“捏住這個物體”、“包裹住這個物體”、“用拇指和食指夾住這個物體”，這些是與具體硬件無關的高層語義。

具體來說，FAAS 對每一種靈巧手定義了一個“功能基元”集合（如 pinch、wrap、press 等），每個功能基元對應一組通過運動學逆向求解得到的關節角度配置。每種靈巧手的動作都被投影到這個共享的功能基元空間上，相當于做了一次“翻譯”：把 Allegro Hand 的 16 個關節角度翻譯成“它在執行哪個功能基元”，再把“這個功能基元”翻譯成 Shadow Hand 的 24 個關節角度。

策略在這個統一的空間上訓練并輸出與硬件無關的“功能基元”，需要在具體硬件上執行時，只需將其轉換成該硬件的關節角度即可。

UniDex-VLA 的概述

這個設計的精妙之處在于，它把“硬件異構性”從“策略學習階段”推遲到了“執行階段”。策略學習只需要在統一的 FAAS 空間中進行，不需要關心具體硬件；硬件的差異由 FAAS 的投影層來處理。這就像是你用中文寫文章，需要發表時再翻譯成英文、法文、日文其他語言一樣，文章的核心內容只需要創作一次。

UniDex 的實驗結果令人印象深刻。在一個靈巧手上訓練的策略，可以直接部署到另一個完全不同的靈巧手上，無需任何微調。論文在 8 種靈巧手上驗證了這種零樣本跨手遷移能力，涵蓋了 6 自由度到 24 自由度的廣泛范圍，這意味著機器人操作策略的“硬件依賴性”可以被消除。

同時，UniDex 構建了包含 50K+ 軌跡的大規模靈巧操作數據集，為全行業提供了一個寶貴的統一基準。在面對困難的多階段工具使用任務時，UniDex 取得了 81% 的任務完成率，達到了此前方法難以企及的高度。

UniDex 的介紹

FAAS 作為中間表示的意義，與前幾篇論文一脈相承。 UniDex 用 FAAS 彌合了異構硬件與統一策略之間的鴻溝。

論文鏈接：https://arxiv.org/abs/2603.22264

結語

回顧這四篇論文，一個清晰的設計模式浮現出來：當兩種模態之間的鴻溝太大，直接映射注定失敗。真正的解法，是為它們找到一種“第三語言”。

ORV 用 Occupancy 作為動作和視頻之間的第三語言；DGGT 用 Gaussian Map 作為圖像和 4D 場景之間的第三語言；PAM 用 Pose、Appearance、Motion 三級級聯作為首幀和未來視頻之間的第三語言；UniDex 用 FAAS 作為異構硬件和統一策略之間的第三語言。

這四篇論文不僅僅是四篇獨立的 CVPR 2026 論文。它們共同指向了一個可能在多模態 AI 中具有普適性的設計原則：中間表示是消除鴻溝的系統性解法。

這個原則的實踐意義是明確的：下次你面對一個多模態 AI 問題，在急著擴大模型、增加數據之前，先問問自己：這兩種模態之間的鴻溝是什么？有沒有一種中間表示，可以讓這個鴻溝變窄？

有時候，一個好的中間表示，勝過十個更大的模型。雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。