CVPR 2026 視頻模型趨勢梳理：不止生成下一幀，更要理解下一步

本文作者：鄭佳美

2026-05-16 21:23

專題：CVPR 計算機視覺與模式識別會議

導語：視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。

視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。

作者丨鄭佳美

編輯丨馬曉寧

過去，視頻生成更多是在解決“像不像”的問題：人物是否清晰，畫面是否流暢，風格是否統一。但隨著模型能力提升，視頻真正困難的部分開始顯現出來——它不是一組漂亮幀的連續播放，而是一個由時間、空間、運動、相機、光照和物理信號共同構成的動態系統。

只要模型無法理解這些隱含結構，它生成的視頻就可能看似逼真，卻在運動邏輯、視角一致性或真實場景適應上露出破綻。因此，視頻智能正在進入一個更深的階段：不只是生成畫面，而是理解畫面為什么會這樣變化。

從運動軌跡編輯、3D 結構約束、可迭代文生視頻，到自適應視頻 token、長期運動表征、頻閃去除、熱成像分離和地球觀測模型，研究者實際上都在處理同一個底層問題：如何讓模型把視頻從“像素序列”理解為“動態世界”。

這也是今年 CVPR 相關方向中一個值得注意的信號——視頻模型的競爭重心，正在從視覺質量轉向對時間、空間和物理規律的建模能力。

換句話說，視頻 AI 的下一步，不是單純把視頻生成得更長、更清楚、更炫，而是讓模型知道運動從哪里來、結構為什么穩定、信號如何形成，以及復雜場景中的變化如何被預測和控制。

當這些能力逐漸補齊，視頻模型才可能真正從內容生成工具，走向能夠理解、編輯和推演現實世界的動態智能系統。

從改畫面到改運動

視頻生成和視頻編輯正在從“畫面是否好看”，走向“運動是否可控”。谷歌和石溪大學共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改視頻風格或局部外觀，而是直接編輯視頻里的“運動”。

比如讓人物換方向、讓物體晚一點出現，或在保留場景內容的同時改變鏡頭運動。現有方法一旦涉及物體運動、相機軌跡或時間順序變化，就很難保留原視頻后續幀中已有的內容。

MotionV2V 的核心思路是把視頻運動表示成稀疏軌跡點，并讓用戶直接編輯這些軌跡。系統先從輸入視頻中提取物體或場景點的原始運動軌跡，用戶再指定目標運動，模型根據“原始軌跡”和“目標軌跡”之間的差異生成編輯后的視頻。論文把這種差異稱為 motion edit，并用它指導視頻擴散模型，在盡量保留原視頻內容的同時，讓目標物體或相機按新的方式運動。

論文地址：https://arxiv.org/pdf/2511.20640v1

它的亮點在于，MotionV2V 不是從單張圖片重新生成視頻，而是真正以完整輸入視頻為條件進行 video-to-video motion editing。因此它可以利用視頻中任意時間點的信息，處理首幀里還沒出現的物體，也能支持物體運動、相機運動、時間控制和連續多次編輯。

作者還構建了 motion counterfactuals，即內容相同但運動不同的視頻對，用來微調 motion-conditioned video diffusion 架構。從論文對比來看，MotionV2V 在內容保留、運動控制和整體編輯質量上優于已有方法，用戶研究中也獲得約 70% 的偏好率。整體來看，這篇論文把視頻編輯從“改外觀”推進到“改運動”。

當運動編輯涉及相機、物體和非剛性形變時，僅靠 2D 運動線索往往不夠。Adobe 和馬里蘭大學帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》進一步使用 3D point tracks 作為統一的運動控制表示，同時改變視頻里的相機運動和物體運動。

系統會先估計輸入視頻中的相機參數和 3D 點軌跡，用戶編輯相機運動或物體軌跡后，再由 video-to-video 生成模型合成新視頻。

論文地址：https://arxiv.org/pdf/2512.02015v1

相比 2D 軌跡，3D 軌跡提供了深度信息，可以幫助模型判斷遮擋關系、前后層次和真實空間運動。論文還設計了 3D track conditioner，通過 cross-attention 從輸入視頻中采樣視覺上下文，并把這些信息對齊到目標幀空間中，讓模型在改變運動的同時保持畫面連貫。

由于真實世界中很難獲得成對訓練數據，作者采用兩階段訓練：先用合成數據學習基礎運動控制，再用真實單目視頻構造非連續片段對，縮小合成到真實的差距。整體來看，這篇論文把視頻運動編輯推進到更 3D-aware 的階段，也支持運動遷移、非剛性變形、物體移除和復制等效果。

如果輸入只有一張物體圖像，模型如何在相機繞物體旋轉時生成穩定、真實、結構一致的視頻？澳大利亞國立大學和亞馬遜共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是從單張物體圖像生成 orbital video。現有視頻生成方法在大角度視角變化時缺少可靠像素對應關系，容易生成結構扭曲或不合理的物體形狀。雷峰網

論文地址：https://arxiv.org/pdf/2604.12309

這篇論文的核心思路是引入 3D foundation model 中學到的形狀先驗，用它輔助視頻擴散模型生成更穩定的環繞視頻。模型從單張輸入圖像中提取兩類 3D latent features：全局 latent vector 提供整體結構指導，體積特征投影得到的 latent images 提供隨視角變化的幾何細節。

相比深度圖或法線圖，這些 3D latent features 能表達更完整的物體形狀，也避免顯式提取 mesh 的額外開銷。作者還設計了 multi-scale 3D adapter，把不同尺度的 3D 特征接入基礎視頻模型，從而提升生成視頻的真實感、物體形狀合理性和多視角一致性。

谷歌和新加坡國立大學共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》則把重點放在生成流程本身：當用戶給出文本想法后，系統能不能反復評估、反思和修改，直到生成更符合意圖的視頻。

它研究的是 test-time self-improvement，也就是不重新訓練視頻生成模型，而是在推理階段通過反復評價和改寫 prompt 來提升結果。

VISTA 會先把用戶想法拆成帶有時間結構的場景計劃，包括時長、角色、動作、對白、環境、相機、聲音和情緒等要素；生成多個候選視頻后，通過 pairwise tournament 選出當前最好結果；隨后由視覺、音頻和上下文評審智能體提出意見，最后由 reasoning agent 綜合反饋并改寫 prompt，進入下一輪生成。

論文地址：https://arxiv.org/pdf/2510.15831

它的亮點在于，VISTA 不是只優化某個指標，而是把視頻規劃、候選篩選、多維度評價和提示詞重寫串成自動閉環。論文中提到，VISTA 在自動指標下相較先進基線最高達到 60% 的 pairwise win rate，在人工評測中也獲得 66.4% 的偏好率。整體來看，它把文生視頻從“一次性生成”推進到“生成—評價—反思—再生成”。

讓模型先學會「怎么動」

要讓視頻模型更好地生成和編輯內容，底層表示也需要更高效。上海交通大學、香港中文大學多媒體實驗室、上海人工智能實驗室 OpenGVLab、同濟大學、清華大學共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是視頻 tokenization 問題，也就是如何把連續視頻幀壓縮成更適合自回歸模型處理的離散 token。

論文地址：https://arxiv.org/pdf/2505.17011v2

AdapTok 的核心思路是讓視頻 token 分配變得自適應。它不是給每個時間段分配同樣多的 token，而是根據視頻內容、時間變化和整體預算，動態決定哪里多用 token、哪里少用 token。

它使用 1D latent token space 表示視頻，并引入 temporal causality，讓前面幀的編碼和解碼不依賴未來幀，更適合流式處理和自回歸生成；同時通過 block-wise masking、block causal scorer 和 IPAL 策略完成自適應分配。

這樣一來，運動明顯、場景變化大的片段會獲得更多 token，靜態或冗余片段則使用更少 token。在 UCF-101 和 Kinetics-600 任務中，AdapTok 在不同 token 預算下都能提升重建質量和生成表現。

AdapTok 解決的是視頻如何被高效表示，而 CompVis @ LMU、MCML 和蘋果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》進一步追問：如果只是理解未來怎么動，是否一定要完整生成像素視頻。論文轉向學習一種更緊湊的 long-term motion embedding，用來表示場景中的長期運動規律。

它從大規模 tracker 模型得到的軌跡數據中學習壓縮運動空間，把稀疏軌跡和起始幀編碼成 latent motion grid，并可在任意空間查詢點上重建密集運動；隨后在這個運動 latent 空間里訓練 conditional flow-matching 模型，根據文本任務描述或 spatial pokes 生成長期運動。這種表示可達到 64 倍時間壓縮，也就是說模型不用逐幀生成視頻，就能在更抽象的運動空間中推斷未來動態。

論文地址：https://arxiv.org/pdf/2604.11737

這篇論文的亮點在于，它把“生成視頻”拆成了更基礎的“生成運動”。這種 kinematics-first 方式更適合探索多個可能未來，也更適合機器人規劃、軌跡預測和長期動態建模。

在開放域互聯網視頻和 LIBERO 機器人基準上，它的運動生成質量、條件遵循能力和效率都優于專門軌跡預測方法以及 Wan、Veo 3 等視頻模型基線。整體來看，AI 不一定要先“畫出未來”，也可以先學會“未來應該怎么動”。

從修復畫面到理解信號來源

除了生成和編輯，視頻與圖像研究也在關注如何從復雜成像退化中恢復可靠信息。南開大學國際先進研究院、鵬城實驗室、南開大學計算機學院、香港理工大學、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光連拍圖像中的 flicker artifact 去除問題。

這類退化由人工光源頻閃和 rolling shutter 共同造成，表現為條紋狀、明暗不均的閃爍，不能簡單當作普通噪聲或低光增強處理。

Flickerformer 的核心思路是利用閃爍退化的周期性和方向性。周期性來自交流電光源亮度變化，方向性與相機逐行掃描機制有關。針對這兩個特點，Flickerformer 設計了 PFM、AFFN 和 WDAM 三個模塊，分別用于幀間相位相關融合、單幀自相關建模，以及小波域方向性高頻修復。雷峰網(公眾號：雷峰網)

論文地址：https://arxiv.org/pdf/2603.22794v1

它的亮點在于，把頻閃本身的物理先驗嵌入網絡結構里，而不是把 flicker removal 當成普通圖像增強任務。在 BurstDeflicker benchmark 上，Flickerformer 超過多種圖像復原和 burst restoration 方法，取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整體來看，這篇論文讓模型能夠更準確地去除條紋閃爍，同時保留細節并減少重影。

類似思路也出現在熱成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是熱成像中的發射 / 反射分離問題。

熱相機看到的長波紅外信號既可能來自物體自身熱輻射，也可能來自周圍環境反射；在接近室溫的日常場景中，這兩部分信號強度接近且都會隨時間變化，因此很難判斷亮暗變化到底來自物體溫度變化，還是背景反射。

論文地址：https://arxiv.org/pdf/2509.11334

論文提出 dual-band thermal videography，用兩個長波紅外子波段視頻分離“物體自身發射”和“背景反射”。它同時利用光譜線索和時間線索：同一材料在兩個波段中的發射率比例相對固定，而物體熱傳導變化通常更平滑、背景反射變化更快。

實驗中，方法能把咖啡壺升溫時的熱發射與旁邊移動人物的反射分開，也能區分玻璃板上的手指熱印和手指反射。在酒杯和咖啡壺視頻中的非校準溫度估計誤差分別約為 1.72% 和 5.34%。整體來看，這篇論文把熱成像從“看到溫度分布”推進到“理解熱信號來源”。

讓視覺模型進入真實世界任務

當視覺模型進入遙感和地球觀測場景時，問題會比普通圖像更復雜：模型不僅要處理圖像，還要同時理解時間序列、多源數據和地圖標注。艾倫人工智能研究所、華盛頓大學、亞利桑那州立大學、不列顛哥倫比亞大學聯合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球觀測數據的多模態基礎模型。

地球觀測數據既有圖像空間結構，也有類似視頻或文本的時間序列特征，還包含衛星影像、地圖、地形、作物、土地覆蓋等多種模態。

這篇論文提出的模型叫 OlmoEarth，目標是讓地球觀測基礎模型更穩定、更高效，也更容易落地到環保、人道主義和公共利益相關任務中。它不只訓練模型，還配套構建端到端平臺，用于數據收集、標注、訓練和推理，降低真實組織使用前沿地球觀測模型的門檻。

論文地址：https://arxiv.org/pdf/2511.13655

OlmoEarth 的核心方法是 Latent MIM Lite。它用隨機初始化、訓練中凍結的線性投影層，把圖像 patch 投到 token 空間作為預測目標，在保留 latent modeling 表征能力的同時提升訓練穩定性。這個設計還把自監督數據和帶標注地圖數據統一到同一個 token 空間里，讓模型可以用相同損失學習觀測數據和標簽地圖。

針對遙感數據空間、時間和模態高度冗余的問題，OlmoEarth 采用 modality-aware masking，讓模型必須從其他時間、空間或模態中推斷缺失信息；同時只在同一 bandset 內進行 token 對比，避免大量“太容易”的負樣本削弱訓練效果。

綜合評估中，OlmoEarth 與 12 個其他基礎模型相比，在 embedding 評估中于 24 個任務里的 15 個取得最好表現；在 full fine-tuning 設置下，于 29 個任務里的 19 個取得最好表現。整體來看，這篇論文為地球觀測任務提出了一個更穩定、更開放、更面向真實應用的多模態基礎模型體系。