• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給鄭佳美
    發送

    0

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    本文作者: 鄭佳美   2026-05-16 21:23 專題:CVPR 計算機視覺與模式識別會議
    導語:視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。
    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步
    視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。

        作者丨鄭佳美

        編輯丨馬曉寧

                                                                                                                   

    過去,視頻生成更多是在解決“像不像”的問題:人物是否清晰,畫面是否流暢,風格是否統一。但隨著模型能力提升,視頻真正困難的部分開始顯現出來——它不是一組漂亮幀的連續播放,而是一個由時間、空間、運動、相機、光照和物理信號共同構成的動態系統。

    只要模型無法理解這些隱含結構,它生成的視頻就可能看似逼真,卻在運動邏輯、視角一致性或真實場景適應上露出破綻。因此,視頻智能正在進入一個更深的階段:不只是生成畫面,而是理解畫面為什么會這樣變化。

    從運動軌跡編輯、3D 結構約束、可迭代文生視頻,到自適應視頻 token、長期運動表征、頻閃去除、熱成像分離和地球觀測模型,研究者實際上都在處理同一個底層問題:如何讓模型把視頻從“像素序列”理解為“動態世界”。

    這也是今年 CVPR 相關方向中一個值得注意的信號——視頻模型的競爭重心,正在從視覺質量轉向對時間、空間和物理規律的建模能力。

    換句話說,視頻 AI 的下一步,不是單純把視頻生成得更長、更清楚、更炫,而是讓模型知道運動從哪里來、結構為什么穩定、信號如何形成,以及復雜場景中的變化如何被預測和控制。

    當這些能力逐漸補齊,視頻模型才可能真正從內容生成工具,走向能夠理解、編輯和推演現實世界的動態智能系統。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    01


    從改畫面到改運動

    視頻生成和視頻編輯正在從“畫面是否好看”,走向“運動是否可控”。谷歌和石溪大學共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改視頻風格或局部外觀,而是直接編輯視頻里的“運動”。

    比如讓人物換方向、讓物體晚一點出現,或在保留場景內容的同時改變鏡頭運動。現有方法一旦涉及物體運動、相機軌跡或時間順序變化,就很難保留原視頻后續幀中已有的內容。

    MotionV2V 的核心思路是把視頻運動表示成稀疏軌跡點,并讓用戶直接編輯這些軌跡。系統先從輸入視頻中提取物體或場景點的原始運動軌跡,用戶再指定目標運動,模型根據“原始軌跡”和“目標軌跡”之間的差異生成編輯后的視頻。論文把這種差異稱為 motion edit,并用它指導視頻擴散模型,在盡量保留原視頻內容的同時,讓目標物體或相機按新的方式運動。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2511.20640v1

    它的亮點在于,MotionV2V 不是從單張圖片重新生成視頻,而是真正以完整輸入視頻為條件進行 video-to-video motion editing。因此它可以利用視頻中任意時間點的信息,處理首幀里還沒出現的物體,也能支持物體運動、相機運動、時間控制和連續多次編輯。

    作者還構建了 motion counterfactuals,即內容相同但運動不同的視頻對,用來微調 motion-conditioned video diffusion 架構。從論文對比來看,MotionV2V 在內容保留、運動控制和整體編輯質量上優于已有方法,用戶研究中也獲得約 70% 的偏好率。整體來看,這篇論文把視頻編輯從“改外觀”推進到“改運動”。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    當運動編輯涉及相機、物體和非剛性形變時,僅靠 2D 運動線索往往不夠。Adobe 和馬里蘭大學帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》進一步使用 3D point tracks 作為統一的運動控制表示,同時改變視頻里的相機運動和物體運動。

    系統會先估計輸入視頻中的相機參數和 3D 點軌跡,用戶編輯相機運動或物體軌跡后,再由 video-to-video 生成模型合成新視頻。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2512.02015v1

    相比 2D 軌跡,3D 軌跡提供了深度信息,可以幫助模型判斷遮擋關系、前后層次和真實空間運動。論文還設計了 3D track conditioner,通過 cross-attention 從輸入視頻中采樣視覺上下文,并把這些信息對齊到目標幀空間中,讓模型在改變運動的同時保持畫面連貫。

    由于真實世界中很難獲得成對訓練數據,作者采用兩階段訓練:先用合成數據學習基礎運動控制,再用真實單目視頻構造非連續片段對,縮小合成到真實的差距。整體來看,這篇論文把視頻運動編輯推進到更 3D-aware 的階段,也支持運動遷移、非剛性變形、物體移除和復制等效果。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    如果輸入只有一張物體圖像,模型如何在相機繞物體旋轉時生成穩定、真實、結構一致的視頻?澳大利亞國立大學和亞馬遜共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是從單張物體圖像生成 orbital video。現有視頻生成方法在大角度視角變化時缺少可靠像素對應關系,容易生成結構扭曲或不合理的物體形狀。雷峰網

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2604.12309

    這篇論文的核心思路是引入 3D foundation model 中學到的形狀先驗,用它輔助視頻擴散模型生成更穩定的環繞視頻。模型從單張輸入圖像中提取兩類 3D latent features:全局 latent vector 提供整體結構指導,體積特征投影得到的 latent images 提供隨視角變化的幾何細節。

    相比深度圖或法線圖,這些 3D latent features 能表達更完整的物體形狀,也避免顯式提取 mesh 的額外開銷。作者還設計了 multi-scale 3D adapter,把不同尺度的 3D 特征接入基礎視頻模型,從而提升生成視頻的真實感、物體形狀合理性和多視角一致性。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    谷歌和新加坡國立大學共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》則把重點放在生成流程本身:當用戶給出文本想法后,系統能不能反復評估、反思和修改,直到生成更符合意圖的視頻。

    它研究的是 test-time self-improvement,也就是不重新訓練視頻生成模型,而是在推理階段通過反復評價和改寫 prompt 來提升結果。

    VISTA 會先把用戶想法拆成帶有時間結構的場景計劃,包括時長、角色、動作、對白、環境、相機、聲音和情緒等要素;生成多個候選視頻后,通過 pairwise tournament 選出當前最好結果;隨后由視覺、音頻和上下文評審智能體提出意見,最后由 reasoning agent 綜合反饋并改寫 prompt,進入下一輪生成。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2510.15831

    它的亮點在于,VISTA 不是只優化某個指標,而是把視頻規劃、候選篩選、多維度評價和提示詞重寫串成自動閉環。論文中提到,VISTA 在自動指標下相較先進基線最高達到 60% 的 pairwise win rate,在人工評測中也獲得 66.4% 的偏好率。整體來看,它把文生視頻從“一次性生成”推進到“生成—評價—反思—再生成”。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步
    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    02


    讓模型先學會「怎么動」

    要讓視頻模型更好地生成和編輯內容,底層表示也需要更高效。上海交通大學、香港中文大學多媒體實驗室、上海人工智能實驗室 OpenGVLab、同濟大學、清華大學共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是視頻 tokenization 問題,也就是如何把連續視頻幀壓縮成更適合自回歸模型處理的離散 token。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2505.17011v2

    AdapTok 的核心思路是讓視頻 token 分配變得自適應。它不是給每個時間段分配同樣多的 token,而是根據視頻內容、時間變化和整體預算,動態決定哪里多用 token、哪里少用 token。

    它使用 1D latent token space 表示視頻,并引入 temporal causality,讓前面幀的編碼和解碼不依賴未來幀,更適合流式處理和自回歸生成;同時通過 block-wise masking、block causal scorer 和 IPAL 策略完成自適應分配。

    這樣一來,運動明顯、場景變化大的片段會獲得更多 token,靜態或冗余片段則使用更少 token。在 UCF-101 和 Kinetics-600 任務中,AdapTok 在不同 token 預算下都能提升重建質量和生成表現。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    AdapTok 解決的是視頻如何被高效表示,而 CompVis @ LMU、MCML 和蘋果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》進一步追問:如果只是理解未來怎么動,是否一定要完整生成像素視頻。論文轉向學習一種更緊湊的 long-term motion embedding,用來表示場景中的長期運動規律。

    它從大規模 tracker 模型得到的軌跡數據中學習壓縮運動空間,把稀疏軌跡和起始幀編碼成 latent motion grid,并可在任意空間查詢點上重建密集運動;隨后在這個運動 latent 空間里訓練 conditional flow-matching 模型,根據文本任務描述或 spatial pokes 生成長期運動。這種表示可達到 64 倍時間壓縮,也就是說模型不用逐幀生成視頻,就能在更抽象的運動空間中推斷未來動態。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2604.11737

    這篇論文的亮點在于,它把“生成視頻”拆成了更基礎的“生成運動”。這種 kinematics-first 方式更適合探索多個可能未來,也更適合機器人規劃、軌跡預測和長期動態建模。

    在開放域互聯網視頻和 LIBERO 機器人基準上,它的運動生成質量、條件遵循能力和效率都優于專門軌跡預測方法以及 Wan、Veo 3 等視頻模型基線。整體來看,AI 不一定要先“畫出未來”,也可以先學會“未來應該怎么動”。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步
    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    03


    從修復畫面到理解信號來源

    除了生成和編輯,視頻與圖像研究也在關注如何從復雜成像退化中恢復可靠信息。南開大學國際先進研究院、鵬城實驗室、南開大學計算機學院、香港理工大學、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光連拍圖像中的 flicker artifact 去除問題。

    這類退化由人工光源頻閃和 rolling shutter 共同造成,表現為條紋狀、明暗不均的閃爍,不能簡單當作普通噪聲或低光增強處理。

    Flickerformer 的核心思路是利用閃爍退化的周期性和方向性。周期性來自交流電光源亮度變化,方向性與相機逐行掃描機制有關。針對這兩個特點,Flickerformer 設計了 PFM、AFFN 和 WDAM 三個模塊,分別用于幀間相位相關融合、單幀自相關建模,以及小波域方向性高頻修復。雷峰網(公眾號:雷峰網)

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2603.22794v1

    它的亮點在于,把頻閃本身的物理先驗嵌入網絡結構里,而不是把 flicker removal 當成普通圖像增強任務。在 BurstDeflicker benchmark 上,Flickerformer 超過多種圖像復原和 burst restoration 方法,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整體來看,這篇論文讓模型能夠更準確地去除條紋閃爍,同時保留細節并減少重影。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    類似思路也出現在熱成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是熱成像中的發射 / 反射分離問題。

    熱相機看到的長波紅外信號既可能來自物體自身熱輻射,也可能來自周圍環境反射;在接近室溫的日常場景中,這兩部分信號強度接近且都會隨時間變化,因此很難判斷亮暗變化到底來自物體溫度變化,還是背景反射。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2509.11334

    論文提出 dual-band thermal videography,用兩個長波紅外子波段視頻分離“物體自身發射”和“背景反射”。它同時利用光譜線索和時間線索:同一材料在兩個波段中的發射率比例相對固定,而物體熱傳導變化通常更平滑、背景反射變化更快。

    實驗中,方法能把咖啡壺升溫時的熱發射與旁邊移動人物的反射分開,也能區分玻璃板上的手指熱印和手指反射。在酒杯和咖啡壺視頻中的非校準溫度估計誤差分別約為 1.72% 和 5.34%。整體來看,這篇論文把熱成像從“看到溫度分布”推進到“理解熱信號來源”。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步
    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    04


    讓視覺模型進入真實世界任務

    當視覺模型進入遙感和地球觀測場景時,問題會比普通圖像更復雜:模型不僅要處理圖像,還要同時理解時間序列、多源數據和地圖標注。艾倫人工智能研究所、華盛頓大學、亞利桑那州立大學、不列顛哥倫比亞大學聯合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球觀測數據的多模態基礎模型。

    地球觀測數據既有圖像空間結構,也有類似視頻或文本的時間序列特征,還包含衛星影像、地圖、地形、作物、土地覆蓋等多種模態。

    這篇論文提出的模型叫 OlmoEarth,目標是讓地球觀測基礎模型更穩定、更高效,也更容易落地到環保、人道主義和公共利益相關任務中。它不只訓練模型,還配套構建端到端平臺,用于數據收集、標注、訓練和推理,降低真實組織使用前沿地球觀測模型的門檻。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    論文地址:https://arxiv.org/pdf/2511.13655

    OlmoEarth 的核心方法是 Latent MIM Lite。它用隨機初始化、訓練中凍結的線性投影層,把圖像 patch 投到 token 空間作為預測目標,在保留 latent modeling 表征能力的同時提升訓練穩定性。這個設計還把自監督數據和帶標注地圖數據統一到同一個 token 空間里,讓模型可以用相同損失學習觀測數據和標簽地圖。

    針對遙感數據空間、時間和模態高度冗余的問題,OlmoEarth 采用 modality-aware masking,讓模型必須從其他時間、空間或模態中推斷缺失信息;同時只在同一 bandset 內進行 token 對比,避免大量“太容易”的負樣本削弱訓練效果。

    綜合評估中,OlmoEarth 與 12 個其他基礎模型相比,在 embedding 評估中于 24 個任務里的 15 個取得最好表現;在 full fine-tuning 設置下,于 29 個任務里的 19 個取得最好表現。整體來看,這篇論文為地球觀測任務提出了一個更穩定、更開放、更面向真實應用的多模態基礎模型體系。

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    這次去 CVPR 現場,一定不要錯過

    【認識大牛+賺外快】的機會

    需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

    你能獲得什么?

    認識大牛:你將可以進入CVPR名師博士社群;

    錢多活少:提供豐厚獎金,任務量精簡;

    聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

    如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

    限額5位,先到先得

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 九九热在线精品免费视频| 在线a人片免费观看国产| 国产精品美女乱子伦高| 99中文字幕国产精品| 国产成人精品综合| 色婷婷一区二区三区四区| 人妻少妇偷人无码视频| 欧洲一区二区| 亚洲欧洲综合| 丰满少妇αⅴ无码区| 虎白女粉嫩尤物福利视频| 超碰97人妻| 亚洲成av| 日本福利片国产午夜久久| 娇妻玩4p被三个男人伺候| 国产成人啪精品午夜网站| 久久精品道一区二区三区| 久久影院一区二区h| 中文字幕亚洲综合久久综合| 亚洲人人综合| 国产婷婷综合在线视频中文| 久久精品人妻中文视频| 国产精品一区av在线观看| 国产精品亚洲欧洲人成网站| 日本东京热一区二区三区| 免费AV在线| 天天躁日日躁狠狠躁欧美| 精品一久久香蕉国产线看观 | 亚洲中文在线观看av| 日本一区二区在线高清观看| 一区二区日本在线| 国产精品自拍第一页| 亚洲国产另类久久久精品网站| 日韩高清福利视频在线观看| 亚洲青青草视频在线播放| 97色色网| 国产97色在线 | 免费| 国产精品视频露脸| 狠狠色丁香婷婷亚洲综合| 丰满少妇作爱视频免费观看| 视频在线+欧美十亚洲曰本|