CVPR 2026 3D 視覺前沿梳理：模型正在學(xué)會理解、生成和構(gòu)建世界

本文作者：鄭佳美

2026-05-12 15:41

專題：CVPR 計算機視覺與模式識別會議

導(dǎo)語：3D 視覺正從重建生成，走向空間理解、動態(tài)模擬與工程化應(yīng)用。

CVPR 2026 3D 視覺前沿梳理：模型正在學(xué)會理解、生成和構(gòu)建世界

3D 視覺正從重建生成，走向空間理解、動態(tài)模擬與工程化應(yīng)用。

作者丨鄭佳美

編輯丨岑峰

如果說過去幾年的視覺 AI 主要是在回答“模型能不能看懂一張圖”，那么到 CVPR 2026，一個更清晰的趨勢正在浮現(xiàn)：模型正在被要求理解圖像背后的三維世界。

二維圖像只是現(xiàn)實世界在某個視角下的投影，真正困難的地方不在于生成一張看起來合理的畫面，而在于模型能否理解物體的空間結(jié)構(gòu)、相機運動、材質(zhì)光照、物理變化，以及這些信息在不同視角和不同時間中的一致性。

從今年的一系列 3D 視覺相關(guān)工作可以看到，研究重點正在從“生成結(jié)果是否好看”，轉(zhuǎn)向“生成過程是否具備空間邏輯”。

有的工作試圖通過自監(jiān)督 3D 重建，讓模型在沒有顯式標(biāo)注的情況下學(xué)習(xí)幾何關(guān)系；有的工作繞過傳統(tǒng)重建流程，直接利用 3D-aware 特征實現(xiàn)實時新視角合成；也有工作進一步把 3D 表示擴展到 4D 動態(tài)生成，讓物體不僅有形狀和外觀，還能表現(xiàn)出符合物理規(guī)律的運動。

同時，單圖 3D 重建、真實感 3D 生成、關(guān)鍵點長期追蹤、像素級預(yù)訓(xùn)練、真實世界數(shù)據(jù)集和自動化代碼工具鏈，也都在從不同層面補齊 3D 視覺的基礎(chǔ)能力。

這些工作共同指向一個更深層的變化：3D 視覺不再只是計算機圖形學(xué)或三維重建中的一個技術(shù)分支，而是在成為通向空間智能的重要路徑。

模型要進入真實世界，就不能只學(xué)習(xí)圖像表面的紋理和語義，而必須理解“物體在哪里、是什么形狀、如何運動、在不同條件下如何保持一致”。從某種意義上說，CVPR 2026 的這些工作進一步加強了行業(yè)此前的認知：視覺 AI 正在從二維感知走向三維理解，從圖像生成走向世界建模。

從看懂 3D 到生成 4D

3D 視覺研究的一個核心問題，是如何讓模型真正理解空間結(jié)構(gòu)，而不是只在圖像層面學(xué)習(xí)紋理和相似性。

由 CMU、Adobe 研究院和哈佛大學(xué)共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是從這個問題出發(fā)，研究如何在沒有 3D 標(biāo)注、相機位姿或深度監(jiān)督的情況下，讓模型僅通過多視角圖像學(xué)習(xí) 3D 空間理解能力。

作者提出了 E-RayZer 這一自監(jiān)督 3D 視覺預(yù)訓(xùn)練方法：模型會輸入同一場景的多張圖片，自動估計相機參數(shù)，并構(gòu)建顯式的 3D Gaussians 場景表示，再通過可微渲染生成目標(biāo)視角圖像，最后利用渲染結(jié)果與真實圖像之間的差異來訓(xùn)練模型。這樣一來，模型不只是學(xué)習(xí)圖像之間的相似性，而是需要真正理解相機、幾何結(jié)構(gòu)和多視角空間關(guān)系。

論文地址：https://arxiv.org/pdf/2512.10950

這篇論文的亮點在于，它把自監(jiān)督學(xué)習(xí)和顯式 3D 重建結(jié)合起來，使模型能夠在不依賴 3D 標(biāo)注的情況下學(xué)習(xí)空間表征。相比一些只在隱式特征空間中做視角合成的方法，E-RayZer 使用 3D Gaussians 直接建模場景，因此幾何意義更強，也更適合學(xué)習(xí)真實的 3D 結(jié)構(gòu)。

實驗結(jié)果表明，這種預(yù)訓(xùn)練方式在相機位姿估計、深度估計和新視角合成等任務(wù)上都有較好的表現(xiàn)，說明模型通過“自己重建 3D 場景”的訓(xùn)練過程，確實學(xué)到了有用的空間視覺能力。

E-RayZer 選擇用顯式 3D 重建來逼迫模型學(xué)習(xí)空間結(jié)構(gòu)，但在實際的新視角合成任務(wù)中，顯式重建并不是唯一選擇。另一條思路是：如果模型已經(jīng)具備足夠強的 3D-aware 特征，是否可以跳過復(fù)雜的顯式建模過程，直接用神經(jīng)網(wǎng)絡(luò)生成目標(biāo)視角畫面。

而由牛津大學(xué)視覺幾何組、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了這個方向。

它關(guān)注的是 Novel View Synthesis（新視角合成），也就是給定一個場景的若干輸入圖像，讓模型生成從新相機視角看到的畫面。傳統(tǒng)方法通常需要先重建顯式 3D 場景，比如 NeRF 或 3D Gaussians，再進行渲染；而這篇論文提出的 LagerNVS 選擇繞過顯式 3D 重建，直接用神經(jīng)網(wǎng)絡(luò)從輸入圖像和目標(biāo)相機視角生成新視角圖像。

論文地址：https://arxiv.org/pdf/2603.20176v2

它的核心想法是：雖然模型不直接輸出顯式 3D 結(jié)構(gòu)，但仍然應(yīng)該引入強 3D 先驗。具體來說，LagerNVS 使用一個從 3D 重建網(wǎng)絡(luò)初始化而來的編碼器來提取帶有 3D 感知能力的 latent features，再配合輕量級解碼器根據(jù)目標(biāo)相機視角生成圖像。

這樣既保留了 3D 結(jié)構(gòu)信息帶來的幾何理解能力，又避免了傳統(tǒng) 3D 重建和渲染流程的復(fù)雜性。這篇論文的亮點在于，它證明了即使是不顯式重建 3D 場景的新視角合成模型，也能明顯受益于 3D-aware 特征。

實驗中，LagerNVS 在確定性 feed-forward 新視角合成上取得了很強的效果，例如在 RealEstate10K 上達到 31.4 PSNR，并且可以在有相機參數(shù)或無相機參數(shù)的情況下工作；模型還支持實時渲染，在單張 H100 GPU 上可達到 30 FPS 以上。

如果說 E-RayZer 和 LagerNVS 主要處理的是靜態(tài)場景中的空間理解與視角生成，那么更進一步的問題是：模型能否不僅生成 3D 外觀，還生成符合物理規(guī)律的動態(tài)變化。

北京理工大學(xué)、理想汽車、哈爾濱工業(yè)大學(xué)和四川大學(xué)聯(lián)合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把關(guān)注點從靜態(tài) 3D 擴展到動態(tài) 4D。

它研究的是如何從單張圖像快速生成帶有物理規(guī)律的動態(tài) 4D 場景，也就是不僅要重建物體的 3D 外觀，還要讓它在運動、變形、受力時表現(xiàn)得更符合真實物理?，F(xiàn)有很多方法通常需要先用多視角圖像重建 3D Gaussian Splatting，再手動設(shè)置剛度、質(zhì)量等物理參數(shù)，或者通過視頻模型進行耗時的逐場景優(yōu)化。

而 PhysGM 希望用一次前向推理，直接預(yù)測物體的 3D Gaussian 表示和對應(yīng)的物理屬性，從而快速初始化物理模擬并生成高質(zhì)量動態(tài)渲染結(jié)果。

論文地址：https://arxiv.org/pdf/2508.13911v4

這篇論文的亮點在于，它把 3D Gaussian 重建和物理屬性預(yù)測放到同一個 feed-forward 框架中，不再把幾何重建和物理模擬分成兩個獨立步驟。模型會從輸入圖像中推斷物體的外觀、幾何以及材料屬性，例如剛度、密度等，再結(jié)合 MPM 物理模擬生成動態(tài)序列。

作者還使用 DPO 對模型進行偏好優(yōu)化，讓生成結(jié)果更接近物理合理的參考視頻，同時避免傳統(tǒng) SDS 方法中昂貴且不穩(wěn)定的逐場景優(yōu)化。整體來看，這篇論文的貢獻是：讓模型從單張圖像出發(fā)，在較短時間內(nèi)生成既有真實外觀、又具備物理運動規(guī)律的 4D Gaussian 場景，提升了物理驅(qū)動 4D 內(nèi)容生成的效率和實用性。

動態(tài)場景生成強調(diào)的是物體如何運動和變化，而在真實應(yīng)用中，另一個基礎(chǔ)需求是把普通自然圖像中的物體直接轉(zhuǎn)成可用的 3D 表示。Meta 超級智能實驗室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是從單張自然圖像中進行 3D 物體重建：

模型不僅要恢復(fù)物體的幾何形狀，還要預(yù)測紋理、姿態(tài)和在場景中的布局。相比只在干凈物體圖或合成數(shù)據(jù)上表現(xiàn)較好的方法，SAM 3D 更強調(diào)真實場景中的應(yīng)用，例如物體被遮擋、背景雜亂、尺寸較小或姿態(tài)異常時，仍然能夠根據(jù)圖像上下文生成較完整的 3D 結(jié)果。

論文地址：https://arxiv.org/pdf/2511.16624

它把大規(guī)模數(shù)據(jù)引擎和生成式 3D 重建模型結(jié)合起來。作者通過 human- and model-in-the-loop 的流程標(biāo)注物體形狀、紋理和姿態(tài)，構(gòu)建了大規(guī)模視覺對齊的 3D 重建數(shù)據(jù)，再用多階段訓(xùn)練方式把合成預(yù)訓(xùn)練和真實世界對齊結(jié)合起來，試圖突破 3D 數(shù)據(jù)不足的問題。

實驗中，SAM 3D 相比已有方法在真實物體和場景的人類偏好評測中取得了至少 5:1 的勝率，并且論文還計劃發(fā)布代碼、模型權(quán)重、在線 demo 和新的野外 3D 重建 benchmark。整體來看，這篇論文的貢獻是：把類似 SAM 的“開放世界視覺理解”能力推進到 3D 重建中，讓模型可以從普通圖片中更穩(wěn)定地生成可用的 3D 物體表示。

當(dāng) 3D 生成模型逐漸能從真實圖片中恢復(fù)物體結(jié)構(gòu)后，畫面是否足夠真實就變成了新的瓶頸。很多 3D 可控生成方法依賴合成數(shù)據(jù)來獲得幾何、視角和材質(zhì)控制能力，但合成數(shù)據(jù)本身也容易把模型帶向“合成感”的視覺風(fēng)格。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是針對這個問題，研究如何讓 3D 生成結(jié)果同時具備真實照片級外觀和穩(wěn)定的 3D 一致性。

很多方法會用帶有標(biāo)注的合成 3D 數(shù)據(jù)去微調(diào)圖像生成模型，從而獲得視角、幾何、材質(zhì)等控制能力，但這樣容易讓模型把“有控制信號”和“合成渲染風(fēng)格”錯誤綁定在一起，導(dǎo)致生成結(jié)果雖然可控，卻不夠真實。

Realiz3D 的目標(biāo)就是解決這個真實圖像和合成數(shù)據(jù)之間的 domain gap，讓模型既能聽從 3D 控制，又能生成更像真實照片的結(jié)果。

論文地址：https://idosobol.github.io/realiz3d/

這篇論文的核心做法是引入 Domain Shifters，也就是一組輕量級殘差適配器，用來單獨學(xué)習(xí)“真實 / 合成”這種視覺域信息，而不是把視覺風(fēng)格和 3D 控制信號混在一起。訓(xùn)練時，模型先學(xué)習(xí)區(qū)分和切換真實域、合成域，再利用合成數(shù)據(jù)學(xué)習(xí)精確控制，同時通過真實數(shù)據(jù)幫助模型保持照片級外觀。

論文還結(jié)合了 layer-aware training 和 domain reassignment 等策略，讓控制能力更好地遷移到真實圖像域中。它的亮點在于，不是簡單把真實數(shù)據(jù)和合成數(shù)據(jù)混在一起微調(diào)，而是顯式拆分“視覺真實性”和“幾何控制能力”，從而減少模型生成合成感畫面的傾向。

實驗展示中，Realiz3D 可以用于 text-to-multiview generation 和基于 3D 輸入的紋理生成，生成結(jié)果既保持多視角一致性，又比普通微調(diào)方式更加真實。

不只拼生成，底層表征也在進化

并不是所有 3D 視覺研究都直接以生成完整場景或物體為目標(biāo)。很多基礎(chǔ)工作更關(guān)心的是，模型能否學(xué)到可靠的空間表征、穩(wěn)定的局部結(jié)構(gòu)，以及能否在后續(xù) 3D 任務(wù)中提供更強的底層視覺能力。

由武漢大學(xué)計算機學(xué)院和小米 EV 團隊提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 視覺系統(tǒng)中的關(guān)鍵點檢測問題，尤其關(guān)注 SfM、SLAM 等任務(wù)里關(guān)鍵點能否在連續(xù)多幀圖像中長期穩(wěn)定地被追蹤。

作者認為，很多現(xiàn)有方法主要基于圖像對訓(xùn)練，只優(yōu)化兩張圖之間的匹配效果，但在真實序列任務(wù)中，更重要的是關(guān)鍵點能不能在多視角、光照變化和運動模糊下持續(xù)保持穩(wěn)定。這篇論文提出的方法叫 TraqPoint，核心是把關(guān)鍵點檢測看成一個序列決策問題，并用強化學(xué)習(xí)中的 policy gradient 來直接優(yōu)化關(guān)鍵點的長期可追蹤性。

論文鏈接：https://arxiv.org/pdf/2602.20630v3

它不再只判斷一個點在兩張圖里是否好匹配，而是把整段圖像序列作為環(huán)境，通過 track-aware reward 獎勵那些在多幀中既穩(wěn)定、又具有區(qū)分度的關(guān)鍵點。這樣訓(xùn)練出來的關(guān)鍵點更傾向于落在結(jié)構(gòu)明顯、跨視角一致性強的位置上。

這篇論文的亮點在于，它把關(guān)鍵點學(xué)習(xí)從“圖像對匹配”推進到了“序列級追蹤”，更貼近 SLAM、視覺里程計和 3D 重建等實際應(yīng)用需求。實驗結(jié)果也顯示，TraqPoint 在相對位姿估計、視覺定位、視覺里程計和 3D 重建等任務(wù)上都有較好表現(xiàn)，尤其在序列任務(wù)中能帶來更長的關(guān)鍵點跟蹤長度和更穩(wěn)定的軌跡估計。

關(guān)鍵點檢測強調(diào)的是局部結(jié)構(gòu)在多幀序列中的穩(wěn)定性，而視覺預(yù)訓(xùn)練則進一步追問：模型要獲得通用視覺能力，究竟應(yīng)該依賴什么樣的監(jiān)督信號。FAIR 和香港大學(xué)共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身，研究的是視覺預(yù)訓(xùn)練中的一個核心問題：

模型到底應(yīng)該從哪里獲得監(jiān)督信號。相比現(xiàn)在很常見的 DINO、JEPA 等在 latent space 中學(xué)習(xí)表征的方法，這篇論文重新強調(diào) pixel supervision 的價值，認為像素本身包含顏色、紋理、材質(zhì)、幾何和語義等多層次信息，因此直接讓模型預(yù)測被遮擋的像素，也可以學(xué)到很強的通用視覺表征。

這篇論文的亮點在于，它證明了基于像素重建的自監(jiān)督學(xué)習(xí)并沒有過時，只要任務(wù)設(shè)計和數(shù)據(jù)規(guī)模足夠好，仍然可以和當(dāng)前強大的 latent-space 方法競爭。

論文地址：https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基礎(chǔ)上做了幾個關(guān)鍵改進，包括使用更大的 mask block 來增加預(yù)訓(xùn)練難度、更深的 decoder 來增強像素重建能力、更多的 CLS token 來捕捉不同層次的全局信息，并使用約 2B 張網(wǎng)絡(luò)圖片進行訓(xùn)練，同時通過自篩選策略減少人工數(shù)據(jù)清洗依賴。

整體來看，這篇論文的貢獻是：重新驗證了像素級自監(jiān)督預(yù)訓(xùn)練的潛力。實驗顯示，Pixio 在單目深度估計、前饋式 3D 重建、語義分割和機器人學(xué)習(xí)等任務(wù)上，能夠達到或超過類似規(guī)模訓(xùn)練的 DINOv3 表現(xiàn)。

它說明直接預(yù)測像素不僅能學(xué)習(xí)低層視覺細節(jié)，也能幫助模型理解幾何、空間結(jié)構(gòu)和語義信息，因此可以作為 latent-space 預(yù)訓(xùn)練方法的有力替代和補充。

從論文到代碼，從采集到數(shù)據(jù)

模型能力的提升不僅依賴新的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo)，也依賴數(shù)據(jù)與工具鏈的完善。一方面，研究者需要更高效地復(fù)現(xiàn)已有方法并把論文轉(zhuǎn)化為可運行代碼；另一方面，真實世界 3D 視覺任務(wù)也需要更高質(zhì)量、更可控的數(shù)據(jù)資源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》對應(yīng)的是前一個問題，研究的是如何讓大語言模型代理自動把 NeRF 相關(guān)研究論文轉(zhuǎn)化成可以運行、可以訓(xùn)練的 Nerfstudio 插件代碼。

作者指出，很多 NeRF 論文沒有公開代碼，研究者往往需要花費很長時間重新實現(xiàn)，而通用的 paper-to-code 方法在這類任務(wù)上容易生成不能運行或訓(xùn)練效果很差的代碼，因此他們提出了 NERFIFY 這個面向 NeRF 領(lǐng)域的多智能體代碼生成框架。

它的核心思路是把論文解析、依賴恢復(fù)、代碼生成和訓(xùn)練反饋串成一個自動化流程。系統(tǒng)先將論文內(nèi)容整理成結(jié)構(gòu)化信息，再利用 Nerfstudio 的架構(gòu)約束形成類似 CFG 的生成規(guī)則，保證生成代碼符合基本模塊接口。

隨后通過 Graph-of-Thought 多智能體方式按依賴順序生成多個文件，并自動追蹤論文引用中隱藏的關(guān)鍵組件，例如采樣器、編碼器或 proposal network；最后還會根據(jù)訓(xùn)練結(jié)果和渲染圖像中的問題進行視覺反饋和代碼修正。

論文地址：https://arxiv.org/pdf/2603.00805

它不是簡單讓模型“讀論文寫代碼”，而是把 NeRF 領(lǐng)域知識、代碼結(jié)構(gòu)約束、引用依賴恢復(fù)和視覺質(zhì)量反饋結(jié)合起來，讓生成的代碼更接近真實可用的研究實現(xiàn)。

實驗中，NERFIFY 在 30 篇不同復(fù)雜度的 NeRF 論文上進行評估，對于沒有公開實現(xiàn)的論文，它生成的結(jié)果可以接近專家手寫代碼的視覺質(zhì)量，同時把實現(xiàn)時間從幾周縮短到幾分鐘。

整體來看，這篇論文的貢獻是提出了一種面向復(fù)雜視覺論文的領(lǐng)域?qū)Ｓ?paper-to-code 框架，目標(biāo)是降低 NeRF 研究復(fù)現(xiàn)和二次開發(fā)的門檻。

如果說 NERFIFY 試圖降低研究復(fù)現(xiàn)和二次開發(fā)的成本，那么 OLATverse 則是在數(shù)據(jù)層面為逆渲染、重光照和新視角合成等任務(wù)補足基礎(chǔ)設(shè)施。

由馬克斯?普朗克信息學(xué)研究所和南京大學(xué)共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新視角合成和法線估計的真實物體數(shù)據(jù)集構(gòu)建問題。

作者指出，現(xiàn)有很多方法仍然依賴合成數(shù)據(jù)訓(xùn)練，或者只能在小規(guī)模真實數(shù)據(jù)上評估，導(dǎo)致模型在真實場景中的材質(zhì)、光照和幾何泛化能力受限。為了解決這個問題，論文提出了 OLATverse，一個大規(guī)模真實物體數(shù)據(jù)集，包含 765 個真實物體，并在多視角和精確可控光照條件下采集圖像。

這篇論文的亮點在于，它同時兼顧了真實物體規(guī)模、光照控制精度和輔助標(biāo)注質(zhì)量。數(shù)據(jù)采集使用 lightstage 系統(tǒng)，每個物體由 35 個校準(zhǔn)相機拍攝，并由 331 個可控光源照明，支持 OLAT、環(huán)境光、均勻光和梯度光等多種光照設(shè)置。

論文地址：https://arxiv.org/pdf/2511.02483v3

同時數(shù)據(jù)集中還提供相機參數(shù)、物體 mask、表面法線和 diffuse albedo 等信息。相比以往很多數(shù)據(jù)集只強調(diào)物體數(shù)量，或者只在少量物體上做精細光照采集，OLATverse 的價值在于把“大規(guī)模真實物體”和“高精度可控光照”結(jié)合起來。雷峰網(wǎng)

整體來看，這篇論文的貢獻是：提供了一個更貼近真實世界的高質(zhì)量物體外觀數(shù)據(jù)資源，讓模型可以更可靠地學(xué)習(xí)材質(zhì)、幾何和光照之間的關(guān)系。它不僅可以用于訓(xùn)練重光照和生成式先驗，也可以作為逆渲染、新視角合成、法線估計等任務(wù)的綜合 benchmark。

論文也提到，目前數(shù)據(jù)中的法線和反照率還不是嚴(yán)格意義上的真實 ground truth，且沒有提供真實 mesh，但作為真實世界物體外觀和可控光照數(shù)據(jù)集，它對后續(xù) 3D 視覺和圖形學(xué)研究仍然很有價值。