• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    本文作者: 鄭佳美   2026-05-12 15:41 專題:CVPR 計算機視覺與模式識別會議
    導(dǎo)語:3D 視覺正從重建生成,走向空間理解、動態(tài)模擬與工程化應(yīng)用。
    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界
    3D 視覺正從重建生成,走向空間理解、動態(tài)模擬與工程化應(yīng)用。

        作者丨鄭佳美

        編輯丨岑   峰

                                                                                                                   CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    如果說過去幾年的視覺 AI 主要是在回答“模型能不能看懂一張圖”,那么到 CVPR 2026,一個更清晰的趨勢正在浮現(xiàn):模型正在被要求理解圖像背后的三維世界。

    二維圖像只是現(xiàn)實世界在某個視角下的投影,真正困難的地方不在于生成一張看起來合理的畫面,而在于模型能否理解物體的空間結(jié)構(gòu)、相機運動、材質(zhì)光照、物理變化,以及這些信息在不同視角和不同時間中的一致性。

    從今年的一系列 3D 視覺相關(guān)工作可以看到,研究重點正在從“生成結(jié)果是否好看”,轉(zhuǎn)向“生成過程是否具備空間邏輯”。

    有的工作試圖通過自監(jiān)督 3D 重建,讓模型在沒有顯式標(biāo)注的情況下學(xué)習(xí)幾何關(guān)系;有的工作繞過傳統(tǒng)重建流程,直接利用 3D-aware 特征實現(xiàn)實時新視角合成;也有工作進一步把 3D 表示擴展到 4D 動態(tài)生成,讓物體不僅有形狀和外觀,還能表現(xiàn)出符合物理規(guī)律的運動。

    同時,單圖 3D 重建、真實感 3D 生成、關(guān)鍵點長期追蹤、像素級預(yù)訓(xùn)練、真實世界數(shù)據(jù)集和自動化代碼工具鏈,也都在從不同層面補齊 3D 視覺的基礎(chǔ)能力。

    這些工作共同指向一個更深層的變化:3D 視覺不再只是計算機圖形學(xué)或三維重建中的一個技術(shù)分支,而是在成為通向空間智能的重要路徑。

    模型要進入真實世界,就不能只學(xué)習(xí)圖像表面的紋理和語義,而必須理解“物體在哪里、是什么形狀、如何運動、在不同條件下如何保持一致”。從某種意義上說,CVPR 2026 的這些工作進一步加強了行業(yè)此前的認知:視覺 AI 正在從二維感知走向三維理解,從圖像生成走向世界建模。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    01


    從看懂 3D 到生成 4D

    3D 視覺研究的一個核心問題,是如何讓模型真正理解空間結(jié)構(gòu),而不是只在圖像層面學(xué)習(xí)紋理和相似性。

    由 CMU、Adobe 研究院和哈佛大學(xué)共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是從這個問題出發(fā),研究如何在沒有 3D 標(biāo)注、相機位姿或深度監(jiān)督的情況下,讓模型僅通過多視角圖像學(xué)習(xí) 3D 空間理解能力。

    作者提出了 E-RayZer 這一自監(jiān)督 3D 視覺預(yù)訓(xùn)練方法:模型會輸入同一場景的多張圖片,自動估計相機參數(shù),并構(gòu)建顯式的 3D Gaussians 場景表示,再通過可微渲染生成目標(biāo)視角圖像,最后利用渲染結(jié)果與真實圖像之間的差異來訓(xùn)練模型。這樣一來,模型不只是學(xué)習(xí)圖像之間的相似性,而是需要真正理解相機、幾何結(jié)構(gòu)和多視角空間關(guān)系。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2512.10950

    這篇論文的亮點在于,它把自監(jiān)督學(xué)習(xí)和顯式 3D 重建結(jié)合起來,使模型能夠在不依賴 3D 標(biāo)注的情況下學(xué)習(xí)空間表征。相比一些只在隱式特征空間中做視角合成的方法,E-RayZer 使用 3D Gaussians 直接建模場景,因此幾何意義更強,也更適合學(xué)習(xí)真實的 3D 結(jié)構(gòu)。

    實驗結(jié)果表明,這種預(yù)訓(xùn)練方式在相機位姿估計、深度估計和新視角合成等任務(wù)上都有較好的表現(xiàn),說明模型通過“自己重建 3D 場景”的訓(xùn)練過程,確實學(xué)到了有用的空間視覺能力。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    E-RayZer 選擇用顯式 3D 重建來逼迫模型學(xué)習(xí)空間結(jié)構(gòu),但在實際的新視角合成任務(wù)中,顯式重建并不是唯一選擇。另一條思路是:如果模型已經(jīng)具備足夠強的 3D-aware 特征,是否可以跳過復(fù)雜的顯式建模過程,直接用神經(jīng)網(wǎng)絡(luò)生成目標(biāo)視角畫面。

    而由牛津大學(xué)視覺幾何組、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了這個方向。

    它關(guān)注的是 Novel View Synthesis(新視角合成),也就是給定一個場景的若干輸入圖像,讓模型生成從新相機視角看到的畫面。傳統(tǒng)方法通常需要先重建顯式 3D 場景,比如 NeRF 或 3D Gaussians,再進行渲染;而這篇論文提出的 LagerNVS 選擇繞過顯式 3D 重建,直接用神經(jīng)網(wǎng)絡(luò)從輸入圖像和目標(biāo)相機視角生成新視角圖像。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2603.20176v2

    它的核心想法是:雖然模型不直接輸出顯式 3D 結(jié)構(gòu),但仍然應(yīng)該引入強 3D 先驗。具體來說,LagerNVS 使用一個從 3D 重建網(wǎng)絡(luò)初始化而來的編碼器來提取帶有 3D 感知能力的 latent features,再配合輕量級解碼器根據(jù)目標(biāo)相機視角生成圖像。

    這樣既保留了 3D 結(jié)構(gòu)信息帶來的幾何理解能力,又避免了傳統(tǒng) 3D 重建和渲染流程的復(fù)雜性。這篇論文的亮點在于,它證明了即使是不顯式重建 3D 場景的新視角合成模型,也能明顯受益于 3D-aware 特征。

    實驗中,LagerNVS 在確定性 feed-forward 新視角合成上取得了很強的效果,例如在 RealEstate10K 上達到 31.4 PSNR,并且可以在有相機參數(shù)或無相機參數(shù)的情況下工作;模型還支持實時渲染,在單張 H100 GPU 上可達到 30 FPS 以上。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    如果說 E-RayZer 和 LagerNVS 主要處理的是靜態(tài)場景中的空間理解與視角生成,那么更進一步的問題是:模型能否不僅生成 3D 外觀,還生成符合物理規(guī)律的動態(tài)變化。

    北京理工大學(xué)、理想汽車、哈爾濱工業(yè)大學(xué)和四川大學(xué)聯(lián)合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把關(guān)注點從靜態(tài) 3D 擴展到動態(tài) 4D。

    它研究的是如何從單張圖像快速生成帶有物理規(guī)律的動態(tài) 4D 場景,也就是不僅要重建物體的 3D 外觀,還要讓它在運動、變形、受力時表現(xiàn)得更符合真實物理?,F(xiàn)有很多方法通常需要先用多視角圖像重建 3D Gaussian Splatting,再手動設(shè)置剛度、質(zhì)量等物理參數(shù),或者通過視頻模型進行耗時的逐場景優(yōu)化。

    而 PhysGM 希望用一次前向推理,直接預(yù)測物體的 3D Gaussian 表示和對應(yīng)的物理屬性,從而快速初始化物理模擬并生成高質(zhì)量動態(tài)渲染結(jié)果。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2508.13911v4

    這篇論文的亮點在于,它把 3D Gaussian 重建和物理屬性預(yù)測放到同一個 feed-forward 框架中,不再把幾何重建和物理模擬分成兩個獨立步驟。模型會從輸入圖像中推斷物體的外觀、幾何以及材料屬性,例如剛度、密度等,再結(jié)合 MPM 物理模擬生成動態(tài)序列。

    作者還使用 DPO 對模型進行偏好優(yōu)化,讓生成結(jié)果更接近物理合理的參考視頻,同時避免傳統(tǒng) SDS 方法中昂貴且不穩(wěn)定的逐場景優(yōu)化。整體來看,這篇論文的貢獻是:讓模型從單張圖像出發(fā),在較短時間內(nèi)生成既有真實外觀、又具備物理運動規(guī)律的 4D Gaussian 場景,提升了物理驅(qū)動 4D 內(nèi)容生成的效率和實用性。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    動態(tài)場景生成強調(diào)的是物體如何運動和變化,而在真實應(yīng)用中,另一個基礎(chǔ)需求是把普通自然圖像中的物體直接轉(zhuǎn)成可用的 3D 表示。Meta 超級智能實驗室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是從單張自然圖像中進行 3D 物體重建:

    模型不僅要恢復(fù)物體的幾何形狀,還要預(yù)測紋理、姿態(tài)和在場景中的布局。相比只在干凈物體圖或合成數(shù)據(jù)上表現(xiàn)較好的方法,SAM 3D 更強調(diào)真實場景中的應(yīng)用,例如物體被遮擋、背景雜亂、尺寸較小或姿態(tài)異常時,仍然能夠根據(jù)圖像上下文生成較完整的 3D 結(jié)果。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2511.16624

    它把大規(guī)模數(shù)據(jù)引擎和生成式 3D 重建模型結(jié)合起來。作者通過 human- and model-in-the-loop 的流程標(biāo)注物體形狀、紋理和姿態(tài),構(gòu)建了大規(guī)模視覺對齊的 3D 重建數(shù)據(jù),再用多階段訓(xùn)練方式把合成預(yù)訓(xùn)練和真實世界對齊結(jié)合起來,試圖突破 3D 數(shù)據(jù)不足的問題。

    實驗中,SAM 3D 相比已有方法在真實物體和場景的人類偏好評測中取得了至少 5:1 的勝率,并且論文還計劃發(fā)布代碼、模型權(quán)重、在線 demo 和新的野外 3D 重建 benchmark。整體來看,這篇論文的貢獻是:把類似 SAM 的“開放世界視覺理解”能力推進到 3D 重建中,讓模型可以從普通圖片中更穩(wěn)定地生成可用的 3D 物體表示。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    當(dāng) 3D 生成模型逐漸能從真實圖片中恢復(fù)物體結(jié)構(gòu)后,畫面是否足夠真實就變成了新的瓶頸。很多 3D 可控生成方法依賴合成數(shù)據(jù)來獲得幾何、視角和材質(zhì)控制能力,但合成數(shù)據(jù)本身也容易把模型帶向“合成感”的視覺風(fēng)格。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是針對這個問題,研究如何讓 3D 生成結(jié)果同時具備真實照片級外觀和穩(wěn)定的 3D 一致性。

    很多方法會用帶有標(biāo)注的合成 3D 數(shù)據(jù)去微調(diào)圖像生成模型,從而獲得視角、幾何、材質(zhì)等控制能力,但這樣容易讓模型把“有控制信號”和“合成渲染風(fēng)格”錯誤綁定在一起,導(dǎo)致生成結(jié)果雖然可控,卻不夠真實。

    Realiz3D 的目標(biāo)就是解決這個真實圖像和合成數(shù)據(jù)之間的 domain gap,讓模型既能聽從 3D 控制,又能生成更像真實照片的結(jié)果。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://idosobol.github.io/realiz3d/

    這篇論文的核心做法是引入 Domain Shifters,也就是一組輕量級殘差適配器,用來單獨學(xué)習(xí)“真實 / 合成”這種視覺域信息,而不是把視覺風(fēng)格和 3D 控制信號混在一起。訓(xùn)練時,模型先學(xué)習(xí)區(qū)分和切換真實域、合成域,再利用合成數(shù)據(jù)學(xué)習(xí)精確控制,同時通過真實數(shù)據(jù)幫助模型保持照片級外觀。

    論文還結(jié)合了 layer-aware training 和 domain reassignment 等策略,讓控制能力更好地遷移到真實圖像域中。它的亮點在于,不是簡單把真實數(shù)據(jù)和合成數(shù)據(jù)混在一起微調(diào),而是顯式拆分“視覺真實性”和“幾何控制能力”,從而減少模型生成合成感畫面的傾向。

    實驗展示中,Realiz3D 可以用于 text-to-multiview generation 和基于 3D 輸入的紋理生成,生成結(jié)果既保持多視角一致性,又比普通微調(diào)方式更加真實。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界
    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    02


    不只拼生成,底層表征也在進化

    并不是所有 3D 視覺研究都直接以生成完整場景或物體為目標(biāo)。很多基礎(chǔ)工作更關(guān)心的是,模型能否學(xué)到可靠的空間表征、穩(wěn)定的局部結(jié)構(gòu),以及能否在后續(xù) 3D 任務(wù)中提供更強的底層視覺能力。

    由武漢大學(xué)計算機學(xué)院和小米 EV 團隊提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 視覺系統(tǒng)中的關(guān)鍵點檢測問題,尤其關(guān)注 SfM、SLAM 等任務(wù)里關(guān)鍵點能否在連續(xù)多幀圖像中長期穩(wěn)定地被追蹤。

    作者認為,很多現(xiàn)有方法主要基于圖像對訓(xùn)練,只優(yōu)化兩張圖之間的匹配效果,但在真實序列任務(wù)中,更重要的是關(guān)鍵點能不能在多視角、光照變化和運動模糊下持續(xù)保持穩(wěn)定。這篇論文提出的方法叫 TraqPoint,核心是把關(guān)鍵點檢測看成一個序列決策問題,并用強化學(xué)習(xí)中的 policy gradient 來直接優(yōu)化關(guān)鍵點的長期可追蹤性。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文鏈接:https://arxiv.org/pdf/2602.20630v3

    它不再只判斷一個點在兩張圖里是否好匹配,而是把整段圖像序列作為環(huán)境,通過 track-aware reward 獎勵那些在多幀中既穩(wěn)定、又具有區(qū)分度的關(guān)鍵點。這樣訓(xùn)練出來的關(guān)鍵點更傾向于落在結(jié)構(gòu)明顯、跨視角一致性強的位置上。

    這篇論文的亮點在于,它把關(guān)鍵點學(xué)習(xí)從“圖像對匹配”推進到了“序列級追蹤”,更貼近 SLAM、視覺里程計和 3D 重建等實際應(yīng)用需求。實驗結(jié)果也顯示,TraqPoint 在相對位姿估計、視覺定位、視覺里程計和 3D 重建等任務(wù)上都有較好表現(xiàn),尤其在序列任務(wù)中能帶來更長的關(guān)鍵點跟蹤長度和更穩(wěn)定的軌跡估計。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    關(guān)鍵點檢測強調(diào)的是局部結(jié)構(gòu)在多幀序列中的穩(wěn)定性,而視覺預(yù)訓(xùn)練則進一步追問:模型要獲得通用視覺能力,究竟應(yīng)該依賴什么樣的監(jiān)督信號。FAIR 和香港大學(xué)共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身,研究的是視覺預(yù)訓(xùn)練中的一個核心問題:

    模型到底應(yīng)該從哪里獲得監(jiān)督信號。相比現(xiàn)在很常見的 DINO、JEPA 等在 latent space 中學(xué)習(xí)表征的方法,這篇論文重新強調(diào) pixel supervision 的價值,認為像素本身包含顏色、紋理、材質(zhì)、幾何和語義等多層次信息,因此直接讓模型預(yù)測被遮擋的像素,也可以學(xué)到很強的通用視覺表征。

    這篇論文的亮點在于,它證明了基于像素重建的自監(jiān)督學(xué)習(xí)并沒有過時,只要任務(wù)設(shè)計和數(shù)據(jù)規(guī)模足夠好,仍然可以和當(dāng)前強大的 latent-space 方法競爭。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2512.15715v1

    Pixio 在原始 MAE 的基礎(chǔ)上做了幾個關(guān)鍵改進,包括使用更大的 mask block 來增加預(yù)訓(xùn)練難度、更深的 decoder 來增強像素重建能力、更多的 CLS token 來捕捉不同層次的全局信息,并使用約 2B 張網(wǎng)絡(luò)圖片進行訓(xùn)練,同時通過自篩選策略減少人工數(shù)據(jù)清洗依賴。

    整體來看,這篇論文的貢獻是:重新驗證了像素級自監(jiān)督預(yù)訓(xùn)練的潛力。實驗顯示,Pixio 在單目深度估計、前饋式 3D 重建、語義分割和機器人學(xué)習(xí)等任務(wù)上,能夠達到或超過類似規(guī)模訓(xùn)練的 DINOv3 表現(xiàn)。

    它說明直接預(yù)測像素不僅能學(xué)習(xí)低層視覺細節(jié),也能幫助模型理解幾何、空間結(jié)構(gòu)和語義信息,因此可以作為 latent-space 預(yù)訓(xùn)練方法的有力替代和補充。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界
    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    03


    從論文到代碼,從采集到數(shù)據(jù)

    模型能力的提升不僅依賴新的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo),也依賴數(shù)據(jù)與工具鏈的完善。一方面,研究者需要更高效地復(fù)現(xiàn)已有方法并把論文轉(zhuǎn)化為可運行代碼;另一方面,真實世界 3D 視覺任務(wù)也需要更高質(zhì)量、更可控的數(shù)據(jù)資源。

    UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》對應(yīng)的是前一個問題,研究的是如何讓大語言模型代理自動把 NeRF 相關(guān)研究論文轉(zhuǎn)化成可以運行、可以訓(xùn)練的 Nerfstudio 插件代碼。

    作者指出,很多 NeRF 論文沒有公開代碼,研究者往往需要花費很長時間重新實現(xiàn),而通用的 paper-to-code 方法在這類任務(wù)上容易生成不能運行或訓(xùn)練效果很差的代碼,因此他們提出了 NERFIFY 這個面向 NeRF 領(lǐng)域的多智能體代碼生成框架。

    它的核心思路是把論文解析、依賴恢復(fù)、代碼生成和訓(xùn)練反饋串成一個自動化流程。系統(tǒng)先將論文內(nèi)容整理成結(jié)構(gòu)化信息,再利用 Nerfstudio 的架構(gòu)約束形成類似 CFG 的生成規(guī)則,保證生成代碼符合基本模塊接口。

    隨后通過 Graph-of-Thought 多智能體方式按依賴順序生成多個文件,并自動追蹤論文引用中隱藏的關(guān)鍵組件,例如采樣器、編碼器或 proposal network;最后還會根據(jù)訓(xùn)練結(jié)果和渲染圖像中的問題進行視覺反饋和代碼修正。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2603.00805

    它不是簡單讓模型“讀論文寫代碼”,而是把 NeRF 領(lǐng)域知識、代碼結(jié)構(gòu)約束、引用依賴恢復(fù)和視覺質(zhì)量反饋結(jié)合起來,讓生成的代碼更接近真實可用的研究實現(xiàn)。

    實驗中,NERFIFY 在 30 篇不同復(fù)雜度的 NeRF 論文上進行評估,對于沒有公開實現(xiàn)的論文,它生成的結(jié)果可以接近專家手寫代碼的視覺質(zhì)量,同時把實現(xiàn)時間從幾周縮短到幾分鐘。

    整體來看,這篇論文的貢獻是提出了一種面向復(fù)雜視覺論文的領(lǐng)域?qū)S?paper-to-code 框架,目標(biāo)是降低 NeRF 研究復(fù)現(xiàn)和二次開發(fā)的門檻。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    如果說 NERFIFY 試圖降低研究復(fù)現(xiàn)和二次開發(fā)的成本,那么 OLATverse 則是在數(shù)據(jù)層面為逆渲染、重光照和新視角合成等任務(wù)補足基礎(chǔ)設(shè)施。

    由馬克斯?普朗克信息學(xué)研究所和南京大學(xué)共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新視角合成和法線估計的真實物體數(shù)據(jù)集構(gòu)建問題。

    作者指出,現(xiàn)有很多方法仍然依賴合成數(shù)據(jù)訓(xùn)練,或者只能在小規(guī)模真實數(shù)據(jù)上評估,導(dǎo)致模型在真實場景中的材質(zhì)、光照和幾何泛化能力受限。為了解決這個問題,論文提出了 OLATverse,一個大規(guī)模真實物體數(shù)據(jù)集,包含 765 個真實物體,并在多視角和精確可控光照條件下采集圖像。

    這篇論文的亮點在于,它同時兼顧了真實物體規(guī)模、光照控制精度和輔助標(biāo)注質(zhì)量。數(shù)據(jù)采集使用 lightstage 系統(tǒng),每個物體由 35 個校準(zhǔn)相機拍攝,并由 331 個可控光源照明,支持 OLAT、環(huán)境光、均勻光和梯度光等多種光照設(shè)置。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    論文地址:https://arxiv.org/pdf/2511.02483v3

    同時數(shù)據(jù)集中還提供相機參數(shù)、物體 mask、表面法線和 diffuse albedo 等信息。相比以往很多數(shù)據(jù)集只強調(diào)物體數(shù)量,或者只在少量物體上做精細光照采集,OLATverse 的價值在于把“大規(guī)模真實物體”和“高精度可控光照”結(jié)合起來。雷峰網(wǎng)

    整體來看,這篇論文的貢獻是:提供了一個更貼近真實世界的高質(zhì)量物體外觀數(shù)據(jù)資源,讓模型可以更可靠地學(xué)習(xí)材質(zhì)、幾何和光照之間的關(guān)系。它不僅可以用于訓(xùn)練重光照和生成式先驗,也可以作為逆渲染、新視角合成、法線估計等任務(wù)的綜合 benchmark。

    論文也提到,目前數(shù)據(jù)中的法線和反照率還不是嚴(yán)格意義上的真實 ground truth,且沒有提供真實 mesh,但作為真實世界物體外觀和可控光照數(shù)據(jù)集,它對后續(xù) 3D 視覺和圖形學(xué)研究仍然很有價值。

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會理解、生成和構(gòu)建世界

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 人妻人久久精品中文字幕| 精品国产AV 无码一区二区三区| 久久精品国产亚洲a| 少妇粉嫩小泬喷水视频www| 美女黄18以下禁止观看| 亚洲精品成人综合色在线| 西和县| 欧美日韩亚洲综合二区| 亚洲一区二区精品偷拍| 欧美亚洲国产日韩一区二区| 国产老熟女无套内射不卡| 亚洲一区在线日韩在线深爱| 中文字幕熟妇无码专区| 日本AⅤ精品一区二区三区日| 免费男人j桶进女人p无遮挡动态图| 国产乱子伦无套一区二区三区 | 操碰人人| 久久99视频| 亚洲成av人片无码天堂下载| 青青草原国产精品啪啪视频| 青青久草| 色欲色香综合网| 男女做爽爽爽视频免费| 精品人妻一区二区久久| jizz日本在线观看| 人妻日韩精品中文字幕| 一本加勒比hezyo无码人妻| 国产极品女主播国产区| 东京热一精品无码av| 久久国产精品无码hdav| 99国产欧美久久久精品| 精品人妻无码一区二区三区四川人| 国产一卡2卡三卡4卡免费网站| 日本熟妇浓毛| 亚洲精品5555在线| 激情在线网| 在线视频第一页| 国产一级做a爱视频在线| 伊人综合夜夜操| 日韩精品无码区免费专区| 884aa四虎影成人精品|