0
| 本文作者: 陳淑瑜 | 2026-05-28 14:50 | 專題:CVPR 計算機(jī)視覺與模式識別會議 |
來源:公眾號“我愛計算機(jī)視覺” 原文鏈接:https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154 在計算機(jī)視覺領(lǐng)域,3D 重建一直被視為一項“硬核”任務(wù)。傳統(tǒng)的結(jié)構(gòu)從運(yùn)動(Structure-from-Motion, SfM)算法往往需要復(fù)雜的離線優(yōu)化,而近年來興起的前饋重建模型雖然速度快,但在處理大規(guī)模數(shù)據(jù)和復(fù)雜動態(tài)場景時尚需提升。最近,來自牛津大學(xué)視覺幾何組(Visual Geometry Group, VGG)和 Meta AI 的研究團(tuán)隊發(fā)布了全新的重建大模型 VGGT-Ω,試圖通過“規(guī)模化(Scaling)”的力量徹底改變這一現(xiàn)狀。
它不僅將參數(shù)量推向了 100 億(10B),更通過一套精妙的架構(gòu)改進(jìn),實現(xiàn)了對動態(tài)場景的高精度重建,在 Sintel 等極具挑戰(zhàn)性的基準(zhǔn)測試中,將相機(jī)估計精度足足提升了 77%。

在自然語言處理和 2D 視覺領(lǐng)域,我們已經(jīng)見證了模型性能隨數(shù)據(jù)和參數(shù)規(guī)模呈冪律增長的奇跡。但在 3D 視覺中,這種“規(guī)模效應(yīng)”是否依然存在?
VGGT-Ω 的研究團(tuán)隊發(fā)現(xiàn),重建任務(wù)其實是學(xué)習(xí)空間理解表征的絕佳“代理任務(wù)”。通過訓(xùn)練模型預(yù)測相機(jī)姿態(tài)和深度,模型被迫理解場景的幾何結(jié)構(gòu)、物體間的遮擋關(guān)系甚至是物體的運(yùn)動規(guī)律。為了驗證這一猜想,團(tuán)隊將模型從 2 億參數(shù)擴(kuò)展到 100 億,并將訓(xùn)練數(shù)據(jù)從幾千個序列增加到 400 萬個。實驗結(jié)果顯示:性能提升的曲線幾乎是一條完美的直線。

要在如此大規(guī)模的數(shù)據(jù)上訓(xùn)練 10B 模型,原有的 VGGT 架構(gòu)顯然太重了。VGGT-Ω 通過對計算瓶頸的精準(zhǔn)打擊,實現(xiàn)了效率與能力的雙重飛躍。
VGGT-Ω 作為一個前饋 Transformer 模型 ,其核心任務(wù)是將 張輸入圖像 直接映射為對應(yīng)的相機(jī)參數(shù)和深度圖:
其中, 是深度圖, 包含了旋轉(zhuǎn)四元數(shù)、平移向量和視場角(Field of View, FoV)。
研究人員觀察到,Vision Transformer(ViT)在處理圖像時,往往會自發(fā)地利用一小部分 Token 來攜帶全局信息。于是,VGGT-Ω 顯式地為每幀圖像添加了 16 個寄存器(Registers),也稱為“場景 Token”。
更有趣的設(shè)計在于寄存器注意力:在 25% 的全局注意力層中,不同幀之間的信息交換被嚴(yán)格限制在這些寄存器之間。這就像是開會時,每幀圖像只派代表(寄存器)去溝通,而不是所有人亂哄哄地擠在一起。這種設(shè)計不僅形成了有效的信息瓶頸,強(qiáng)制寄存器提取高層幾何特征,還讓訓(xùn)練時的內(nèi)存消耗降低了約 70%。

傳統(tǒng)的密集預(yù)測頭(如 DPT)在處理高分辨率特征圖時會消耗巨大的顯存。VGGT-Ω 的替代方案:在分辨率高于 1/4 的層級,使用單個 MLP 配合像素打亂(Pixel Shuffle)操作進(jìn)行上采樣。這種設(shè)計在不損失精度的情況下,極大地降低了前向激活值的存儲成本。
此外,VGGT-Ω 簡化了多任務(wù)學(xué)習(xí)。它不再為點(diǎn)云和匹配特征設(shè)計獨(dú)立的密集解碼頭,而是在訓(xùn)練時僅保留對應(yīng)的損失函數(shù)(Loss):
這意味著模型在“腦子里”學(xué)會了這些能力,但不需要在輸出端浪費(fèi)顯存去顯式表達(dá)。

數(shù)據(jù)是 Scaling 的燃料。研究團(tuán)隊構(gòu)建了一個嚴(yán)苛的自動化標(biāo)注流水線,將互聯(lián)網(wǎng)上的海量視頻轉(zhuǎn)化為高質(zhì)量的 3D 訓(xùn)練素材。
最終,他們從 4000 萬個視頻中篩選出了 80 萬個高質(zhì)量序列,其中約三分之一包含動態(tài)內(nèi)容。結(jié)合現(xiàn)有的合成數(shù)據(jù)集,VGGT-Ω 擁有了高達(dá) 400 萬 個帶有精確 3D 標(biāo)注的訓(xùn)練序列,規(guī)模是前作的 15 倍以上。
VGGT-Ω 的強(qiáng)大在動態(tài)場景中體現(xiàn)得淋漓盡致。在 Sintel 這種充滿劇烈運(yùn)動的基準(zhǔn)測試中,刷新了性能表現(xiàn)。
在相機(jī)姿態(tài)估計方面,VGGT-Ω 在 Sintel 數(shù)據(jù)集上的 AUC@3° 指標(biāo)從此前 SOTA 的 22.5 提升到了 40.0,相對提升高達(dá) 77%。在深度估計方面,AbsRel(平均絕對相對誤差)也大幅下降。


面對重復(fù)紋理(如雪地)或劇烈的相機(jī)翻轉(zhuǎn),此前的標(biāo)桿模型如 Depth Anything 3 可能會出現(xiàn)嚴(yán)重的“重影”或軌跡丟失,而 VGGT-Ω 依然能保持全局幾何的一致性。



在推理速度上,得益于 DINOv3 的 16-pixel patch size 和寄存器注意力機(jī)制,VGGT-Ω 在處理 1000 幀以上的長視頻時,速度和顯存表現(xiàn)均優(yōu)于同類模型。

除了精度提升,研究團(tuán)隊還通過一系列有趣的實驗揭示了 10B 大模型的內(nèi)在特性。
VGGT-Ω 學(xué)到的“寄存器”特征不僅包含幾何信息,還具有語義通用性。研究人員將模型凍結(jié),將其場景 Token 作為 視覺語言動作模型(Vision-Language-Action, VLA) 的額外輸入。在 LIBERO 機(jī)器人操作基準(zhǔn)測試中,這一簡單的操作就讓平均成功率從 97.1% 提升到了 98.5%。

此外,通過對比學(xué)習(xí),這些寄存器甚至可以與自然語言對齊,實現(xiàn)“用文字檢索 3D 場景”。

更有趣的是,即使沒有顯式的運(yùn)動監(jiān)督,模型內(nèi)部的特征也能清晰地將移動的舞者與靜止的背景區(qū)分開來。這說明在學(xué)習(xí)“如何重建”的過程中,模型自發(fā)地理解了“什么是運(yùn)動”。

在構(gòu)建 4M 數(shù)據(jù)集的過程中,團(tuán)隊也總結(jié)了許多寶貴的教訓(xùn)。例如,傳感器數(shù)據(jù)中常見的“前景泄露”、合成數(shù)據(jù)中的“薄結(jié)構(gòu)失效”以及 SfM 優(yōu)化中常見的“圓頂效應(yīng)(Doming Effect)”。這些噪聲如果處理不好,會直接導(dǎo)致模型在特定場景下產(chǎn)生幻覺。

VGGT-Ω 的成功再次證明了:在 AI 時代,規(guī)模化往往是通往魯棒性的最短路徑。通過將 3D 重建從一個復(fù)雜的優(yōu)化問題轉(zhuǎn)變?yōu)橐粋€可擴(kuò)展的學(xué)習(xí)問題,VGGT-Ω 不僅刷新了多項精度紀(jì)錄,更為未來的具身智能和世界模型提供了一個強(qiáng)大的幾何底座。
本專題其他文章