0
| 本文作者: 陳淑瑜 | 2026-05-28 14:55 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“3DCV”
原文鏈接:https://mp.weixin.qq.com/s/eSYRI16zVA-noIU16-W-Tw?scene=1&click_id=156
標題:DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation
作者:Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh, Kevin Blackburn-Matzen, Evangelos Kalogerakis, Chuang Gan, Joon-Young Lee
機構:UMass Amherst 2Adobe Research 3TU Crete
原文鏈接:https://arxiv.org/abs/2603.03744
代碼鏈接:https://ngoductuanlhp.github.io/dage-site/
從未經校準的多視圖/視頻輸入中精確估計出與視圖一致的幾何結構和相機姿態仍然具有挑戰性——尤其是在高空間分辨率和長序列情況下。我們提出了DAGE,這是一種雙流Transformer模型,其創新之處在于能夠將全局一致性與細節信息分離處理。低分辨率流對大幅降采樣的幀進行處理,通過交替使用幀級和全局注意力機制來構建與視圖一致的表示,并高效估計相機參數;而高分辨率流則對原始圖像進行逐幀處理,以保留清晰的邊界和小結構。一個輕量級的適配器通過交叉注意力將這兩條流融合在一起,從而在不干擾預訓練的單幀處理路徑的情況下引入全局上下文信息。該設計能夠獨立調節分辨率和片段長度,支持最高2K的輸入格式,并保持合理的推理成本。DAGE能夠生成清晰的深度/點云圖、強大的跨視圖一致性以及精確的姿態信息,為視頻幾何結構和多視圖重建領域帶來了新的最佳成果。
DAGE能夠生成高分辨率、精細粒度、度量級和跨視角一致的3D幾何模型,同時還能根據視覺輸入獲取準確的相機姿態。其運行速度顯著快于先前的模型,并可處理長序列數據(最多可達1000幀)。

從多視角圖像估計3D幾何和相機位姿是計算機視覺中的一個基本問題。我們針對的是具有挑戰性的場景:未標定的、高分辨率輸入,可能包含數千幀。這項任務尤其困難,因為模型必須同時(i)強制跨視圖的全局一致性,(ii)在高分辨率下保留精細細節,以及(iii)在長序列中保持運行時和內存的可行性。
一方面,前饋視覺幾何網絡在全局一致的多視圖幾何估計方面取得了顯著進展,在包括視頻深度估計、3D重建和相機位姿預測在內的各種基準測試上樹立了新的最先進結果。然而,它們通常沉重的網絡架構限制了訓練和推理只能在適中的圖像分辨率(例如長邊≤518像素)和少量輸入視圖下進行,導致細薄結構模糊和物體邊界不清晰。一些工作采用了訓練后加速策略來降低計算成本并在推理期間支持更多視圖,但它們并未解決高頻細節的丟失或邊緣和小物體附近表面過度平滑的傾向。
另一方面,單視圖幾何估計器能夠靈活地在高分辨率下運行,并從單張圖像生成清晰、細節豐富的深度/點圖,但它們設計上缺乏時間一致性和多視圖一致性。試圖調整這些模型以處理視頻的工作引入了繁重的流程,并且通常無法恢復準確的相機位姿。因此,它們無法直接從前饋預測中組裝出全局一致的3D場景幾何。
基于這一觀察,我們提出了DAGE,一種滿足上述標準的、用于高效且精細幾何估計的雙流架構。它包含兩個并行流和一個輕量級融合適配器。低分辨率流專注于提取全局一致的特征并預測相機位姿。它由一個ViT主干網絡和一個帶有交替幀-全局注意力的全局Transformer組成,后者以較低的空間分辨率處理整個序列。盡管全局Transformer計算密集,但在低分辨率下運行使其保持可行性,同時保留全局上下文。高分辨率流旨在捕捉高頻細節和精細特征。它采用ViT,以原始分辨率獨立處理每張圖像。最后,我們提出的輕量級適配器在密集頭之前同步并融合低分辨率和高分辨率標記,生成既全局一致又細節豐富的幾何。
這種解耦設計帶來了兩個關鍵優勢。首先,它實現了全局一致性和可行性。通過將計算量大的全局注意力限制在低分辨率流中,我們緩解了全局Transformer的二次縮放瓶頸。這顯著減少了運行時,在540p和2K分辨率下分別減少了2倍和28倍,使我們的模型能夠處理數千幀。其次,它保留了高保真細節。高分辨率流逐幀操作,使其能夠擴展到任何分辨率(例如,高達2K),并利用最先進的單圖像模型的先驗知識,以獲得清晰的細節和強大的現實世界泛化能力。與將圖像分辨率與序列長度耦合的標準流程相比,DAGE將兩者解耦,從而能夠在可行的運行時間內獨立控制空間細節和多視圖一致性。
我們通過大量實驗驗證了我們的方法和設計選擇。DAGE在視頻幾何和深度清晰度基準上取得了最先進的性能,在3D重建和相機位姿估計方面也具有競爭力,同時提供了更高的吞吐量和更低的GPU內存占用。總之,我們的技術貢獻有兩方面:
一種雙流Transformer,它將逐幀高分辨率細節路徑與多視圖低分辨率全局注意力路徑相結合。
一種輕量級適配器,融合兩個流以生成清晰且全局一致的幾何。
給定一組無位姿的RGB圖像,模型預測每幀的點圖和相機位姿,以及場景度量尺度。該架構有兩個并行流:(i)低分辨率流(下部)處理下采樣輸入以聚合全局上下文并回歸位姿/場景尺度;(ii)高分辨率流(上部)以原始分辨率獨立處理幀以保留精細細節。一個輕量級適配器在密集幾何頭之前融合低分辨率和高分辨率標記。

遵循先前工作,我們在稀疏和密集設置下,在7-Scenes和NRGBD數據集上評估重建的多視點圖。首先通過Umeyama Sim(3)將預測與真值對齊,然后使用ICP細化。我們在表3中報告精度Acc.↓、完整度Comp.↓和法向一致性NC↑。比較對象包括最近的前饋視覺幾何方法。我們還通過剛性變換SE(3)對齊來評估度量尺度重建,并與度量點圖方法進行比較。在稀疏和密集設置中,DAGE達到了與最先進方法相當的性能,同時恢復了度量精確的幾何。圖5顯示我們的模型生成了全局一致的點圖,同時保留了精細細節。

我們在合成的Sintel數據集和兩個真實世界數據集TUM-Dynamics和ScanNet上進行評估。我們報告絕對軌跡誤差(ATE)以及平移/旋轉的相對位姿誤差(RPET/RPER)。預測的相機軌跡通過Sim(3)對齊與真值配準。我們在表4中總結了性能。值得注意的是,我們在低分辨率流中使用252像素(長邊)來高效估計位姿。競爭方法通常需要518像素才能獲得準確的預測。盡管使用較低分辨率輸入,DAGE在高分辨率設置下與它們的性能相當,并且在相同的低分辨率設置下評估時表現更優。


我們介紹了DAGE,一種雙流視覺幾何Transformer。低分辨率流高效估計相機并強制執行跨視圖一致性,而高分辨率流保留清晰細節;輕量級適配器融合它們。這將分辨率與序列長度解耦,以實用成本支持2K輸入和長視頻。實驗證明,DAGE生成更清晰的點圖,并優于先前的視頻幾何方法。它在運行速度顯著更快的同時,匹配了最先進模型的3D重建和位姿精度。局限性:在極低重疊或快速非剛性運動下性能可能下降;高分辨率流在極高分辨率下內存密集;當前方法無法恢復動態運動。
本專題其他文章