0
| 本文作者: 陳淑瑜 | 2026-04-24 18:38 | 專題:CVPR 計算機視覺與模式識別會議 |
視覺重定位(Visual Relocalization)是機器人和自動駕駛的基礎能力:當系統回到一個曾經建圖的場景時,如何通過單張圖像精準估計6自由度相機位姿。這一任務在弱紋理場景、圖像數據庫稀疏或視角變化劇烈時面臨嚴峻挑戰。
現有方法存在三個核心痛點:一是圖像稀疏瓶頸,數據庫圖像有限時,初始位姿檢索和粗匹配精度下降明顯;二是特征匹配局限,單一特征類型難以兼顧粗匹配的全局視角覆蓋與精細匹配的局部精度要求;三是幾何建模挑戰,傳統方法在像素級細粒度匹配中難以捕捉復雜場景幾何細節,尤其是在弱紋理或高遮擋區域。
SplatHLoc 提出了一個創新性解決方案:利用特征3D高斯潑濺(Feature Gaussian Splatting,FGS)在場景中憑空生成離查詢圖像最近的虛擬視點,既彌補了數據庫稀疏的不足,又通過混合粗細特征匹配實現了高精度位姿估計。

SplatHLoc 的核心是虛擬對齊管線,將 FGS 渲染能力與多階段特征匹配緊密結合。
利用全局圖像描述符進行初始粗檢索,通過幾何驗證篩選可靠的參考圖像。關鍵創新在于引入 FGS 渲染,在候選位置生成多種虛擬視角圖像,并對這些虛擬視角重復檢索和幾何驗證,最終選出與查詢視角最接近的參考圖像。這一步有效彌補了數據庫圖像稀疏的缺陷。
采用粗細兩階段匹配策略:粗匹配階段利用 FGS 渲染特征建立大尺度對應關系,緩解稀疏觀測帶來的不確定性;精細匹配階段引入半稠密匹配器提取高分辨率細粒度特征,實現像素級幾何對齊。兩種特征互補,既保證了寬泛的對應點覆蓋,又確保了局部匹配精度。
基于粗到細匹配建立2D-3D對應關系,通過 PnP + RANSAC 估計初始6-DoF位姿;隨后渲染新顏色圖和深度圖,再次進行特征匹配更新對應關系,多輪迭代優化直至收斂。迭代機制使位姿估計精度隨優化輪次穩定提升。
SplatHLoc 最核心的創新在于使用 FGS 在三維場景中憑空生成任意虛擬視角,并將其納入檢索和匹配流程。這一設計將數據庫圖像數量這一傳統制約因素徹底突破,即使在數據庫極度稀疏的場景下也能保持高精度定位。
在 7-Scenes、12-Scenes、Cambridge Landmarks 三個主流重定位基準數據集上,SplatHLoc 在中值平移誤差與旋轉誤差指標上全面優于結構化方法、回歸方法及 NeRF/GS 類渲染方法,展現了混合特征匹配策略的綜合優勢。
SplatHLoc 是較早將 FGS 渲染特征與經典視覺重定位框架深度結合的工作,證明了神經渲染不僅可用于新視角合成,還能作為動態數據增強工具改進傳統幾何任務。這一思路有望延伸至SLAM、AR持久化定位等更多應用場景。
──────────────────────────────────────────
上述內容包含AI輔助生成,更詳細信息參見兩個鏈接
原文鏈接:https://arxiv.org/abs/2026.splathiloc
解讀來源:https://www.cnblogs.com/gooutlook/p/19821462
本專題其他文章