0
| 本文作者: 陳淑瑜 | 2026-05-26 14:37 | 專題:ICRA 國際機器人與自動化會議 |
來源:公眾號“新機器視覺”
原文鏈接:https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA

題目:GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments
作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu
來源: IEEE International Conference on Robotics and Automation(ICRA 2026)
論文鏈接: https://arxiv.org/abs/2604.12837
概述
視覺SLAM算法通過探索三維高斯點擴散(3D Gaussian Splatting,3DGS)表示方法實現了顯著改進,尤其在生成高保真密集地圖方面表現突出。然而,這些算法依賴于靜態環境假設,在動態環境中性能會大幅下降。本文提出的GGD -SLAM框架采用可泛化的運動模型,無需預定義語義標注或深度輸入即可應對動態環境中的定位與密集地圖構建挑戰。具體而言,該系統采用先進先出(First-In-First-Out,FIFO)隊列管理傳入幀,并通過順序注意力機制實現動態語義特征提取;同時整合動態特征增強器以分離靜態與動態成分。此外,為最小化動態干擾項對靜態成分的影響,我們提出利用靜態信息采樣填補被遮擋區域的方法,并設計了面向動態環境的抗干擾結構相似性(
Structure Similarity Index Measure,SSIM)損失函數,顯著提升了系統的魯棒性。基于真實世界動態數據集的實驗表明,所提系統在動態場景下的相機位姿估計和密集地圖重建任務中均達到業界領先水平。

圖1 研究動機:左圖:DyPho?SLAM 需要特定語義標簽和深度輸入來去除動態物體;右圖:WildGS?SLAM中的ML受限于單一場景的渲染效果;本文提出的GGD?SLAM引入了通用運動模型,無需語義標簽或深度輸入,減少了對單場景3DGS渲染損失監督的依賴。
研究方法
給定單目相機(內參已知)以固定幀率拍攝、包含動態物體的圖像序列 I={Ii}i=1N(Ii∈RH×W×3),本文目標是求解對應的相機位姿矩陣 T={Ti}i=1N,并逐幀更新高斯參數 G={μj,αj,∑j,cj}j=1n(G)。
高斯參數由空間位置 μj、不透明度 αj、協方差矩陣 ∑j 和基于球諧函數的顏色系數 cj 共同表征。求解 T 和 G 需滿足兩個核心要求:1)最小化絕對軌跡誤差的均方根值;2)實現最優的高斯渲染效果,以精準表征靜態環境。
所提 GGD-SLAM 算法的整體流程通過一系列關聯模塊完成動態環境下的定位與稠密建圖任務,整體框架如圖 2 所示。

圖 2 GGD-SLAM 算法流程圖
本文核心創新在于設計適用于時序圖像序列的動態語義提取通用運動模型,專門面向增量式 SLAM 系統(算法 1)。該模型無需單場景在線訓練,可作為 GS-SLAM 系統的強魯棒先驗。
1)數據預處理
輸入圖像 It 經預訓練 DINOv2 特征提取器,得到圖像特征 xt=DINOv2(It)∈RH′×W′×C。其中,H′、W′ 為分塊嵌入后特征圖的空間下采樣維度,C 為通道維度。
但 xt 僅捕捉 It 的結構特征與靜態語義信息,缺乏建模場景演化所需的時序動態信息。為此,引入先進先出隊列 Qt,逐幀聚合時序特征用于動態語義提取,更新規則如下:

隊列未滿時,在前端補零向量以維持時序一致性。動態語義由 L 幀間時序變化決定 ——L 越大,運動推理的時序上下文越豐富。
2)時序注意力機制
獲取當前幀結構特征 xt 與歷史特征隊列 Qt 后,通過注意力機制融合上下文信息:


其中,Qt∈R(1×H′×W′)×C為當前幀特征生成的查詢向量;Kt,Vt∈R(L×H′×W′)×C由歷史特征生成,用于構建時序檢索索引,實現跨幀特征匹配;輸出Fattn,t∈RH′×W′×C為融合時序信息的增強特征,用于通用運動語義分割。
為強化動靜分離效果,將 Fattn,t 輸入動態頭與靜態頭兩個獨立分支,得到解耦特征:動態屬性增強系數 D∈RH′×W′×C、靜態分量抑制系數 S∈RH′×W′×C。再通過門控注意力機制融合:

式中,⊙ 為哈達瑪積,平衡系數 α 為可學習參數(初始值 0.5)。增強特征 Fenh,t 與原始結構特征 xt 拼接后輸入前饋網絡,輸出低分辨率動態概率圖 Mraw,t∈RH′×W′;經雙線性插值得到全分辨率動態概率圖 Mt∈RH×W,像素值大小直接表示該位置為動態區域的概率。
3)模型訓練
為訓練能捕捉時空特征的通用運動模型,基于真實動態掩碼 Mgt,t∈RH×W 設計監督損失函數:


基礎損失Lbase:計算 Mgt,t 與 Mt 的像素級絕對誤差,保證幾何精度。
正則損失Lreg:引入二值熵懲罰項:

針對 0.5 附近的模糊預測,在中間值處梯度最大,推動輸出收斂至 {0,1}。
Dice 損失 Ldice:彌補像素級損失對結構完整性捕捉不足的缺陷:

概率化輸出易引入動態關聯錯誤,模糊邊緣會降低跟蹤精度。推理階段采用大津自適應閾值法對概率圖二值化,得到原始掩碼 Mraw,t;再用圓盤形結構元 Kr 做形態學膨脹,細化動態物體邊緣,輸出通用動態先驗二值掩碼 Mt。
基于現有研究基礎,引入 Metric3D-v2 輸出的尺度感知單目深度估計 Dest∈RH×W,利用其跨場景零樣本泛化能力提升位姿估計魯棒性。
位姿估計采用 DROID-SLAM 的稠密光束平差法(DBA)框架,構建幀圖 G=(V,E):V 為關鍵幀集合,E 為關鍵幀間共視約束。目標是優化相機位姿 T[?],并估計關鍵幀單目深度圖 d[?]∈RH×W。
動態點會導致因子圖構建錯誤,降低計算效率與系統性能。為此,利用通用運動模型輸出動態先驗,完全剔除動態區域殘差:提取靜態分量 S[?]=1?M[?],∑[?] 為 DROID-SLAM 基礎協方差權重,將動態干擾轉化為可處理的優化約束:

第一項:DROID-SLAM 單目位姿估計目標,動態區域殘差權重置零,排除非靜態干擾、提升效率;
第二項:深度監督損失,利用神經深度預測約束深度估計;
第三項:軌跡平滑正則化,懲罰相鄰幀間位姿突變。
1 )通用運動模型引導的不確定性估計
基于WildGS-SLAM的不確定性感知框架,將特征 xt輸入淺層MLP P,預測不確定性圖 Ut=P(xt)∈RH×W。該方法可處理模糊干擾、提升渲染質量,但過度依賴單場景3DGS渲染損失,單幀輸入易導致動態誤判。
為此,融合聚合時序特征的通用運動模型,將其作為時序先驗嵌入原框架:

L3DGS:渲染圖像與輸入圖像的重建誤差,定義見式 (12);
LregU:不確定性正則項,LregU=logUt,防止不確定性值趨于無窮;
Lprior:先驗模型誤差:

式中,Tmax 為動態區域目標不確定性閾值。該損失緩解不確定性感知方法的動態誤判,同時兼容噪聲、光照變化等靜態干擾。
2)增量式高斯地圖構建
獲取新關鍵幀后,增量式創建高斯以優化地圖:對圖像中新觀測特征點,初始化高斯參數 —— 顏色 c? 取對應像素顏色,空間位置 μ? 由像素反投影得到,不透明度 α? 初始化為 0.5,半徑初始化為 0.1。
當幀中存在動態物體時,通過動態區域鄰域隨機采樣維持遮擋區域幾何連續性:為當前幀靜態高斯的二維坐標 (μ?,x,μ?,y) 構建 KD 樹;對動態點 μi∈Mt,查詢其 k 近鄰靜態高斯,隨機采樣鄰域內靜態點,替換動態點的深度與顏色屬性:

再對遮擋點執行尺度擴張與不透明度增強,緩解遮擋區域點云稀疏導致的優化效率下降問題
3)高斯參數更新
高斯地圖渲染RGB圖像流程:按視角深度對3D 高斯排序,通過 α 混合投影渲染像素顏色 Ir 與深度 Dr:

通過梯度下降迭代更新高斯參數,最小化建圖損失:

L3DGS:渲染圖像與輸入圖像、深度估計的殘差,通過不確定性圖逐元素加權:

Liso:尺度正則項,抑制稀疏區域偽影;
Lssim:傳統SSIM損失計算局部亮度、對比度、空間相關性,動態場景中易受干擾。傳統方法先算SSIM 圖再剔除動態區域,仍會殘留污染(如圖3)。本文提出動態自適應SSIM:用單位卷積核 wunit 與靜態分量St做哈達瑪積 與卷積,生成自適應核 wad(O) 并統計有效靜態像素數 Nad(O),僅在純靜態區域計算 SSIM:

對比度與空間相關性計算同理,最終得到純凈的動態自適應 SSIM 圖。

圖 3 動態自適應 SSIM 示意圖
實驗
為驗證本文提出的通用動態語義提取網絡,以 fr3/w/half 序列為例進行可視化(圖4)。基于單幀圖像的特定標簽分割在小目標、快速運動模糊物體、相機大幅運動場景下易出現誤分類;WildGS?SLAM 的不確定性感知方法在背景區域極易誤判,導致有效圖像信息不足,進而降低定位精度與背景重建質量。相比之下,本文的通用動態語義提取網絡可基于歷史幀提取運動物體語義,提取效果優異。僅使用基礎損失進行像素級學習會限制結構特征保留,產生明顯噪聲;在第 800 幀中,椅子在單幀下看似靜止,但在長期歷史觀測中存在運動,模型可準確將其判定為動態。

圖 4:不同動態提取器在 fr3/w/half 序列上的定性結果
表 1:在 TUM 與 Bonn 挑戰性數據集動態場景下的相機跟蹤結果

表1給出 TUM 與波恩動態場景下的相機跟蹤結果。基于 RGBD 的方法因深度傳感器提供精確絕對尺度,定位精度表現較強。盡管 Dy3DGS?SLAM、WildGS?SLAM 等單目動態 SLAM 系統具備動態物體處理能力,但因缺乏精準的動態干擾識別方法、引入錯誤數據關聯,性能仍低于本文方法。本文方法結合高效的、面向增量式 SLAM 輸入的通用運動模型,在 fr3/w/half、bonn/crowd2 等高動態序列中實現了超越 RGBD 方法的跟蹤精度。在 TUM 與波恩數據集上的消融實驗(表2)驗證了各模塊的有效性:通用先驗、大津二值化、平滑項均能提升系統魯棒性。
表 2:在 Bonn RGB?D 動態數據集上的消融實驗

將本文方法與開源 3DGS SLAM 算法對比,評估建圖能力。如圖 5 所示:DG?SLAM、DyPho?SLAM 需要語義標簽與深度輸入;MonoGS、Splatam 在動態干擾下性能嚴重下降;WildGS?SLAM 依賴 3DGS 渲染,相機大幅運動后背景渲染效果差,導致動態物體誤判、系統性能下降,且邊緣物體遮擋去除不徹底,殘留偽影。本文 GGD?SLAM 可有效消除動態干擾,同時保持高質量背景渲染。

圖 5:當前主流高斯濺射 SLAM 方法的渲染結果對比
如表3 所示,本文方法在 TUM、波恩動態序列上,單目 3DGS 類方法中取得最優性能。針對干擾自適應 SSIM 與靜態高斯 KD?Tree 遮擋修復的消融實驗(表4)驗證了建圖模塊的有效性。
表 3:在 TUM 與 Bonn 動態數據集上的建圖結果

表 4:干擾自適應 SSIM 與靜態高斯 KD?Tree 遮擋修復方法的消融實驗

在更通用的 Wild?SLAM 數據集上驗證本文的通用動態語義提取網絡(圖 6)。模型成功分割各類運動物體,引導不確定性生成,實現高質量渲染。與 TUM、波恩數據集相比,Wild?SLAM 數據集圖像分辨率更高、相機運動更平緩,3DGS 渲染質量更易達到較高水平。在此條件下,不確定性感知機制可有效適配,GGD?SLAM 與 WildGS?SLAM 均取得極高性能。

圖 6:本文 GGD?SLAM 在 Wild?SLAM 數據集上的效果展示
結論
本文提出了GGD?SLAM,一種具備泛化能力且魯棒的框架,可在動態環境中實現定位與真實感稠密建圖。
為解決動態目標剔除難題,本文提出一種泛化型動態提取器,該方法利用歷史幀隊列上的注意力機制提取動態語義。此外,本方法還與背景一致性建圖流程相結合,以最小化動態目標對靜態分量的影響。
大量實驗表明,GGD?SLAM 在真實感建圖方面顯著優于現有 SOTA SLAM 方法。
未來工作中,我們旨在實現動態目標運動的實時重建與完全遮擋區域的修復,同時保證靜態場景的穩定性。