0
| 本文作者: 陳淑瑜 | 2026-04-24 14:05 | 專題:CVPR 計算機視覺與模式識別會議 |
從視頻中準確理解并重建人體3D運動是計算機視覺的重要研究方向,在體育賽事分析、VR/AR、人機交互以及醫療康復等領域具有廣泛應用價值。然而,在真實復雜場景中,該任務仍面臨三大嚴峻挑戰:
首先是身份關聯不穩定——多人交互時,頻繁的遮擋和快速運動容易導致ID Switch,影響后續重建的一致性;其次是運動軌跡中斷——視角變化和極端遮擋會造成目標跟蹤丟失;第三是重建結果不連續——傳統逐幀處理方式難以維持時間維度上的三維結構穩定性。
傳統方法通常將目標跟蹤和三維重建作為兩個獨立的流水線模塊處理,無法從整體視角利用跨幀的時序信息。RAM(Recover Any 3D Human Motion)從根本上打破了這一范式,提出統一框架將運動感知跟蹤、時序建模與動作預測有機融合,實現從逐幀處理向時序建模的范式轉變。
RAM 框架由四個關鍵模塊構成,各司其職、協同工作:
SegFollow 模塊(穩定跟蹤):引入基于卡爾曼濾波的運動建模機制,將運動一致性信息融入目標關聯過程。不再過度依賴外觀特征,即使在嚴重遮擋或外觀發生劇變的情況下,依然能維持穩定的身份跟蹤,從根本上降低 ID Switch 發生率。
T-HMR 模塊(時序三維重建):基于時間記憶機制,從鄰近幀中篩選關鍵特征,利用 Transformer 結構進行跨時間信息融合。當當前幀信息不完整或存在噪聲時,借助歷史上下文生成平滑且一致的3D人體結構,解決重建不連續問題。
動作預測模塊:基于歷史運動序列對人體動態進行建模,預測未來的姿態。專門針對目標被完全遮擋的極端情況,在當前沒有任何觀測信息時,靠預測結果維持運動序列的連續性。
自適應融合模塊:對當前幀重建結果與預測結果進行自適應加權——遮擋嚴重時更依賴預測,觀測清晰時更依賴重建,根據當前信息可靠性動態調整權重,實現最優融合。

亮點一:統一框架打破流水線壁壘RAM 首次將目標跟蹤、時序三維重建與動作預測整合到統一框架內,從整體視角充分利用跨幀時序信息,徹底改變了傳統串行流水線的局限,代表了多人3D運動理解的范式轉變。
亮點二:強大的零樣本泛化能力在 PoseTrack 等國際主流復雜場景數據集上,RAM 在無需針對特定目標數據集進行額外訓練(Zero-shot)的條件下,依然在身份一致性、跟蹤穩定性以及三維重建精度上顯著超越現有方法,展現了極高的實際應用潛力。
亮點三:時序建模接近人類認知通過引入時間記憶與動作預測機制,使模型更接近人類真實世界中的動態認知過程——人們即使暫時看不到一個運動中的人,也能憑借記憶預判其位置與姿態。這一仿人認知設計不僅提升了技術性能,也為視頻理解領域提供了重要的方法論啟示。
──────────────────────────────────────────
上述內容包含AI輔助生成,更詳細信息參見兩個鏈接
鏈接:https://arxiv.org/abs/2603.19929
解讀來源:https://cloud.tencent.com/developer/article/2658222
【封面圖片來源:網站名開發者社區,所有者:NLPIR Lab】
本專題其他文章