0
| 本文作者: 陳淑瑜 | 2026-05-27 18:43 | 專題:ICRA 國際機器人與自動化會議 |
來源:labren
原文鏈接:https://mp.weixin.qq.com/s/VrNm2pwk9-dBltTqcASSVQ?scene=1&click_id=117
香港中文大學任洪亮教授團隊論文(SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解)被機器人領域頂會 IEEE International Conference on Robotics and Automation (ICRA 2026) 錄用!

論文題目:SurgVidLM: Towards Multi-grained Video Understanding with Large Language Model in Robot-assisted Surgery
論文作者:王冠錕(香港中文大學),王駿逸(香港中文大學),莫汶錦(香港中文大學), 白龍(香港中文大學), 袁焜(斯特拉斯堡大學、慕尼黑工業大學),胡銘(上海 AI Lab), 吳錦林(中國科學院香港創新研究院),何軍軍(上海 AI Lab),黃一鳴(香港中文大學),Nicolas Padoy(斯特拉斯堡大學),雷震(中國科學院香港創新研究院),劉宏斌(中國科學院香港創新研究院),Nassir Navab(慕尼黑工業大學),任洪亮(香港中文大學)
論文簡介:手術場景理解對于機器人輔助手術中的手術培訓和機器人決策至關重要。多模態大語言模型(MLLMs)的最新進展在提升醫療領域場景感知方面展現了巨大潛力,能夠輔助外科醫生理解手術場景與流程。然而,現有方法主要面向圖像分析或全局視頻理解,忽視了細粒度視頻推理,而這對于分析特定過程及捕獲手術流程中詳細的任務執行細節至關重要。為了彌補這一空白,我們提出了 SurgVidLM,這是首個旨在解決手術視頻全過程及細粒度理解的視頻語言模型。為了訓練 SurgVidLM,我們構建了 SVU-31K 數據庫,這是一個包含超過 3.1 萬個“視頻-指令”對的大規模數據集,支持對手術流程進行整體理解與詳細分析。在此基礎上,SurgVidLM 引入了一種兩階段的 StageFocus(階段聚焦)機制:第一階段提取全局流程上下文,第二階段則在時間線索的引導下進行高頻局部分析。此外,我們還開發了多頻融合注意力機制(Multi-frequency Fusion Attention),以有效整合低頻和高頻視覺標號(Tokens),確保保留關鍵的任務特定細節。實驗結果表明,在全過程和細粒度視頻理解任務中,SurgVidLM 的表現顯著優于同等參數規模的最先進(SOTA)視頻大語言模型,展現了其捕獲復雜機器人輔助手術語境的卓越能力。
主要貢獻:
本文提出了首個專門針對機器人輔助手術設計的模型 SurgVidLM。該模型支持從宏觀的整段視頻理解到微觀的細粒度視覺推理,實現了多粒度的手術場景分析。
我們通過一種創新的Knowledge Augmentation Pipeline構建了大規模數據集 SVU-31K。該數據集涵蓋了全過程視頻與細粒度視頻理解的任務標注,使模型能夠具備結構化且感知上下文的手術視頻理解能力。
SurgVidLM 引入了 StageFocus 機制,實現了從全局到局部的循序漸進理解。同時,通過集成多頻融合注意力機制(Multi-frequency Fusion Attention),促進了低頻與高頻視覺標號(Tokens)之間的交互,從而完整保留了環境上下文與任務細節信息。
在 SVU-31K 數據集上進行的廣泛實驗與消融研究表明,在同等參數規模下,SurgVidLM 在多粒度手術視頻理解任務中的表現優于當前最先進的(SOTA)視頻大語言模型。實驗結果凸顯了其在機器人輔助手術場景理解中的應用潛力。

SVU-31K數據的收集與構建流程圖。

SurgVidLM 整體架構圖。 第一階段(Stage 1)專注于對全過程視頻的整體理解;第二階段(Stage 2)則融合當前階段與前一階段的信息,以實現精準的細粒度視頻理解。

SurgVidLM 與 Vid-LLMs 在 SVU-31K 多粒度視頻理解任務中的性能比較。

精細視頻推理任務的定性比較示例。
【香港中文大學任洪亮教授課題組】
香港中文大學(CUHK)醫學機器人感知與人工智能研究課題組歡迎博士/博士后/研究助理加入,主要領域包括:醫學機器人與智能系統、圖像引導手術中的AI學習與控制、醫療機電一體化、連續和柔性機器人與傳感器、變剛度調控技術、AI輔助內窺診斷、醫學圖像處理等。更多詳情,請參閱任洪亮教授Google Scholar信息頁與實驗室網站http://labren.org/
參考文獻:
Wang, G., Wang, J., Mo, W., Bai, L., Yuan, K., Hu, M., ... & Ren, H. (2025). Surgvidlm: Towards multi-grained surgical video understanding with large language model. arXiv preprint arXiv:2506.17873.