• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    本文作者: 陳淑瑜   2026-05-27 18:43 專題:ICRA 國際機器人與自動化會議
    導語: SurgVidLM是首個旨在解決手術視頻全過程及細粒度理解的視頻語言模型

    來源:labren

    原文鏈接:https://mp.weixin.qq.com/s/VrNm2pwk9-dBltTqcASSVQ?scene=1&click_id=117


    香港中文大學任洪亮教授團隊論文(SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解)被機器人領域頂會 IEEE International Conference on Robotics and Automation (ICRA 2026) 錄用!



    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    論文題目:SurgVidLM: Towards Multi-grained Video Understanding with Large Language Model in Robot-assisted Surgery

    論文作者:王冠錕(香港中文大學),王駿逸(香港中文大學),莫汶錦(香港中文大學), 白龍(香港中文大學), 袁焜(斯特拉斯堡大學、慕尼黑工業大學),胡銘(上海 AI Lab), 吳錦林(中國科學院香港創新研究院),何軍軍(上海 AI Lab),黃一鳴(香港中文大學),Nicolas Padoy(斯特拉斯堡大學),雷震(中國科學院香港創新研究院),劉宏斌(中國科學院香港創新研究院),Nassir Navab(慕尼黑工業大學),任洪亮(香港中文大學) 


    論文簡介:手術場景理解對于機器人輔助手術中的手術培訓和機器人決策至關重要。多模態大語言模型(MLLMs)的最新進展在提升醫療領域場景感知方面展現了巨大潛力,能夠輔助外科醫生理解手術場景與流程。然而,現有方法主要面向圖像分析或全局視頻理解,忽視了細粒度視頻推理,而這對于分析特定過程及捕獲手術流程中詳細的任務執行細節至關重要。為了彌補這一空白,我們提出了 SurgVidLM,這是首個旨在解決手術視頻全過程及細粒度理解的視頻語言模型。為了訓練 SurgVidLM,我們構建了 SVU-31K 數據庫,這是一個包含超過 3.1 萬個“視頻-指令”對的大規模數據集,支持對手術流程進行整體理解與詳細分析。在此基礎上,SurgVidLM 引入了一種兩階段的 StageFocus(階段聚焦)機制:第一階段提取全局流程上下文,第二階段則在時間線索的引導下進行高頻局部分析。此外,我們還開發了多頻融合注意力機制(Multi-frequency Fusion Attention),以有效整合低頻和高頻視覺標號(Tokens),確保保留關鍵的任務特定細節。實驗結果表明,在全過程和細粒度視頻理解任務中,SurgVidLM 的表現顯著優于同等參數規模的最先進(SOTA)視頻大語言模型,展現了其捕獲復雜機器人輔助手術語境的卓越能力。



    主要貢獻

    • 本文提出了首個專門針對機器人輔助手術設計的模型 SurgVidLM。該模型支持從宏觀的整段視頻理解到微觀的細粒度視覺推理,實現了多粒度的手術場景分析。

    •  我們通過一種創新的Knowledge Augmentation Pipeline構建了大規模數據集 SVU-31K。該數據集涵蓋了全過程視頻與細粒度視頻理解的任務標注,使模型能夠具備結構化且感知上下文的手術視頻理解能力。

    • SurgVidLM 引入了 StageFocus 機制,實現了從全局到局部的循序漸進理解。同時,通過集成多頻融合注意力機制(Multi-frequency Fusion Attention),促進了低頻與高頻視覺標號(Tokens)之間的交互,從而完整保留了環境上下文與任務細節信息。

    • 在 SVU-31K 數據集上進行的廣泛實驗與消融研究表明,在同等參數規模下,SurgVidLM 在多粒度手術視頻理解任務中的表現優于當前最先進的(SOTA)視頻大語言模型。實驗結果凸顯了其在機器人輔助手術場景理解中的應用潛力。



    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    SVU-31K數據的收集與構建流程圖。

    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    SurgVidLM 整體架構圖。 第一階段(Stage 1)專注于對全過程視頻的整體理解;第二階段(Stage 2)則融合當前階段與前一階段的信息,以實現精準的細粒度視頻理解。

    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    SurgVidLM 與 Vid-LLMs 在 SVU-31K 多粒度視頻理解任務中的性能比較。

    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    精細視頻推理任務的定性比較示例。



    【香港中文大學任洪亮教授課題組】

    香港中文大學(CUHK)醫學機器人感知與人工智能研究課題組歡迎博士/博士后/研究助理加入,主要領域包括:醫學機器人與智能系統、圖像引導手術中的AI學習與控制、醫療機電一體化、連續和柔性機器人與傳感器、變剛度調控技術、AI輔助內窺診斷、醫學圖像處理等。更多詳情,請參閱任洪亮教授Google Scholar信息頁與實驗室網站http://labren.org/


    參考文獻:

    Wang, G., Wang, J., Mo, W., Bai, L., Yuan, K., Hu, M., ... & Ren, H. (2025). Surgvidlm: Towards multi-grained surgical video understanding with large language model. arXiv preprint arXiv:2506.17873.

    ICRA 2026 | SurgVidLM:在機器人輔助手術中利用大語言模型實現多粒度視頻理解

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 在线看av一区二区三区| 国产精品一久久香蕉产线看| 日韩在线视频线观看一区| 在线 欧美 中文 亚洲 精品| 成人黃色A片免费看三更小说| 综合成人亚洲| 国产熟女AAV久久| 亚洲精品免费一二三区| 免费无码观看的AV在线播放| 国产自拍偷拍视频在线观看| www.18av| 最新的国产成人精品2022| 蜜桃AV抽搐高潮一区二区| a亚洲欧美中文日韩在线v日本| 无码尹人久久相蕉无码| 乱女乱妇熟女熟妇综合网| 国产99青青成人A在线| 大香蕉伊利人75伊利人| 交口县| 99久久99久久免费精品小说 | 福利一区二区不卡国产| 亚洲人成电影网站 久久影视| 日韩成人在线视频播放| 日韩人妻精品无码| 国产午夜精品理论大片| 久久久亚洲欧洲日产国码农村| 一本久久a久久精品综合| 一本高清码二区三区不卡| 日韩人妻一区中文字幕| 国产真实乱人偷精品人妻| 久操不卡| 国产1页| 亚洲欧洲AV系列天堂日产国码| 国产成人啪精品视频免费软件| 国产熟女老阿姨毛片看爽爽| 99精品热在线在线观看视| 亚洲成人碰碰| 粉嫩AⅤ一区二区三区四区五区| 亚洲中文视频一区二区三区| 中文字幕第9页| 亚洲三区在线观看无套内射|