0
| 本文作者: 陳淑瑜 | 2026-05-27 14:43 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“人工智能怎么學”
原文鏈接:https://mp.weixin.qq.com/s/8T1LqLJYPqyUWsNF8aBD1w
本文介紹了CVPR 2026的論文《MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation》。該研究由加拿大康考迪亞大學團隊完成,提出概率式視覺語言自適應框架MedCLIPSeg,專門解決醫學圖像分割中標注稀缺、邊界模糊、域偏移嚴重三大核心難題。MedCLIPSeg通過設計概率式視覺語言(Probabilistic Vision-Language,PVL)適配器實現雙向跨模態融合與不確定性感知,結合軟補丁級對比損失強化語義對齊,在16個公開基準數據集、5種成像模態、6個器官的分割任務中全面超越現有方法,同時提供可解釋的像素級不確定性地圖,為臨床可靠診斷提供AI支撐。
論文鏈接:https://arxiv.org/abs/2602.20423
代碼鏈接:https://tahakoleilat.github.io/MedCLIPSeg
本推文作者為黃忠祥,審校為龔裕濤和王一鳴。
1.1 研究背景
醫學圖像分割是臨床診斷、治療規劃與預后評估的核心技術,但長期受限于專家標注成本高、病灶邊界模糊、跨設備/中心域偏移大三大瓶頸。近年來,CLIP等視覺-語言模型(Vision-Language Model,VLM)憑借強大的跨模態表示能力,為少樣本醫學分割提供了新方向,但現有方法多采用確定性融合策略,存在過自信、泛化性差、缺乏不確定性估計等問題,難以滿足臨床對模型可靠性的要求。當前醫學圖像分割與VLM適配方法面臨三大核心挑戰。
(1)標注效率瓶頸:像素級分割標注需專業醫師數小時完成,罕見病與新模態數據標注尤為稀缺,傳統全監督方法難以落地。
(2)域偏移魯棒性差:不同設備、采集協議與患者群體導致的分布差異,會使模型性能大幅下降,跨中心泛化能力不足。
(3)模型可靠性缺失:確定性模型對模糊邊界與未見樣本易產生過自信預測,缺乏不確定性估計機制,無法為臨床決策提供風險提示。
1.2 主要貢獻
針對上述挑戰,該論文提出了MedCLIPSeg框架,核心貢獻可概括為如下三點。
(1)提出了概率式雙向VLM醫學分割框架,其提出的PVL適配器,在CLIP多層編碼中實現圖像-文本雙向概率融合,通過變分建模注意力的Key與Value,同時捕捉數據固有不確定性與模型認知不確定性。
(2)提出了軟補丁級對比損失,針對醫學圖像細粒度語義對齊需求,設計基于平均池化的軟對比損失,利用文本相似度生成軟標簽,避免硬標簽帶來的語義混淆,提升少樣本下的特征學習效率。
(3)提出的MedCLIPSeg框架在16個數據集、5種模態、6個器官的任務中全面超越SOTA,僅用10%標注數據即可超越多數方法全量數據性能,提供像素級不確定性地圖,與分割誤差的相關系數超80%,可直接輔助臨床審核。
2.1 框架概覽
MedCLIPSeg基于凍結的UniMedCLIP預訓練模型構建,整體流程分為三個板塊,如圖1所示。首先是多模態輸入編碼框架,圖像經視覺編碼器生成補丁令牌,文本經文本編碼器生成令牌序列,保留CLIP的預訓練參數以最大化遷移能力。再進行PVL適配器逐層融合,具體實現流程是在CLIP的多個深層插入PVL適配器,實現圖像與文本令牌的雙向概率交互,生成置信度加權的融合特征。最后進行分割與不確定性的輸出,它通過文本令牌與圖像補丁的相似度計算分割logits。測試時通過蒙特卡洛采樣生成多個預測,其均值為最終分割結果,熵為不確定性地圖。
整個框架通過概率式跨模態對齊加上軟對比語義強化和不確定性量化的三步設計,同時實現數據高效、泛化性強與可靠性高三大目標。

圖1 MedCLIPSeg框架圖
2.2 概率式視覺語言適配器(PVL Adapter)
該模塊是MedCLIPSeg的核心模塊,是實現不確定性感知的跨模態融合的主要部分,它的結構主要分為三個部分,如圖2所示。第一個部分是雙向投影與QKV概率建模,它將圖像與文本令牌投影至共享低維空間,將注意力的Key與Value建模為高斯分布,而非確定性向量。第二個部分是置信度加權注意力,注意力分數同時考慮均值相似度與方差置信度懲罰,自動降低不確定令牌的權重。第三個部分是值采樣與殘差門控,通過重參數化技巧采樣Value分布生成融合特征,引入可學習殘差門控,訓練初期保留原始特征以保證穩定性,后期逐步增加融合特征的權重。

圖2 PVL適配器實現流程圖
2.3 像素與文本相似度分割
這是MedCLIPSeg的特色模塊,位于框架圖右側,它采用語義相似度來驅動分割。它主要利用CLIP預訓練好的跨模態對齊能力,將分割任務轉化為每個像素與文本描述的匹配度計算。首先它從凍結的CLIP視覺編碼器中提取保留完整空間位置信息的圖像補丁特征,同時從文本編碼器中取出代表整句語義的結束符特征,將兩者做歸一化后映射到同一維度空間,隨后通過一個輕量級可學習上采樣模塊將低分辨率的補丁特征恢復到接近原圖的尺寸,再與經過MLP維度對齊的文本特征做逐元素點積,點積結果直接作為該位置的分割logits,其相似度越高,說明該像素越符合文本描述的語義,越可能是需要分割的病灶或器官,最后通過雙線性插值將logits上采樣到輸入圖像的原始尺寸,即可得到最終的分割掩碼。
2.4 軟補丁級對比損失
傳統CLIP全局對比學習可能會出現丟失空間信息、硬標簽監督在醫學場景下失效的問題,所以MedCLIPSeg提出了軟補丁級對比損失。傳統CLIP僅使用全局token與文本做對比,完全忽略了分割任務必需的空間語義,對此MedCLIPSeg首先對所有圖像補丁特征做平均池化,得到既保留局部語義又降低噪聲的區域級圖像表征,隨后引入軟標簽機制,不再使用非0即1的硬標簽,而是通過計算批次內所有文本表征之間的相似度生成連續的軟標簽矩陣,語義越相近的文本,其對應的監督信號置信度越高。最后計算文本與圖像和圖像與文本兩個方向的軟交叉熵損失并取平均,與傳統的分割損失聯合訓練。這種設計讓模型在標注極度稀缺的醫學場景下大幅提升了學習效率,同時顯著增強了模型對不同設備、不同掃描協議下域偏移的魯棒性。
為了全面驗證MedCLIPSeg架構的有效性與臨床落地價值,論文構建了一套多維度遞進的實驗驗證方案。首先通過標注比例梯度的對比實驗,量化了模型在醫學數據稀缺場景下的極致數據效率;其次采用源域訓練、目標域零微調直接測試的設置,在16個數據集上驗證了模型對跨設備、跨中心域偏移的強魯棒性;隨后通過核心組件消融實驗,精準量化了每個創新設計對模型性能的獨立貢獻;最后通過不確定性與可靠性可視化分析,進一步佐證了實驗結果的可信度,也證明了模型能夠輸出與分割誤差強相關的像素級置信度提示,能夠解決傳統確定性醫學AI模型普遍存在的過自信問題。
3.1 數據效率對比實驗
表1 數據效率對比實驗結果表

表1是論文中的數據效率對比實驗結果表,專門用來驗證模型在不同標注數據量下的醫學圖像分割性能,是證明模型少標注也能高精度的核心實驗數據。表格按10%、25%、50%、100%四個訓練標注比例分組,模擬醫學場景中從極稀缺標注到全量標注的真實情況,用DSC和NSD兩個核心指標,對比了三大類主流分割方法:傳統單模態模型(UNet、nnUNet等)、通用文本驅動分割模型、CLIP視覺-語言類分割模型(CLIPSeg、CAT-Seg等)。結果顯示,MedCLIPSeg在所有數據比例下的DSC和NSD均位列第一,且標注數據越少,優勢越突出,完美驗證了它在小樣本醫學分割上的領先性。
3.2 跨域泛化實驗
表2 跨域泛化實驗結果表

表2是MedCLIPSeg論文的跨域泛化實驗結果表,是驗證模型能否真正落地臨床的核心實驗,衡量了模型在域遷移問題上直接推理的分割精度。實驗覆蓋乳腺超聲、結腸息肉內鏡、腦MRI、皮膚皮膚鏡4大場景,采用源域訓練、目標域零微調直接測試設置,模擬了真實醫療場景中跨醫院、跨設備部署的域偏移挑戰。如表2所示,MedCLIPSeg在所有任務、所有域外數據集上的精度均位列第一,大幅領先LViT、CLIPSeg、CAT-Seg等主流視覺-語言分割模型。比如乳腺超聲跨域任務中最高達85.72%,息肉內鏡任務最高90.15%,且相比其他模型,它在域偏移下的性能下跌幅度最小,充分證明其概率跨模態融合與軟對比損失設計,能讓模型學習通用的醫學語義特征,而非依賴特定設備的紋理噪聲,是模型具備臨床實用價值的關鍵佐證。
3.3 核心部件消融實驗
表3 核心部件消融實驗

表3展示了MedCLIPSeg的核心組件消融后性能變化。表格從概率視覺-語言適配器、雙向多模態交互、軟補丁級對比損失三大核心模塊逐一做消融實驗,其中概率PVL適配器是最核心模塊,移除后跨域OOD DSC直接下降23.79%,把概率注意力換成確定性版本,跨域精度也會下降15.90%,證明了概率化建模對醫學圖像跨域泛化的決定性作用,而雙向交互、殘差門控、軟補丁對比損失等設計,也分別帶來1%-4%的穩定增益,尤其是軟標簽對比損失替代硬標簽后,模型泛化性明顯更優。這證明了MedCLIPSeg的高性能不是單一設計帶來的,而是概率跨模態融合與雙向交互和軟對比監督三者共同作用產生的,每個模塊都對解決醫學分割的泛化難題做出了貢獻。
3.4 不確定性與可靠性驗證實驗

圖3 不確定性與可靠性可視化圖
圖3是MedCLIPSeg論文最具臨床說服力的可視化圖,它分別展示了原始醫學圖像、分割結果與像素級不確定性熱力圖,且每個任務都包含訓練見過的域內數據(藍色標注)和完全未見過的域外數據(紅色標注)。圖中可見模型在所有數據集上的分割DSC均超過93%,預測結果與醫生標注的標準幾乎完全重合,域外數據精度與域內幾乎無差距,同時不確定性集中在病灶邊界這一最易出錯的區域,直觀證明了該模型不僅具備跨模態、跨設備的通用高精度分割能力。
MedCLIPSeg將概率化視覺-語言建模引入醫學圖像分割領域,構建了一個文本驅動的分割框架。它通過概率視覺-語言間的適配器實現了置信度加權的跨模態融合,用軟補丁級對比損失解決了醫學場景下的語義對齊難題,并在CLIP架構中實現了與分割誤差強相關的像素級不確定性估計。該模型僅用10%標注數據就超越了傳統全監督方法,跨設備跨中心部署時性能下降幅度僅為傳統模型的三分之一,且能輸出符合臨床認知的可解釋置信度提示。這項工作不僅超越了醫學分割的多項SOTA指標,更證明了概率化跨模態建模是解決醫學AI落地的關鍵模塊,為實現安全、高效、通用的臨床智能診斷系統提供了全新的技術范式。
本專題其他文章