0
| 本文作者: 陳淑瑜 | 2026-05-26 11:25 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:知乎“智能CV”
原文鏈接:https://zhuanlan.zhihu.com/p/2040370312253071756

論文:https://arxiv.org/pdf/2604.03134
這篇論文聚焦于少樣本醫學圖像分割,即 Few-Shot Medical Image Segmentation,簡稱 FSMIS。該任務希望模型只依賴極少量標注樣本,就能完成新器官、新類別或新域醫學圖像的分割。
醫學圖像分割在疾病診斷、放療計劃、個性化治療等臨床場景中非常重要,但其核心難點在于:高質量像素級標注成本高、不同醫院和設備帶來的域偏移明顯、目標器官形態差異大。傳統 FSMIS 方法多采用原型匹配、注意力交互或雙分支結構,但這些方法通常需要從有限醫學數據中學習任務特定表示,面對跨模態、跨域場景時容易性能下降。

論文在圖1中對比了傳統方法和本文方法。傳統方法通常基于 CNN 或專門設計的 few-shot 網絡,通過 support 圖像和 mask 提取原型,再與 query 圖像進行特征匹配;而本文不再從零構建任務網絡,而是嘗試直接適配一個強大的預訓練基礎模型——Stable Diffusion。作者認為,大規模擴散模型已經從海量圖文數據中學習到了關于形狀、紋理和上下文的通用視覺先驗,這些先驗可以為醫學少樣本分割提供更強的魯棒性和跨域泛化能力。
本文提出的方法名為 SD-FSMIS,核心思想是:把 Stable Diffusion 從文本到圖像生成模型,改造成一個能夠根據少量 support 樣本完成醫學圖像分割的 few-shot 分割框架。
傳統 FSMIS 方法往往依賴任務特定網絡設計,而本文將 Stable Diffusion v1.5 作為主干模型,保留其 VAE 和 U-Net 結構,并通過輕量化改造使其適配醫學圖像分割任務。

在圖2中,作者展示了 SD-FSMIS 的整體訓練流程。Support 圖像、support mask 和 query 圖像首先經過 Stable Diffusion 的 VAE 編碼器進入 latent space。隨后,support 信息與 query 信息在 U-Net 中交互,最終生成 query mask 的 latent 表示,再通過 VAE 解碼器得到最終分割結果。
這種設計的關鍵優勢在于:模型不是從有限醫學訓練集里重新學習視覺規律,而是復用 Stable Diffusion 中已經存在的通用視覺知識。
Few-shot 分割的關鍵是讓模型理解 support 圖像中“要分割什么”,再把這種類別信息遷移到 query 圖像上。為此,作者提出了 Support-Query Interaction,簡稱 SQI。
SQI 包含兩個部分:

第一是 Support Information Injection,SII。如圖3所示,作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之間,額外加入一個 cross-attention 層,讓 query 特征去關注 support 特征。這樣,support 圖像和 support mask 中的目標類別信息可以直接注入 query 特征。
第二是 Query Enhancement,QE。作者借鑒 prototype-based few-shot segmentation 的思想,從 support latent 中提取 foreground prototype,再用它與 query latent 計算相似度,篩選出 query 中可能屬于目標區域的特征,形成 query prototype,并與原 query latent 拼接。這個模塊在圖2的黃色區域中展示,作用是進一步增強 query 表示,使其更貼近 support 中指定的器官類別。
Stable Diffusion 原本依賴文本 embedding 來控制生成過程。但在醫學圖像分割中,輸入條件并不是自然語言,而是 support 圖像和 support mask。為了解決這個不匹配問題,作者提出 Visual-to-Textual Condition Translator,簡稱 VTCT。
VTCT 的作用是把 support 圖像中的視覺類別信息轉換成類似文本 embedding 的條件向量。具體來說,作者使用凍結的 DINOv2-small 圖像編碼器提取 support 圖像特征,再通過 support mask 做 Masked Average Pooling,得到目標器官的視覺原型,最后用一個可學習 MLP 將其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空間。
這一模塊在圖2紅色區域中展示。它的意義在于:不是簡單使用空文本提示,而是讓模型通過 support 圖像自動生成“隱式文本條件”,從而更精準地引導 Stable Diffusion 關注目標器官。

在推理階段,SD-FSMIS 并不進行復雜的多步擴散采樣,而是采用 single-step x0 prediction。如圖4所示,support 與 query 被編碼到 latent space 后,U-Net 在 VTCT 生成的條件引導下,直接一步預測 query mask latent,再由 VAE decoder 解碼得到最終 mask。
這種設計降低了擴散模型用于分割時的推理成本,使其更適合醫學圖像分割任務。

論文在 Abd-MRI 和 Abd-CT 兩個腹部醫學圖像數據集上進行實驗,分割目標包括 spleen、liver、left kidney 和 right kidney。評價指標主要為 Dice Similarity Coefficient。
在表1中,作者比較了 SD-FSMIS 與 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 數據集上,SD-FSMIS 的平均 Dice 與當前強方法 DIFD 接近;在 Abd-CT 數據集上,本文方法優勢更明顯。
例如,在 Setting 1 下,SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice,超過此前最優的 DIFD 的 80.19%。在 Setting 2 下,SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice,同樣明顯優于 DIFD 的 79.85%。
這說明,在標準少樣本醫學圖像分割場景下,SD-FSMIS 已經具備很強競爭力。
本文最重要的實驗亮點是跨域少樣本醫學圖像分割,即從 CT 遷移到 MRI,或從 MRI 遷移到 CT。該場景比普通 few-shot 更接近真實臨床,因為不同模態之間存在顯著域差異。

在表2中,作者展示了 Setting 1 下的跨域實驗結果。SD-FSMIS 在 Abd-CT → MRI 任務上達到 81.42% 平均 Dice,在 Abd-MRI → CT 任務上達到 75.90% 平均 Dice,均超過此前方法。其中,DiffewS 已經利用擴散模型先驗并表現較強,但 SD-FSMIS 仍進一步提升,說明 SQI 與 VTCT 對擴散模型適配是有效的。
補充材料中的表6進一步展示了更嚴格 Setting 2 下的跨域結果。SD-FSMIS 在 Abd-CT → MRI 上達到 80.54%,相比 DIFD 的 69.13% 提升 11.41%;在 Abd-MRI → CT 上達到 74.82%,相比 DIFD 的 57.93% 提升 16.89%。這充分體現了本文方法在跨模態泛化上的優勢。

圖5給出了 SD-FSMIS 與 DiffewS 的可視化對比。可以看到,在 Abd-MRI、Abd-CT 以及跨域場景中,SD-FSMIS 對不同形態、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS,本文方法在器官邊界、局部結構和復雜背景下更穩定。
補充材料中的圖6比較了 SD-FSMIS 與 UniverSeg、MultiverSeg 等通用醫學分割模型。結果顯示,在 1-shot 設置下,通用模型容易出現目標定位不準、邊界混淆或背景組織誤分割,而 SD-FSMIS 能更準確地區分目標器官與相似組織。
在表3中,作者對 SII、QE 和 VTCT 三個關鍵模塊做了消融實驗。僅使用 SII 時,模型在 Abd-CT Setting 1 上的平均 Dice 為 80.11%。加入 QE 后提升到 83.17%;加入 VTCT 后提升到 82.27%;三者全部使用時達到最高的 83.66%。
這說明:
SII 是基礎,它實現 support 信息向 query 的注入;
QE 能增強 query latent 中目標區域的表示;
VTCT 能把 support 視覺信息轉化為更有效的條件引導;
三者組合后具有互補效果。
表4比較了 Stable Diffusion 1.5 和 2.1 作為骨干時的性能。SD 1.5 的平均 Dice 為 83.66%,高于 SD 2.1 的 82.84%。作者認為,SD 1.5 的預訓練數據更寬泛,保留了更通用的視覺先驗,因此更適合遷移到醫學圖像結構和紋理理解任務中。
補充材料中的圖7展示了失敗案例。SD-FSMIS 在部分 Abd-MRI 圖像上仍會出現肝臟分割不完整、左腎受高顯著區域干擾、脾臟和左腎距離較近時發生誤合并等問題。作者認為,這主要來自醫學圖像低對比度邊界和復雜器官空間關系。未來可以通過更強的邊界建模或注意力機制進一步改進。
圖8展示訓練過程可視化,模型在訓練早期就能較好分割簡單類別,在約 5000 次迭代時對肝臟等復雜類別也能形成較好的分割結果。這從側面說明擴散模型先驗確實為少樣本分割提供了較強初始化能力。
這篇論文的核心貢獻在于:它沒有繼續沿著傳統 FSMIS 方法“設計更復雜專用網絡”的路線前進,而是提出了一種更具基礎模型思維的新范式——將預訓練 Stable Diffusion 適配到少樣本醫學圖像分割中。
SD-FSMIS 通過 SQI 實現 support-query 交互,通過 VTCT 把 support 視覺信息轉化為 text-like condition,再通過 QE 增強 query latent 表示,從而讓 Stable Diffusion 的通用視覺先驗服務于醫學圖像分割任務。實驗結果表明,該方法不僅在標準 FSMIS 設置下表現優異,更在跨 CT/MRI 的跨域場景中展現出明顯優勢。
從研究意義上看,這篇論文說明:大規模生成模型不僅可以用于圖像生成,也可以被有效改造為醫學圖像理解和分割工具。對于標注稀缺、域偏移嚴重的醫學場景而言,這種“適配基礎模型”的路線可能比從零訓練專用模型更具潛力。
本專題其他文章