上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

本文作者：鄭佳美

2026-04-22 15:04

專題：CVPR 計算機視覺與模式識別會議

導語：C2FG：利用 score 差異實現動態引導控制的生成方法。

很多人第一次覺得圖像生成模型已經足夠強，往往是在它能快速畫出一張看上去不錯的圖的時候。但真正開始頻繁使用之后，又會慢慢發現另一面。

比如做一張活動主視覺，前幾次生成里主體、色調、氛圍都對了，可一放大細節就會發現手部、材質、邊緣關系經不起看。再比如給一篇文章配封面，模型明明理解了主題，卻總在最后呈現時把重點元素放錯位置，或者讓畫面風格和語義之間出現輕微但難以忽視的偏差。

這正是當前生成式 AI 進入大規模應用之后，行業越來越在意的一類問題。今天的 diffusion 模型已經不缺生成能力，缺的是更穩定、更可控、也更符合真實使用過程的生成機制。

過去幾年，行業主要依靠更大的模型、更多的數據和更強的算力推動效果上升，但當模型能力不斷逼近高位之后，很多問題開始不再表現為能不能生成，而是能不能穩定地生成對。換句話說，競爭的重點正在從模型會不會畫，轉向模型能不能在每一步都朝著正確方向畫。

這個變化非常關鍵，因為它意味著生成模型的發展正在從規模驅動走向機制驅動。

在這個背景下，來自上海交通大學與 vivo BlueImage Lab 的研究團隊提出了《C2FG Control Classifier Free Guidance via Score Discrepancy Analysis》。研究切中的恰恰是行業正在遇到的那個深層矛盾。

過去廣泛使用的 guidance 方式，本質上默認生成過程中的條件引導強度可以保持固定，但真實的 diffusion 過程并不是靜止的，模型在不同階段對條件信息的依賴程度并不一樣。研究人員抓住的，正是這種長期存在卻常被經驗調參掩蓋的問題。

從這個意義上看，C2FG 代表的不只是一次技術修補，而是一種研究視角的變化。它提醒行業，下一階段真正重要的問題，可能不再只是把模型做得更大，而是更精確地理解生成過程內部到底發生了什么，并據此重新設計控制方式。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

論文地址：https://arxiv.org/pdf/2603.08155

C2FG 更改進了生成分布本身

在實驗結果方面，研究團隊圍繞 ImageNet 這一核心任務首先驗證了方法的整體效果。對比可以發現，在常規的 DiT 模型上，引入 C2FG 之后最直接的變化是生成結果明顯更接近真實分布，這一點體現在 FID 從 2.29 下降到 2.07，同時 IS 從 276.8 提升到 291.5，而 Precision 基本保持在 0.83，Recall 從 0.57 上升到 0.59。

這組變化共同說明，研究人員的方法并沒有通過犧牲質量來換取多樣性，而是在保持原有精度的情況下，同時讓生成圖像更清晰、類別更明確，并且覆蓋到更廣的真實分布區域。相比之下，如果只看單一指標，很難看出這種“同時提升多個維度”的效果，而這里的數據組合恰好體現了這一點。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

更關鍵的是，這種改進在強模型上依然成立。以 SiT-XL/2 為例，本身已經處在較高性能水平，固定 guidance 時 FID 為 1.80，而 C2FG 可以把它進一步壓到 1.51，同時 IS 從 284.0 提升到 315.0。雖然 Precision 從 0.81 略微變為 0.80，但 Recall 從 0.61 提升到 0.62，這說明整體生成能力仍然是增強的，而不是簡單的權衡變化。

換句話說，在模型已經很強的情況下，仍然能夠在“更真實”和“更豐富”之間取得更好的平衡，這一點本身就說明問題不在模型能力，而在 guidance 機制。

當實驗推進到更接近性能上限的設置時，這種趨勢依然存在。即使原方法已經達到 FID 1.42 這樣的水平，引入 C2FG 后仍然可以進一步降低到 1.41，這種微小但穩定的改進說明，隨著模型不斷逼近極限，誤差來源越來越集中在機制層面，而不是網絡本身。

類似的現象也出現在更復雜的高分辨率任務中，在 512 × 512 設置下，原方法的 FID 為 6.81，而 C2FG 可以降低到 6.54，同時 IS 從 229.5 提升到 280.9，這表明在更困難的生成條件下，方法依然能夠改善圖像結構和整體清晰度，而不是只在簡單場景中有效。

研究團隊還將驗證擴展到不同類型的任務中。在文本生成圖像任務中，雖然整體提升幅度不如 ImageNet 明顯，但趨勢保持一致，例如 U-ViT 的 FID 從 5.37 下降到 5.28，Stable Diffusion 的 CLIP 分數從 31.8 提升到 31.9，這說明這種方法不僅適用于類別條件，還對文本條件同樣有效，只是在更復雜語義約束下改進幅度會相對溫和。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

進一步在像素空間任務中，原模型已經可以達到 FID 1.58，在強 baseline 的幫助下下降到 1.04，而加入 C2FG 后仍然可以繼續降低到 1.03，這種在接近極限區域仍然存在的改進，直接說明誤差并不是來自模型表達能力，而是來自 guidance 的使用方式。雷峰網(公眾號：雷峰網)

從更貼近實際應用的角度來看，研究人員還分析了推理步數減少時的表現。在 50 步和 20 步這兩種設置中，FID 都出現了穩定下降，并且在 20 步這種更極端的低計算預算下，提升反而更加明顯。這意味著，當每一步的決策變得更加關鍵時，動態 guidance 的優勢會被放大。

最后，通過一個簡單的二維 toy 實驗，研究團隊展示了更直觀的現象，傳統方法會產生明顯偏離目標分布的異常樣本，而 C2FG 基本不會出現這類 outliers，生成分布也更貼近真實分布，這進一步說明改進不僅體現在視覺效果上，更體現在整體概率分布的正確性上。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

基于逐層驗證的實驗設計框架

在實驗經過的安排上，研究團隊之所以設計這么多層次的實驗，并不只是為了說明 C2FG 比原來的方法更好，而是希望進一步回答一個更核心的問題，也就是這種方法為什么會更好。

圍繞這個目標，研究人員搭建了一個逐層推進的驗證體系。第一層是機制驗證，重點去測條件分支和無條件分支之間的差異，結果發現這種差異并不是固定不變的，而是會隨著時間不斷變化。

第二層是分布驗證，也就是通過 toy 實驗去觀察生成結果是否更接近真實分布，從而判斷改進究竟發生在視覺層面，還是已經深入到分布層面。

第三層是性能驗證，研究團隊把方法放到 ImageNet 這種核心任務中，直接檢查各種指標能否得到提升。第四層是泛化驗證，在這一層里，研究人員主動更換模型、更換任務，也更換采樣方式，目的就是確認這種改進并不依賴某一種特定結構或某一種實驗條件。

第五層則是極限驗證，專門去測試強模型和少步數這兩類更苛刻的情境，因為如果方法在這些設置下仍然有效，就更能說明它反映的是一種穩定規律，而不是偶然現象。

這樣一層一層推進之后，整個實驗就形成了一條完整的證據鏈，最后支持的結論也就不再只是“效果更好”，而是“這種改進背后確實存在可以重復驗證的機制”。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

在這一系列實驗中，最關鍵的觀察集中在 diffusion 過程不同階段的變化上。研究人員發現，在早期階段，條件信息和無條件信息之間幾乎是接近的，二者差異很小，這意味著如果在這個時候仍然使用固定而且較強的 guidance，就容易出現引導過強的問題。

相反，到了后期階段，這種差異會迅速增大，也就是說模型越來越需要條件信息去把生成過程拉回到目標分布附近，如果 guidance 依舊保持固定，就會顯得不夠，無法提供足夠的約束。

正是在這個意義上，研究團隊提出的 C2FG 才顯得重要，因為它的作用不是簡單地把 guidance 變大或者變小，而是自動匹配這種隨時間變化的差異，讓前期不過強、后期不不足，從而使整個生成過程更符合真實的 diffusion 動態。

上交大 x vivo 團隊：一個簡單改動，讓 diffusion 全面提升丨CVPR 2026

對 diffusion 本質的修正

從實驗意義來看，這項研究的重要性，不只是把幾個指標繼續提高了一點，而是說明研究團隊發現了 diffusion 生成模型里一個更本質的問題。

過去很多方法默認 guidance 在整個生成過程中都可以保持固定，但實驗結果表明，問題并不只是參數怎么調，而是這種固定做法本身就不符合生成過程的實際變化。

因為研究人員在不同任務、不同模型和不同設置下都觀察到了穩定提升，所以可以說明，C2FG 修正的不是某一種局部技巧，而是條件信息參與生成時普遍存在的偏差。這也意味著，研究真正推進的，不只是一個新方法，而是一種對生成機制更準確的理解。

這種意義在強模型上的表現尤其有說服力。像從 1.80 降到 1.51 這樣的提升，如果放在普通模型上已經很明顯，而出現在本來就接近極限的強模型上，就更能說明剩余誤差主要不是模型能力不夠，而是 guidance 的作用方式還不夠合理。

換句話說，研究團隊證明了，未來提升生成模型的效果，并不一定只能依賴更大的模型、更多的數據或更長的訓練時間，也可以來自對生成過程中引導機制的重新設計。

少步數實驗的意義則更貼近日常應用。研究人員發現，步數越少，C2FG 的優勢越明顯，這說明在計算資源有限的時候，固定 guidance 帶來的誤差會被放大，而動態 guidance 更能減少這種問題。

對普通人來說，這種改進最終可能體現在更直接的使用體驗上，比如生成速度更快，等待時間更短，對設備性能的要求更低，同時生成結果也更穩定，不容易出現模糊、跑偏或者細節崩壞。

toy 實驗進一步說明，C2FG 改善的也不只是圖像表面的清晰度，而是讓生成結果在整體分布上更接近真實目標，這意味著普通用戶在使用生成工具時，更容易一次得到自然、合理、符合需求的結果，而不必反復修改和重試。雷峰網

再往深一點看，這項研究的價值還在于，它讓生成模型的發展方向變得更清楚了。研究團隊最核心的貢獻，不只是把 guidance 從常數改成時間函數，而是用系統實驗說明，生成過程中的條件引導本來就應該隨著時間變化。

這個結論不僅能幫助后續研究找到更合理的設計思路，也有機會讓現有生成系統以比較低的成本得到升級。最后落實到普通人身上，就是未來的圖像生成工具有可能變得更快、更穩，也更容易普及。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

鄭佳美

編輯

發私信

當月熱門文章