0
| 本文作者: 鄭佳美 | 2026-06-08 10:26 |
魚燈破水,凌空游城;火獅踏焰,奮躍騰空;一群剪紙奔馬通體透亮,在壁中狂奔;一紙詩詞垂掛成瀑,于天幕間翻卷——2026年央視春晚合肥分會場《合韻滿江淮》,用一連串美輪美奐的超現實奇觀,刷新了虛實融合的想象邊界。

鮮有人知的是,支撐這些4K級畫面的技術核心,來自智象未來團隊提出的PS-SR,一個「偽單步」(Pseudo-Single-Step)視頻超分框架。憑借這一突破性工作,該成果被計算機視覺頂級會議 CVPR 2026接收。
把天馬行空的創意落地為春晚級的播出畫面,不僅需要在4K畫質下,高效處理海量實拍與生成素材,更重要的是,60幀率,每一幀都要經得起逐秒推敲。魚燈的鱗片反光必須與水波同頻,奔馬的筋肉在疾馳中不能有絲毫畸變,AI生成的特效要與真人實景嚴絲合縫地“長”在一起,仿佛它們本就屬于那個時空。
然而,這一切的前提離不開一項基礎能力:視頻超分。沒有足夠清晰、穩定、真實的底層4K畫面,那些極致的畫面細節,虛實之間的無縫融合,都無從談起。
當視頻超分辨率(Video Super-Resolution, VSR)走向真實應用,一個繞不開的問題出現了:模型究竟應該更快,還是更好?
單步模型速度快,適合部署,卻往往難以補出真實高清視頻中的高頻紋理;多步擴散模型細節豐富、視覺質量強,卻因為反復迭代而計算昂貴。對于長視頻、高清分辨率和接近實時的視頻增強場景來說,這個矛盾尤為尖銳。
智象未來的團隊提出了 PS-SR,一個「偽單步」(Pseudo-Single-Step)視頻超分框架。它并不簡單地把多步擴散壓縮成一次前向傳播,而是重新分配擴散采樣中的計算角色:強大的 base model(基礎模型)只執行最關鍵的一步,確定全局結構與內容一致性;輕量 draft model(草稿模型)再接力完成后續細節增強。通過這種投機擴散(Speculative Diffusion),PS-SR 試圖同時獲得接近單步模型的速度,以及多步擴散模型擅長的視覺豐富度。

論文標題:PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion
視頻超分不只是把低分辨率畫面放大。真實低清視頻通常同時包含壓縮偽影、噪聲、模糊、紋理缺失和運動退化。模型不僅要恢復單幀紋理,還要保證連續幀之間不閃爍、不漂移。
基于 CNN 或 Transformer 的傳統 VSR 方法效率較高,也能保持較強的輸入輸出一致性,但面對嚴重退化時,往往只能給出偏平滑的安全結果。擴散模型帶來了更強的生成先驗,可以在低清人臉、車輛結構、衣物紋理等區域補出更自然的細節,卻需要多步采樣,推理成本高。
近年來的單步擴散蒸餾方法試圖破解這個問題,但單步模型很難完整繼承多步擴散的迭代創造力。復雜紋理本來是在多輪更新中逐漸形成的,一次性生成時,模型容易退回到更平均、更保守的預測。
PS-SR 的核心判斷是:真正昂貴的計算未必每一步都需要。視頻超分中的第一步最關鍵,它要穩住語義、結構和低頻內容;后續步驟更多是在穩定基礎上補高頻細節。因此,與其讓大模型完整跑多步,不如讓大模型先打好地基,再讓輕模型快速補紋理。
PS-SR 的推理流程由兩個不對稱模型協作完成。
第一階段由基礎模型(base model)執行。該模型初始化自 Wan2.1-T2V-1.3B 視頻擴散模型,并通過 LoRA 適配到視頻超分任務。它只進行一次全面采樣,負責恢復畫面的全局結構、語義內容和低頻一致性。換句話說,這一步決定「畫面應該是什么」。
第二階段由草稿模型(draft model)接管。草稿模型 來自基礎模型的輕量化版本,論文中采用從 30 個 DiT blocks 中裁剪 20 個的配置。為了讓輕模型仍能獲得強表征,PS-SR 將 基礎模型 對應層特征拼接給 草稿模型,再通過全連接層恢復維度。這樣,草稿模型 不需要重新理解整個視頻,只需在強模型給出的基礎上推測并補充細節。
訓練上,基礎模型先在 latent space 中學習從低質量視頻到高質量視頻的速度場,并結合 VSD和對抗損失增強分布對齊與視覺真實感;隨后進入 pixel-space training,通過L2損失與LPIPS損失提升局部質量。草稿模型則更聚焦于 refinement,主要通像素空間的L2損失與LPIPS損失學習高頻細節恢復。
最終,PS-SR 形成一種「1+x」式采樣體驗:一個完整的基礎模型采樣步,加多個輕量草稿模型細化步。它不是嚴格意義上的單步模型,卻在效率上接近單步,并保留了多步細化的空間。

頻域更新:只補細節,不改內容
多步擴散的優勢在于能不斷細化紋理,風險也在這里:模型可能越改越清晰,卻越改越不像原視頻。為了避免這種語義漂移,PS-SR 提出了頻域更新規則(Frequency-Domain Update Rule)。
這條規則的目標很直接:草稿模型后續步驟只允許注入高頻細節,低頻結構必須繼承自前一步。具體做法是將當前視頻和新預測視頻轉換到 YUV 色彩空間,在亮度通道上提取高頻成分,再通過自適應權重融合高頻信息,最后與原有低頻內容和色度通道組合回 RGB 空間。
也就是說,基礎模型 確定骨架,草稿模型 補充紋理,而頻域更新規則負責守住邊界:讓增強發生在細節層面,而不是變成內容重繪。
消融實驗也從可視化上驗證了這一點。去掉頻域更新規則后,模型更容易產生看似更銳利、但與原視頻結構不完全一致的細節,局部紋理和邊緣會出現偏移或重繪。下圖展示了 FDU 的作用:它不是單純追求銳度,而是在補充高頻紋理的同時約束低頻內容,讓視覺豐富度與內容一致性保持平衡。

PS-SR 在 YouHQ 數據集上訓練,評測覆蓋合成數據集 UDM10、SPMCS、YouHQ40,以及真實世界低質量互聯網視頻數據集 VideoLQ。對比方法包括多步擴散模型 STAR、SeedVR,以及單步擴散類方法 DLoRAL、SeedVR2 和 DOVE。
在有高質量 GT 的數據集上,PS-SR 展現出很強的重建能力。以 UDM10 為例,PS-SR 取得 SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277,均為對比方法中的最佳結果;在 SPMCS 上,PS-SR 取得 PSNR 22.092、SSIM 0.6287、LPIPS 0.2940、DISTS 0.1454,也體現出穩定優勢;在 YouHQ40 上,PS-SR 獲得 PSNR 21.772、SSIM 0.5873、LPIPS 0.3011 和 NIQE 3.7508 等有競爭力的結果。

論文同時強調,PS-SR 并不盲目追求無參考銳度指標最高。一些方法在 CLIP-IQA 或 MUSIQ 上更高,但可能伴隨過度銳化和輸入偏離。PS-SR 的目標是在重建準確性、視覺細節和內容一致性之間取得更均衡的結果。

時序一致性方面,PS-SR 在多個合成與真實視頻場景中都表現出更穩定的幀間對齊。下圖的可視化更直觀地展示了這一點:相鄰幀之間的結構漂移和紋理閃爍更少,說明 PS-SR 在增強細節的同時,也能更好地維持連續運動中的內容穩定性。

速度方面,PS-SR 的「偽單步」優勢更直觀。在 NVIDIA A800 GPU 上,對 29 幀、720×1280 分辨率視頻進行推理,STAR 耗時 98.61 秒,SeedVR 耗時 188.93 秒,DOVE 作為單步方法耗時 20.43 秒;PS-SR 采用 1+3 步投機擴散,耗時 21.11 秒。也就是說,它只比最快的單步方法帶來很小額外開銷,卻相比 50 步 SeedVR 快約 9 倍,相比 15 步 STAR 快約 4.7 倍。

PS-SR 的意義不只在于提出一個新模型,更在于給擴散式視頻超分提供了一種新的計算組織方式。
過去,視頻超分常常被迫在兩端搖擺:要么選擇快速但偏平滑的單步模型,要么選擇質量更好但昂貴的多步擴散模型。PS-SR 證明,這個選擇并非絕對。強模型可以只完成最關鍵的全局一步,輕模型可以接力補足細節,而頻域更新規則則保證這些細節不會越界成語義漂移。
這正是「偽單步」的價值所在:它不否認多步生成的必要性,而是讓多步生成以更輕、更受控、更接近實際部署的方式發生。對于視頻修復、低清素材增強、在線內容生產和高清化播放等場景,PS-SR 展示了一個兼顧速度、質量與穩定性的擴散式視頻增強方向。