0
| 本文作者: 陳淑瑜 | 2026-05-29 10:53 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:AIGC Studio
原文鏈接:https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33
虛擬試穿一直是電商與內容創作的剛需,但傳統視頻虛擬換衣技術,長期卡在服裝細節糊、背景閃、模型重、數據差四大痛點。2026 年 CVPR 最新接收的 KeyTailor,用一套關鍵幀驅動細節注入方案,不改動 DiT 主干、不加參、不降速,直接把服裝動態細節、背景幀間一致性拉滿,搭配自研 15K 高清數據集 ViT-HD,全面超越現有 SOTA,讓高清、真實、流暢的視頻虛擬試穿成為現實。


當前基于DiT的視頻試穿方法雖能生成連貫視頻,但在細粒度服裝動態建模與背景時序一致性上仍存在明顯短板,且常因引入額外交互模塊導致計算開銷激增。為此,團隊創新性地提出"關鍵幀驅動細節注入"策略:利用關鍵幀天然包含前景動態與背景一致性的特性,通過指令引導采樣篩選高信息量幀,并設計服裝細節增強(GDDE)與背景協同優化(CBDO)雙模塊,將關鍵幀中的細粒度特征高效蒸餾至生成過程。該設計在不改動DiT主干的前提下實現質量躍升,兼具高效性與可擴展性。
KeyTailor的總體框架。 KeyTailor 將參考服裝圖像 Iref、源視頻 Vin、其相應的不可知視頻 Vagn、不可知掩模 Magn 和姿勢表示 P 作為輸入。這些輸入被編碼為與服裝相關的潛在變量 Lg,背景相關潛伏 Lbg、姿勢潛伏 Lp 和調整大小的蒙版 Lm。具體來說,與服裝相關的潛在變量是由 GDDE 生成的模塊,CBDO 模塊的背景相關潛在變量,以及可訓練的姿勢引導器的姿勢潛在變量。隨后,所有這些潛在信息與噪聲潛在信息一起被注入 N 個 DiT 塊中,以生成最終的試戴視頻令牌,然后由基于 VAE 的解碼器進行解碼視頻解碼器合成輸出視頻。
KeyTailor 核心思路很直接:關鍵幀里藏著前景動態和背景一致性的全部信息,不用改 DiT 架構,把關鍵幀信息高效注入即可。整體由三大核心模塊構成,輕量、高效、效果強。

團隊同步發布大規模高清數據集 ViT-HD: 15,070 個高質量視頻; 分辨率 810×1080; 覆蓋上裝、下裝、全身裝,場景豐富、主體清晰、曝光正常。 高質量數據 + 強模型,從根源解決泛化不足問題,讓虛擬試穿適配更多服裝與場景。


在 VFID、SSIM、LPIPS 等核心指標上,KeyTailor 顯著領先:
KeyTailor+ViT-HD,以關鍵幀驅動細節注入為核心,用極簡、輕量的方案,一次性解決虛擬試穿的細節、背景、效率、數據四大難題。作為 CVPR 2026 收錄的重磅成果,它將直接賦能電商虛擬試衣、短視頻穿搭創作、數字人服裝替換等場景,降低高清真實視頻生成門檻,推動 AIGC 在商業場景的深度落地。
本專題其他文章