^{<thead id="entwt"></thead>}

CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質感，15K 高清數據集 ViT-HD 已經開源。

本文作者：陳淑瑜

2026-05-29 10:53

導語：026 年 CVPR 最新接收的 KeyTailor，用一套關鍵幀驅動細節注入方案，不改動 DiT 主干、不加參、不降速，直接把服裝動態細節、背景幀間一致性拉滿

來源：AIGC Studio

原文鏈接：https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33

虛擬試穿一直是電商與內容創作的剛需，但傳統視頻虛擬換衣技術，長期卡在服裝細節糊、背景閃、模型重、數據差四大痛點。2026 年 CVPR 最新接收的 KeyTailor，用一套關鍵幀驅動細節注入方案，不改動 DiT 主干、不加參、不降速，直接把服裝動態細節、背景幀間一致性拉滿，搭配自研 15K 高清數據集 ViT-HD，全面超越現有 SOTA，讓高清、真實、流暢的視頻虛擬試穿成為現實。

CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質感，15K 高清數據集 ViT-HD 已經開源。

unsetunset相關鏈接unsetunset

論文：https://arxiv.org/abs/2512.20340
主頁：https://huggingface.co/datasets/zijiyingcai/ViT-HD
數據集：https://huggingface.co/datasets/zijiyingcai/ViT-HD

unsetunset論文介紹unsetunset

當前基于DiT的視頻試穿方法雖能生成連貫視頻，但在細粒度服裝動態建模與背景時序一致性上仍存在明顯短板，且常因引入額外交互模塊導致計算開銷激增。為此，團隊創新性地提出"關鍵幀驅動細節注入"策略：利用關鍵幀天然包含前景動態與背景一致性的特性，通過指令引導采樣篩選高信息量幀，并設計服裝細節增強（GDDE）與背景協同優化（CBDO）雙模塊，將關鍵幀中的細粒度特征高效蒸餾至生成過程。該設計在不改動DiT主干的前提下實現質量躍升，兼具高效性與可擴展性。

unsetunset方法概述unsetunset

CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質感，15K 高清數據集 ViT-HD 已經開源。 KeyTailor的總體框架。 KeyTailor 將參考服裝圖像 Iref、源視頻 Vin、其相應的不可知視頻 Vagn、不可知掩模 Magn 和姿勢表示 P 作為輸入。這些輸入被編碼為與服裝相關的潛在變量 Lg，背景相關潛伏 Lbg、姿勢潛伏 Lp 和調整大小的蒙版 Lm。具體來說，與服裝相關的潛在變量是由 GDDE 生成的模塊，CBDO 模塊的背景相關潛在變量，以及可訓練的姿勢引導器的姿勢潛在變量。隨后，所有這些潛在信息與噪聲潛在信息一起被注入 N 個 DiT 塊中，以生成最終的試戴視頻令牌，然后由基于 VAE 的解碼器進行解碼視頻解碼器合成輸出視頻。

KeyTailor 核心思路很直接：關鍵幀里藏著前景動態和背景一致性的全部信息，不用改 DiT 架構，把關鍵幀信息高效注入即可。整體由三大核心模塊構成，輕量、高效、效果強。

指令引導關鍵幀采樣（IKS）：精準挑 “有用幀” 不隨機采樣，而是用視覺語言模型解析視角 / 動作指令，生成標準姿態錨點；計算每幀與錨點的動作差異、服裝占比，排序篩選出覆蓋多角度、多動作、低冗余的關鍵幀，為后續細節提取打下基礎。
服裝細節增強（GDDE）：褶皺、紋理全還原先用單圖試穿模型把目標服裝注入初始幀，再從關鍵幀蒸餾動態細節（褶皺、背面紋理、光影變化），強化服裝 latent，讓衣物貼合肢體、動態自然、細節飽滿。
協同背景優化（CBDO）：背景穩、不跳變全局分支抓背景整體結構，局部分支從關鍵幀補細節；加權融合后輸出穩定、清晰、幀間一致的背景 latent，徹底解決背景閃爍、模糊問題。
輕量融合：無縫適配 DiT 把增強服裝 latent、優化背景 latent，和姿態、掩碼、噪聲 latent 高效融合，注入 DiT 的 LoRA 適配器。全程不改 DiT 主干、不增參、不拖慢速度，兼顧質量與效率。

數據集介紹

團隊同步發布大規模高清數據集 ViT-HD： 15,070 個高質量視頻；分辨率 810×1080；覆蓋上裝、下裝、全身裝，場景豐富、主體清晰、曝光正常。高質量數據 + 強模型，從根源解決泛化不足問題，讓虛擬試穿適配更多服裝與場景。

unsetunset實驗結果unsetunset

在 VFID、SSIM、LPIPS 等核心指標上，KeyTailor 顯著領先：

服裝細節：褶皺、紋理、動態形變精準還原，質感真實；
背景一致性：無閃爍、無跳變、細節清晰；
效率：輕量設計，推理速度快、成本低；
泛化：復雜姿態、多樣服裝、不同場景均穩定輸出高質量結果。

unsetunset總結unsetunset

KeyTailor+ViT-HD，以關鍵幀驅動細節注入為核心，用極簡、輕量的方案，一次性解決虛擬試穿的細節、背景、效率、數據四大難題。作為 CVPR 2026 收錄的重磅成果，它將直接賦能電商虛擬試衣、短視頻穿搭創作、數字人服裝替換等場景，降低高清真實視頻生成門檻，推動 AIGC 在商業場景的深度落地。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章