0
| 本文作者: 陳淑瑜 | 2026-06-12 16:38 | 專題:CVPR 計算機視覺與模式識別會議 |

作者丨美圖影像研究院(MT Lab)
近年來,生成式AI加速推動了影像內容生產方式的變革,隨著AI生圖與修圖逐漸成為人們影像生活中的新范式,也產出了不少“笑料”。比如當你希望調整照片中人物微笑弧度時,模型可能將五官結構也一起改變了,或者想讓照片中的人“減齡”,卻直接改變了性別。本質上,這是因為當前大量的生成模型雖然擁有強大的生成能力,但其內部語義仍然高度“糾纏(entangled)”。
對于模型而言,各種概念并非完全獨立的,尤其是面對人像這類細節龐雜的照片,表情、年齡、發型、膚色、光線等維度往往混雜在同一個空間中,這也是為什么很多生成結果看似驚艷,卻難以真正穩定、可控地服務真實使用場景。
過去,人們更關注模型的“生成能力”,但隨著模型在高質量生成方面獲得的持續突破,并進一步進入真實用戶場景后,不難發現僅有生成能力是不夠的,用戶所需的一項關鍵能力是“可控”,比如改變照片中人物的年齡感時仍然要“像本人”,多人場景下要能夠只編輯指定對象,調整人物表情時人臉ID信息要保持一致。因此,面向生成圖像的可解釋、細粒度、連續屬性操縱(Attribute Manipulation),成為一項亟待解決的關鍵問題。
對此,美圖影像研究院(MT Lab)聯合北京交通大學提出了基于擴散模型的圖像屬性操縱的新方法框架All-in-One Slider,該方案實現了對人臉屬性的連續精細化控制,并最大限度地保持了圖像整體結構及面部細節信息,滿足用戶對人像精細化編輯的多元化需求,該研究成果現已被國際計算機視覺三大頂會之一的CVPR 2026接收。

論文鏈接:https://www.alphaxiv.org/abs/2508.19195

01
為了實現對生成圖像特定屬性的連續操縱,現有研究通常會通過訓練滑塊(Slider)模塊來解決該問題,但這些方法大多采用One-for-One模式,即針對每個屬性都需要訓練獨立滑塊,而每次引入新屬性都必須重新進行訓練,這不僅導致了較高的參數冗余,也限制了屬性編輯在真實應用場景中的靈活性及可擴展性。
針對這一問題,研究團隊創新性地提出了All-in-One Slider框架模式,該方案通過一個輕量級模塊將文本嵌入空間,并分解為稀疏且具有明確語義的屬性方向。
該模塊在完成訓練后,即可作為通用滑塊使用,能夠實現對年齡、表情、妝容、發型等多種屬性的可解釋、細粒度連續操縱。研究團隊還發現,通過對已學習到的屬性方向進行重組,All-in-One Slider能夠實現對多屬性組合及未見屬性的零樣本泛化操縱。

圖1:One-for-One slider訓練方法V.S.All-in-One Slider訓練方法
大量實驗結果表明,All-in-One Slider在屬性編輯準確性、身份一致性保持及可擴展性等維度相較既往方案有顯著提升,此外,還支持進一步擴展并集成至擴散模型的Inversion框架中,實現對真實圖像的屬性控制,從而拓寬了在各種現實場景中的落地應用。

02
All-in-One Slider的核心在于引入了輕量級的屬性稀疏自編碼器(Attribute Sparse Autoencoder),通過“break it down to build it up”的策略,將復雜的屬性操縱分解為屬性稀疏自編碼器(Attribute Sparse Autoencoder)的解耦訓練和滑塊的屬性操縱兩個關鍵階段。
階段一:屬性解耦訓練
在訓練階段,該模塊首先將文本編碼器中提取的嵌入向量映射到一個高維統一的屬性潛空間中,并通過Top-k激活機制強制實現稀疏化,使每個語義組件僅由極少數神經元表示,從而在源頭上實現了不同屬性間的徹底解耦。為了進一步提升模型的表達能力,研究團隊還引入了輔助損失函數進行殘差修復,通過激活“死神經元”確保模型能夠覆蓋更廣泛且細粒度的語義范圍,為后續精準的屬性控制奠定了堅實的解耦基礎。
階段二:滑塊的屬性操縱
完成訓練后,該模塊化身為一個強大的“通用操縱器”,并展現出極佳的“即插即用”特性,只需提取目標屬性的文本特征,模型就可以在統一潛空間中精準定位其語義方向,且無需針對新屬性進行額外微調;通過簡單地調整縮放因子λ(操縱強度),還可以實現對圖像屬性平滑的控制,例如用戶可以連續控制人像的年齡感、笑容強度、妝容濃淡,而不是局限在固定幅度的切換。更重要的是,得益于稀疏空間的解耦特性,能夠確保在大幅度改變目標屬性的同時,完美保留原圖的人物的身份特征信息與背景細節。
All-in-One Slider不僅為擴散模型的連續屬性操縱提出了全新的統一范式,它在可擴展性、可解釋性及靈活性方面的顯著優勢,也為如何在統一空間內以極低訓練與參數成本實現高精度屬性編輯等任務提供了新思路。

圖2 :All-in-One Slider 框架概述
階段一:屬性稀疏自編碼器的無監督訓練。該過程以從文本編碼器殘差流中獲取的標記嵌入作為輸入,旨在利用稀疏特征對其進行重構。階段二:應用訓練好的屬性稀疏自編碼器,在圖像生成過程中靈活地操縱特定屬性。

03

圖3:大量面部屬性操縱的定性結果

圖4:組合屬性操縱的定性結果

表1:單屬性和多屬性操縱的定量比較

圖5:對不同種族屬性進行連續零樣本泛化

表2:研究控制不同層的影響

圖6:研究不同控制強度的影響

圖7:對不同攝影風格的連續控制的定性結果

圖8:多主體場景控制

04
AI影像正在進入高速發展期,相比聚焦通用能力的大模型公司,美圖面對的是海量真實的用戶場景,因此更關注讓技術真正服務于用戶需求。過去,用戶對影像的需求更多停留在“好看”,而在更關注情緒表達與自然真實的當下,無論是人物狀態、光影質感,還是影像中的情緒濃度,其背后都對應著更加復雜的人類語義,隨著AI Agent轉向垂直場景深度應用的下半場,這也意味著AI影像需要由“功能疊加”走向“理解驅動”。
生成模型解決的是“從無到有”,而下一階段更重要的則是讓模型更精準地理解用戶的真實意圖。基于長期積累的研發經驗與對用戶場景的深刻洞察,美圖正在持續推動生成式AI與影像工具的進一步融合,在技術與場景之間實現“真正可用”。
雷峰網(公眾號:雷峰網)
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章