^{<blockquote id="fjpbq"></blockquote>}

【CVPR 2026】自-交叉注意力SCA，兼顧自身依賴與跨分支交互的增強(qiáng)特征，即插即用！

本文作者：陳淑瑜

2026-05-29 16:28

專題：CVPR 計(jì)算機(jī)視覺與模式識別會議

導(dǎo)語：ParTY：富有表現(xiàn)力的文本到動作合成的部分指南

來源：公眾號“AI縫合術(shù)”

原文鏈接：https://mp.weixin.qq.com/s/dvUEI6c9RijskB-Xe1mX_g?scene=1&click_id=52

【CVPR 2026】自-交叉注意力SCA，兼顧自身依賴與跨分支交互的增強(qiáng)特征，即插即用！

一、論文信息

論文題目：ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文題目：ParTY：富有表現(xiàn)力的文本到動作合成的部分指南論文鏈接：https://arxiv.org/pdf/2603.09611

所屬單位：慶熙大學(xué)

核心速覽：

提出ParTY框架以解決文本到動作合成中特定身體部位動作表達(dá)不足和全身動作連貫性差的問題，通過部分引導(dǎo)網(wǎng)絡(luò)、部分感知文本接地和整體-部分融合模塊提升性能。

二、即插即用模塊原理解讀

圖. 自-交叉注意力（改進(jìn)到2D，適用于圖像處理和計(jì)算機(jī)視覺任務(wù)）

1. 實(shí)現(xiàn)過程：

對輸入的多分支拼接特征執(zhí)行自注意力，建模特征內(nèi)部依賴并通過殘差連接增強(qiáng)；

再經(jīng) Split 操作，將特征分為共享查詢 Q' 與綠、紅兩個(gè)獨(dú)立分支，各分支生成鍵 Kp、值 Vp；

隨后兩個(gè)并行交叉注意力分支以 Q' 為查詢，分別與兩個(gè)分支的 Kp、Vp 計(jì)算注意力，建模跨分支交互，各分支輸出再做殘差連接；

最后融合兩個(gè)交叉注意力分支的輸出，得到兼顧自身依賴與跨分支交互的增強(qiáng)特征。

2. 作用與適用領(lǐng)域

兼顧特征內(nèi)部依賴建模與跨分支信息交互，能高效融合多模態(tài)、多尺度或多源特征，適用于圖像分割、圖像翻譯、多模態(tài)圖像生成、圖像修復(fù)等計(jì)算機(jī)視覺任務(wù)，尤其適合多源信息協(xié)同場景，提升特征判別性與魯棒性。

三、全文內(nèi)容概覽

圖3. ParTY系統(tǒng)概述。文本嵌入首先經(jīng)過基于部分感知的文本定位處理，隨后各部分Transformer為整體Transformer生成部分引導(dǎo)信息，用于生成運(yùn)動令牌；在生成過程中會應(yīng)用整體-部分融合技術(shù)。符號{Part}表示該處理過程同時(shí)應(yīng)用于手臂和腿部。

1. 研究內(nèi)容：

提出ParTY框架，旨在解決文本到運(yùn)動合成中“部分運(yùn)動表達(dá)”與“全身連貫性”的權(quán)衡問題，通過三模塊協(xié)同提升運(yùn)動生成質(zhì)量：Part-Guided Network（部分引導(dǎo)網(wǎng)絡(luò)）、Part-aware Text Grounding（部分感知文本接地）、Holistic-Part Fusion（整體-部分融合）。

2. 針對問題：

現(xiàn)有方法存在兩大局限：（1）整體生成方法缺乏部分語義對齊，無法準(zhǔn)確反映特定身體部位動作；（2）部分生成方法獨(dú)立生成各部位運(yùn)動，導(dǎo)致全身連貫性差（如頸部扭曲、肢體運(yùn)動錯(cuò)位）。

3. 關(guān)鍵技術(shù)：

1. Temporal-aware VQ-VAE：通過局部時(shí)間增強(qiáng)（LTE）和全局時(shí)間增強(qiáng)（GTE）保留運(yùn)動序列的時(shí)間信息，減少量化損失；

2. Part-aware Text Grounding：將文本嵌入通過多個(gè)MLP生成多樣化表示，結(jié)合LLM生成的部位描述作為輔助監(jiān)督，動態(tài)選擇與各部位匹配的嵌入；

3. Part-Guided Network：先生成部位運(yùn)動 tokens 作為“部分引導(dǎo)”，再通過整體-部分融合（HPF）模塊將部位信息融入整體運(yùn)動生成，確保連貫性。

圖2。時(shí)間感知型 VQ - VAE 的架構(gòu)。 VQVAE 部分采用相同的架構(gòu)，唯一區(qū)別在于處理的是局部運(yùn)動數(shù)據(jù)而非全身運(yùn)動數(shù)據(jù)。

4. 實(shí)驗(yàn)效果：

在HumanML3D和KIT-ML數(shù)據(jù)集上，ParTY在傳統(tǒng)指標(biāo)（R-Precision、FID、MM-Dist）上達(dá)到SOTA；新提出的部分級指標(biāo)（部位R-Precision、FID）和連貫級指標(biāo)（ temporal coherence, spatial coherence）顯示：相比ParCo（部分方法）和MoMask（整體方法），ParTY在部位語義對齊（如左腿弓步動作）和全身連貫性（如避免頸部扭曲）上均顯著提升。