0
| 本文作者: 陳淑瑜 | 2026-05-29 16:28 | 專題:CVPR 計(jì)算機(jī)視覺與模式識別會議 |



一、論文信息

論文題目:ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文題目:ParTY:富有表現(xiàn)力的文本到動作合成的部分指南論文鏈接:https://arxiv.org/pdf/2603.09611
所屬單位:慶熙大學(xué)
核心速覽:
提出ParTY框架以解決文本到動作合成中特定身體部位動作表達(dá)不足和全身動作連貫性差的問題,通過部分引導(dǎo)網(wǎng)絡(luò)、部分感知文本接地和整體-部分融合模塊提升性能。

二、即插即用模塊原理解讀


1. 實(shí)現(xiàn)過程:
對輸入的多分支拼接特征執(zhí)行自注意力,建模特征內(nèi)部依賴并通過殘差連接增強(qiáng);
再經(jīng) Split 操作,將特征分為共享查詢 Q' 與綠、紅兩個(gè)獨(dú)立分支,各分支生成鍵 Kp、值 Vp;
隨后兩個(gè)并行交叉注意力分支以 Q' 為查詢,分別與兩個(gè)分支的 Kp、Vp 計(jì)算注意力,建模跨分支交互,各分支輸出再做殘差連接;
最后融合兩個(gè)交叉注意力分支的輸出,得到兼顧自身依賴與跨分支交互的增強(qiáng)特征。
2. 作用與適用領(lǐng)域
兼顧特征內(nèi)部依賴建模與跨分支信息交互,能高效融合多模態(tài)、多尺度或多源特征,適用于圖像分割、圖像翻譯、多模態(tài)圖像生成、圖像修復(fù)等計(jì)算機(jī)視覺任務(wù),尤其適合多源信息協(xié)同場景,提升特征判別性與魯棒性。

三、全文內(nèi)容概覽


1. 研究內(nèi)容:
提出ParTY框架,旨在解決文本到運(yùn)動合成中“部分運(yùn)動表達(dá)”與“全身連貫性”的權(quán)衡問題,通過三模塊協(xié)同提升運(yùn)動生成質(zhì)量:Part-Guided Network(部分引導(dǎo)網(wǎng)絡(luò))、Part-aware Text Grounding(部分感知文本接地)、Holistic-Part Fusion(整體-部分融合)。
2. 針對問題:
現(xiàn)有方法存在兩大局限:(1)整體生成方法缺乏部分語義對齊,無法準(zhǔn)確反映特定身體部位動作;(2)部分生成方法獨(dú)立生成各部位運(yùn)動,導(dǎo)致全身連貫性差(如頸部扭曲、肢體運(yùn)動錯(cuò)位)。
3. 關(guān)鍵技術(shù):
1. Temporal-aware VQ-VAE:通過局部時(shí)間增強(qiáng)(LTE)和全局時(shí)間增強(qiáng)(GTE)保留運(yùn)動序列的時(shí)間信息,減少量化損失;
2. Part-aware Text Grounding:將文本嵌入通過多個(gè)MLP生成多樣化表示,結(jié)合LLM生成的部位描述作為輔助監(jiān)督,動態(tài)選擇與各部位匹配的嵌入;
3. Part-Guided Network:先生成部位運(yùn)動 tokens 作為“部分引導(dǎo)”,再通過整體-部分融合(HPF)模塊將部位信息融入整體運(yùn)動生成,確保連貫性。

4. 實(shí)驗(yàn)效果:
在HumanML3D和KIT-ML數(shù)據(jù)集上,ParTY在傳統(tǒng)指標(biāo)(R-Precision、FID、MM-Dist)上達(dá)到SOTA;新提出的部分級指標(biāo)(部位R-Precision、FID)和連貫級指標(biāo)( temporal coherence, spatial coherence)顯示:相比ParCo(部分方法)和MoMask(整體方法),ParTY在部位語義對齊(如左腿弓步動作)和全身連貫性(如避免頸部扭曲)上均顯著提升。


5. 結(jié)論:
ParTY通過顯式部位語義對齊和動態(tài)融合機(jī)制,成功平衡了部分運(yùn)動表達(dá)與全身連貫性,提出的評估指標(biāo)為文本到運(yùn)動合成提供了更全面的評價(jià)體系,推動該領(lǐng)域從“整體生成”向“精細(xì)化部位控制”發(fā)展
本專題其他文章