ICML 2026：視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)，提升受損圖像理解

2026-06-16 10:48

導(dǎo)語：一張照片被壓縮、噪聲、暗光和模糊破壞后，多模態(tài)模型仍然可以寫出一段邏輯完整的分析。但分析越流暢，不代表它看到的證據(jù)越充分：車頭朝向已經(jīng)模糊，模型仍能解釋車輛為何

原文作者：公眾號(hào)“Today讀什么”

原文鏈接：https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg

一張照片被壓縮、噪聲、暗光和模糊破壞后，多模態(tài)模型仍然可以寫出一段邏輯完整的分析。但分析越流暢，不代表它看到的證據(jù)越充分：車頭朝向已經(jīng)模糊，模型仍能解釋車輛為何“直行”；公交車輪廓已經(jīng)重疊，它依然可以自信地?cái)?shù)出三輛。

過去的方法通常讓視覺編碼器適應(yīng)噪聲，或者讓模型先用文字分析圖像受到了什么破壞。Robust-U1 換了一條路線：**既然關(guān)鍵視覺信息已經(jīng)丟失，就先生成一張恢復(fù)后的圖像，再讓模型同時(shí)查看原圖與恢復(fù)圖完成回答。**方法由圖像恢復(fù)監(jiān)督訓(xùn)練、帶雙重視覺獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)，以及雙圖聯(lián)合推理組成。實(shí)驗(yàn)結(jié)果表明，性能提升并不只是來自“生成了一張更好看的圖片”，而是恢復(fù)出的視覺證據(jù)確實(shí)幫助模型回答了原本看不清的問題。

Motivation

Robust-U1 要處理的核心矛盾是：多模態(tài)模型可以繼續(xù)推理，卻無法僅憑語言補(bǔ)回已經(jīng)消失的視覺細(xì)節(jié)。

視覺魯棒性研究此前主要沿著兩條路線展開。特征對(duì)齊方法讓干凈圖像和受損圖像在視覺編碼空間中盡量接近，能夠提高預(yù)測(cè)穩(wěn)定性，卻很難解釋模型究竟恢復(fù)了什么信息。Robust-R1 這樣的工作把過程顯式化，讓模型描述壓縮、噪聲或暗光如何影響畫面，再依據(jù)描述進(jìn)行推理。

文字能夠提醒模型“這里可能看不清”，卻無法重建車輛朝向、物體數(shù)量、邊緣位置或細(xì)小文字。視覺證據(jù)已經(jīng)被破壞時(shí)，再長(zhǎng)的推理鏈也可能只是圍繞錯(cuò)誤觀察組織出一段連貫解釋。

作者由此提出一個(gè)更直接的問題：具備圖像生成能力的統(tǒng)一多模態(tài)模型，能否自己完成視覺恢復(fù)，并把恢復(fù)結(jié)果作為中間推理證據(jù)？這不是在模型前面外掛一個(gè)圖像修復(fù)器，而是讓理解、恢復(fù)和回答由同一個(gè)模型協(xié)同完成。

現(xiàn)象剖析：推理補(bǔ)不回像素

論文中的案例很好地揭示了舊路線的限制。一張嚴(yán)重壓縮且光照不足的道路圖片里，前方車輛實(shí)際向左行駛。Qwen2.5-VL 判斷車輛直行；Robust-R1 能識(shí)別暗光與壓縮問題，也能解釋這些退化會(huì)遮蔽方向信息，最終仍給出“直行”。

這里缺少的不是對(duì)退化類型的認(rèn)識(shí)，而是決定答案的視覺細(xì)節(jié)。模型知道自己看不清，卻沒有新的視覺證據(jù)可以使用。

基礎(chǔ)模型 BAGEL 已經(jīng)具備圖像生成能力，也嘗試恢復(fù)畫面，但生成結(jié)果改變了原場(chǎng)景，推理隨后被錯(cuò)誤恢復(fù)圖帶偏。這又引出第二個(gè)問題：**恢復(fù)圖本身也可能產(chǎn)生幻覺。**如果模型只查看恢復(fù)圖，修復(fù)過程新增的物體、方向或紋理會(huì)被當(dāng)成事實(shí)。

Robust-U1 因此沒有把恢復(fù)圖當(dāng)作唯一輸入。原始受損圖仍被保留，恢復(fù)圖負(fù)責(zé)補(bǔ)充結(jié)構(gòu)和語義，模型在兩份視覺證據(jù)之間完成判斷。這個(gè)設(shè)計(jì)讓恢復(fù)不再等同于“重畫一張圖”，而是成為可以被原圖約束的中間推理步驟。

核心解讀：恢復(fù)之后再理解

Robust-U1 建立在 BAGEL 之上。BAGEL 同時(shí)支持多模態(tài)理解和圖像生成，因此同一套模型既能從受損圖片生成恢復(fù)圖，也能讀取兩張圖片回答問題。

訓(xùn)練過程分成三個(gè)連續(xù)階段。

模型先在 ImageNet-C 的 75 萬組受損—干凈圖像對(duì)上進(jìn)行監(jiān)督微調(diào)。受損圖像被編碼為條件，干凈圖像進(jìn)入 rectified flow 的去噪目標(biāo)，生成模塊由此學(xué)習(xí)近似的退化逆過程。經(jīng)過這一階段，模型已經(jīng)會(huì)去除主要噪聲和模糊，但恢復(fù)結(jié)果仍容易缺少細(xì)節(jié)，或在語義上偏離原圖。

接下來的強(qiáng)化學(xué)習(xí)不直接獎(jiǎng)勵(lì)最終問答正確率，而是約束恢復(fù)圖本身。像素結(jié)構(gòu)獎(jiǎng)勵(lì)采用 SSIM，檢查局部亮度、對(duì)比度和結(jié)構(gòu)是否接近干凈圖；語義一致性獎(jiǎng)勵(lì)通過凍結(jié)的 CLIP 比較兩張圖的表示，避免畫面看起來清晰，卻把對(duì)象、顏色或場(chǎng)景恢復(fù)錯(cuò)。

這兩個(gè)獎(jiǎng)勵(lì)承擔(dān)的職責(zé)并不相同。SSIM 更關(guān)心輪廓、邊緣和局部結(jié)構(gòu)，CLIP 獎(jiǎng)勵(lì)更關(guān)心“畫面講的是不是同一件事”。只有像素約束，模型可能生成清晰但語義錯(cuò)誤的圖；只強(qiáng)調(diào)語義，又可能忽略回答計(jì)數(shù)、方向和文字問題所需的精細(xì)結(jié)構(gòu)。

恢復(fù)能力穩(wěn)定后，模型進(jìn)入雙圖推理訓(xùn)練。輸入按“受損圖—恢復(fù)圖—問題”的方式交錯(cuò)組織，并配合推理鏈與答案進(jìn)行下一詞預(yù)測(cè)。模型由此學(xué)會(huì)以恢復(fù)圖作為主要觀察，同時(shí)回看受損圖，檢查恢復(fù)過程中可能出現(xiàn)的歧義。

Robust-U1 的整體邏輯可以概括為：

先恢復(fù)可用的視覺證據(jù)，再讓原圖和恢復(fù)圖互相校驗(yàn)，最后完成語言推理。

圖表深度解讀

圖1：三種視覺魯棒性路線

ICML 2026：視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)，提升受損圖像理解

畫面描述：左側(cè)是受損圖與干凈圖的特征對(duì)齊，中間是用文字描述退化影響，右側(cè)的 Robust-U1 會(huì)直接生成恢復(fù)圖，并把它加入多模態(tài)推理。

深度解讀：這張圖劃分的不是三個(gè)實(shí)現(xiàn)模塊，而是三種不同的處理層級(jí)。特征對(duì)齊調(diào)整內(nèi)部表示，文字推理解釋損壞，視覺自恢復(fù)則嘗試重新提供任務(wù)所缺少的證據(jù)。Robust-U1 的提升來自信息層級(jí)發(fā)生了變化：模型不再只學(xué)習(xí)如何容忍受損視覺，而是主動(dòng)重建可供判斷的內(nèi)容。

圖2：三階段訓(xùn)練流程

畫面描述：生成模塊先通過監(jiān)督訓(xùn)練學(xué)習(xí)恢復(fù)，再通過 Flow-GRPO 接受像素和語義獎(jiǎng)勵(lì)，隨后理解模塊與生成模塊共同學(xué)習(xí)雙圖推理。

深度解讀：三階段沒有被合并成一個(gè)端到端目標(biāo)，是因?yàn)樗鼈兲幚淼氖遣煌L(fēng)險(xiǎn)。監(jiān)督訓(xùn)練解決“能不能恢復(fù)”，強(qiáng)化學(xué)習(xí)解決“恢復(fù)得是否可信”，聯(lián)合推理解決“模型會(huì)不會(huì)使用恢復(fù)結(jié)果”。直接訓(xùn)練問答，模型可能繞過恢復(fù)分支；只訓(xùn)練恢復(fù)，又不能保證恢復(fù)內(nèi)容對(duì)下游問題有用。

圖3：恢復(fù)質(zhì)量的逐步變化

畫面描述：圖中依次展示受損輸入、原始 BAGEL、監(jiān)督微調(diào)、單獨(dú)使用像素獎(jiǎng)勵(lì)、單獨(dú)使用語義獎(jiǎng)勵(lì)、完整模型和干凈真值。

深度解讀：監(jiān)督微調(diào)已經(jīng)能去掉大量退化，但畫面細(xì)節(jié)仍然松散；像素獎(jiǎng)勵(lì)強(qiáng)化邊緣和局部結(jié)構(gòu)，語義獎(jiǎng)勵(lì)改善紋理與內(nèi)容一致性，完整模型在兩者之間取得較穩(wěn)定的平衡。表 5 也對(duì)應(yīng)這一變化：PSNR 從 BAGEL 的 14.37 提高到 21.49，SSIM 從 0.4722 提高到 0.6314，LPIPS 從 0.5092 降至 0.3223。

實(shí)驗(yàn)結(jié)果說明了什么？

R-Bench 同時(shí)包含選擇題、開放式視覺問答和圖像描述，并按照退化程度分為低、中、高三個(gè)等級(jí)。Robust-U1 的綜合得分為 0.7398，明顯高于基礎(chǔ)模型 BAGEL 的 0.5770，以及文本推理方法 Robust-R1 的 0.5017。圖像描述任務(wù)上的差距尤其明顯，說明恢復(fù)圖提供的不只是分類線索，也補(bǔ)充了場(chǎng)景級(jí)內(nèi)容。

在 MMMB、MMStar 和 RealWorldQA 的人工退化實(shí)驗(yàn)中，優(yōu)勢(shì)隨著破壞程度增加仍然存在。MMMB 從干凈圖到 100% 退化時(shí)，Robust-U1 只下降 1.57 分；BAGEL 下降 3.44 分，Robust-R1 下降 6.06 分。

消融結(jié)果把性能來源拆得更清楚。取消雙圖推理后，R-Bench 綜合分從 0.7398 降至 0.6623，說明恢復(fù)圖必須真正進(jìn)入推理過程。移除像素獎(jiǎng)勵(lì)或語義獎(jiǎng)勵(lì)，得分分別降到 0.7257 和 0.7236；高強(qiáng)度退化下，缺少語義獎(jiǎng)勵(lì)的損失更明顯，因?yàn)槟Ｐ透菀咨赏庥^合理、內(nèi)容錯(cuò)誤的恢復(fù)圖。

外接圖像修復(fù)器也沒有得到同樣效果。由專用恢復(fù)模型預(yù)處理、再交給 Qwen2.5-VL-7B 的方案，最高綜合分只有 0.5511。修復(fù)模型通常針對(duì)單一退化類型優(yōu)化，而且追求感知質(zhì)量，不一定保留問答所需的視覺證據(jù)。

為什么這篇工作值得關(guān)注？

Robust-U1 把多模態(tài)推理的中間過程從純文本擴(kuò)展到了視覺空間。過去的思路是讓模型對(duì)著壞圖“想得更仔細(xì)”，現(xiàn)在則允許模型先生成一份可以檢查的視覺假設(shè)，再依據(jù)原圖和恢復(fù)圖回答。

這種方式對(duì)暗光駕駛、遙感、監(jiān)控和醫(yī)學(xué)影像很有吸引力，因?yàn)檫@些任務(wù)的錯(cuò)誤經(jīng)常來自感知信息缺失，而不是語言推理不足?；謴?fù)圖還提供了一種可觀察的中間結(jié)果：系統(tǒng)可以直接查看模型依據(jù)了什么視覺內(nèi)容，而不是只能分析隱藏特征。

邊界也很清楚?；謴?fù)不是找回被物理刪除的信息，而是依據(jù)訓(xùn)練分布進(jìn)行估計(jì)，仍有生成錯(cuò)誤的可能。論文報(bào)告恢復(fù)前后答案一致率為 92.3%，說明語義獎(jiǎng)勵(lì)壓低了幻覺風(fēng)險(xiǎn)，卻沒有消除它。訓(xùn)練成本同樣不低，僅恢復(fù)監(jiān)督階段就使用了 1920 個(gè) L20 GPU 小時(shí)；推理時(shí)額外生成圖像，也會(huì)增加延遲。

此外，完整訓(xùn)練依賴成對(duì)的受損—干凈圖片。無干凈參考的語義獎(jiǎng)勵(lì)能夠改善結(jié)果，但綜合分只有 0.6233，仍明顯低于完整方法。當(dāng)前實(shí)驗(yàn)集中在靜態(tài)圖片，視頻中的時(shí)間一致性、未知真實(shí)退化和高風(fēng)險(xiǎn)場(chǎng)景下的錯(cuò)誤校準(zhǔn)仍需繼續(xù)驗(yàn)證。

研究脈絡(luò)：從抵抗退化到恢復(fù)證據(jù)

1. TeCoA

2023｜視覺語言魯棒對(duì)齊

通過對(duì)抗訓(xùn)練使干凈與擾動(dòng)圖像的視覺表示更接近，改善局部攻擊下的穩(wěn)定性。

2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?

2024｜IEEE JSTSP

系統(tǒng)評(píng)測(cè)噪聲、壓縮、暗光等真實(shí)退化對(duì)多模態(tài)模型的影響，讓視覺退化成為獨(dú)立的評(píng)測(cè)問題。

3. Robust CLIP

2024｜視覺編碼器魯棒化

在 CLIP 表示層提高對(duì)擾動(dòng)的抵抗能力，但恢復(fù)過程仍然隱藏在特征空間中。

4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs

2025｜ICCV Workshops

將魯棒視覺編碼器接入多模態(tài)模型，研究視覺前端的抗擾動(dòng)能力能否傳遞到語言理解。

5. Thinking with Generated Images

2025｜視覺輔助推理

開始讓模型生成輔助圖像參與思考，視覺內(nèi)容從輸入模態(tài)變成了中間推理載體。

6. Robust-R1

2026｜文本化退化推理

顯式識(shí)別退化類型及其語義影響，提高可解釋性，但中間過程仍然無法補(bǔ)充像素證據(jù)。

7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

2026｜ICML

把圖像恢復(fù)納入統(tǒng)一多模態(tài)模型的推理鏈，用像素—語義雙獎(jiǎng)勵(lì)約束恢復(fù)結(jié)果，再聯(lián)合原圖完成判斷。

總結(jié)一下

Robust-U1 不是把傳統(tǒng)圖像修復(fù)模型接到多模態(tài)模型前面。它重新安排了受損視覺理解的順序：當(dāng)輸入證據(jù)不足時(shí)，模型先生成恢復(fù)圖，再把恢復(fù)結(jié)果與原始輸入共同納入推理。

實(shí)驗(yàn)支持了這條路線，但也提醒我們，生成出來的清晰畫面并不自動(dòng)等于可靠證據(jù)。像素結(jié)構(gòu)、語義一致性和原圖校驗(yàn)缺少任何一項(xiàng)，恢復(fù)過程都可能把模型從“看不清”帶到“看錯(cuò)了”。

它提出的是一個(gè)方向性變化：多模態(tài)模型面對(duì)受損輸入時(shí)，不必永遠(yuǎn)被動(dòng)適應(yīng)，也可以主動(dòng)重建視覺證據(jù)；而這份證據(jù)必須接受約束和交叉檢查，才能進(jìn)入最終判斷。

? 論文題目：Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章

專題

ICML：國(guó)際機(jī)器學(xué)習(xí)會(huì)議

本專題其他文章

吳思?jí)?/span>

編輯

發(fā)私信

當(dāng)月熱門文章

ICML 2026：視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)，提升受損圖像理解