看不清就亂答？多模態大模型的這個毛病終于有解了 | ICML 2026

本文作者：陳淑瑜

2026-06-15 14:53

專題：ICML：國際機器學習會議

導語：多模態大模型，能不能不靠外部工具，自己把損壞的畫面“復原”出來？

來源：公眾號“量子位”

原文鏈接：https://mp.weixin.qq.com/s/fNmWtYp3C63b8p1wmqtShw?scene=1&click_id=27

雨雪、霧霾、鏡頭噪點、壓縮失真、夜間弱光……

現實里拍到的照片，幾乎沒有一張是絕對“干凈”的。

可偏偏就是這種再正常不過的真實畫面，一旦交給多模態大模型，其表現往往會大幅下滑——

原本答得對的問題，畫面一糊就開始答錯。

學術界過去主要從“防御”的角度解決這個問題，但兩條主流路線都更像“打補丁”：

一種是在模型內部“悄悄”把臟圖和干凈圖的特征對齊。

有點效果，但它是個黑盒，說不清模型到底學到了什么，也沒真正建模“圖像是怎么被破壞的”。

另一種是讓模型先用一段文字描述“這張圖被什么破壞了、會有什么影響”，再去回答。

思路講清楚了，可文字寫得再細，也補不回畫面里已經丟掉的像素細節。

來自香港科技大學的研究團隊，提出了一個更本質的問題：

多模態大模型，能不能不靠外部工具，自己把損壞的畫面“復原”出來？

這個問題之所以成立，是因為如今很多多模態大模型是“既會看圖、又會畫圖”的統一模型——

它在海量圖像上學到的生成能力，本身就隱含了一份“干凈世界長什么樣”的先驗知識。

既然如此，為什么不讓模型調用這份先驗，把被破壞的像素“反推”回來，再基于復原圖去理解？

順著這個思路，團隊提出了Robust-U1，論文已被機器學習頂會ICML 2026接收。

它的核心不是再加一層“防御外掛”，而是把魯棒性變成模型的一種內生能力：

先用自己的生成先驗復原損壞像素，再“看著復原圖 + 原始臟圖”一起推理作答。

一個更本質的問題：讓大模型自己“復原”，而不是替它“防御”

我們先用一張圖，看清三種思路的根本區別：

(A) 特征對齊：在模型內部把臟圖、干凈圖的特征拉近。黑盒、不可解釋，本質是“硬扛”損壞。
(B) 文字推理：讓模型先用文字說清楚“圖被怎么破壞了”。可解釋了，但文字救不回丟失的像素。
(C) Robust-U1（視覺自恢復）：直接把臟圖重建成干凈圖，再同時對著“臟圖+復原圖”推理。

前兩種思路有一個共同的天花板：它們都在繞開損壞，而不去還原損壞。

可對“這輛車朝哪開”“畫面里有幾個紅燈”這類問題來說，答案恰恰藏在那些被噪聲、模糊吃掉的像素里——

繞過去，就等于把關鍵證據扔了。

Robust-U1的不同之處，是把魯棒性的來源換了個根兒：

不再向外部求助（額外的對抗訓練、外接修復模型），而是向模型自身的生成先驗求助，讓它把丟失的視覺信息重新“畫”回來。

這是一種更內生、也更可解釋的魯棒性。

原理：為什么“自己修”比“外接修復模塊”更對路？

一個自然的質疑是：要修圖，為什么不直接在大模型前面接一個現成的、專業的圖像修復模型（去噪、去模糊、去霧……）當“預處理”？

團隊真的做了這組對比：

把四個SOTA級外接修復模型分別接在一個強力多模態大模型前面。

結果是，最好的外接方案綜合得分只有0.55，而Robust-U1是0.74。

原因很深刻，可以歸為兩條：

外接修復模型是為“好看”優化的，不是為“答題”優化的。它們的目標是讓圖像在人眼/指標上更清晰，但“更清晰”未必保留了模型回答問題真正需要的語義線索。
專業修復模型往往要先知道“是哪種損壞”，面對未知或混合損壞容易失靈；而現實世界的損壞常常是多種疊加的。

Robust-U1把“修復”和“理解”放進同一個模型里聯合訓練，于是修復這件事會被“下游要答對題”這個目標反向塑造——模型學會的是面向任務的修復，而不是單純的“美顏”。

這正是它能贏過“外接修復+理解”流水線的根本原因。

方法：分三步，把“像素修復能力”長進模型里

Robust-U1選了一個既會看圖、又會畫圖的統一大模型BAGEL當底座（這點是前提，要修圖，模型本身得有“畫”出圖像的能力）。

然后用三步把這份通用生成能力，特化成專門的“損壞復原”本領：

第一步：先學會“把臟圖變干凈”

團隊準備了大量“臟圖 ? 對應干凈圖” 的配對數據，讓模型照著學：

給它一張臟圖和一句指令（“把這張損壞的圖恢復成干凈版本”），它就得生成出對應的干凈圖。

這個過程和當下流行的AI繪畫很像——從一團噪點出發，一步步“畫”出清晰圖像。

練完之后，模型通用的“畫圖”能力，就被打磨成了一項專門的“按損壞反推干凈像素”的本領。

第二步：用兩把“尺子”把圖修得更準

第一步修出來的圖常常還差點意思。

于是團隊再用強化學習讓模型“邊修邊打分、反復調優”，而且同時用兩把尺子打分：

一把尺子看“像不像”：復原圖在明暗、對比、紋理結構上和原圖貼不貼合（用經典圖像相似度指標SSIM）。
另一把尺子看“對不對”：復原圖的內容和原圖說的是不是同一回事（借助CLIP這類“看圖識意”的模型判斷）。

兩把尺子缺一不可：只看“像不像”，可能修得清晰卻悄悄改了內容；只看“對不對”，又可能內容沒錯但畫面發糊。

兩者一起管，才能既清楚、又忠實——

這也是“面向任務的修復”落到實處的關鍵。

第三步：對著“臟圖+復原圖”一起回答

最后，模型回答問題時會同時拿到兩張圖（原始臟圖，和它自己修好的清晰圖），再給出帶推理過程的答案。

好處是：模型主要看清晰的復原圖來理解畫面，遇到拿不準的地方，還能回頭看一眼原始臟圖核對，相當于手里同時握著“復原照片”和“原始證據”兩份材料，判斷自然更穩。

結果：不僅更準，還揭示了幾條“反直覺”的原理

1）真實損壞場景：明顯領先

R-Bench是專門測“圖片被污染后模型還準不準”的基準。

看最關鍵的三組對比（滿分1.0）：

2）抗重度干擾：準確率掉得最少

在MMMB測試中，把圖從“干凈”逐步破壞到“重度損壞”：

Robust-U1：84.75→83.18（只掉1.57個點）
BAGEL：81.92→78.48（掉3.44）
Robust-R1：81.41→75.35（掉6.06）

Robust-U1的優勢不是“某項特別高”，而是圖越爛越穩——

因為它先把輸入拉回了模型熟悉的“干凈”樣子。

3）修出來的圖，肉眼可見地更接近真實

從左到右：臟圖、BAGEL、只做第一步訓練、Robust-U1、真實原圖。

BAGEL還殘留大量噪聲和彩色條紋，而Robust-U1在多個場景里都更接近真實畫面。

下面這個問答案例更說明問題（問題：前方車輛往哪邊開，正確答案“左”）：

普通方法被糊圖帶偏答“直行”，連基座BAGEL都修出了一張錯的圖；而Robust-U1先把車頭朝向修清楚，再答對了“左”。

像素修對了，回答才靠得住。

下面幾條，才是這篇工作真正“深”的地方——

反直覺一：“修得好看” ≠ “看得更準”

團隊同時追蹤了“圖像清晰度指標（PSNR）”和“問答成績”，發現兩者并不同步：

第一步訓練把清晰度大幅拉高（PSNR+6.5 dB），問答成績卻幾乎沒動；
第二步強化學習幾乎沒再提高清晰度，問答成績卻大幅跳升。

這說明：把圖修得“數值上更干凈”遠遠不夠，只有修在“對回答問題有用的地方”，修復才真正幫到理解。

這條結論，正好解釋了第二節“為什么自己修比外接修復更強”——

勝負手不在“好看”，而在“是否面向任務”。

反直覺二：真正立功的是“修圖”，不是“多喂了數據”

會不會成績提升只是因為訓練時多用了數據？

團隊把兩塊拆開單獨驗證：

只加文字推理：0.58→0.62；
只加“自己修圖”：0.58→0.66（提升明顯更大）；
兩者一起：0.74。

主力確實是“像素自恢復”這項能力本身，而且它和推理還能1+1>2。

反直覺三：讓模型“看著復原圖”推理，是必須的

“數公交車”的例子（正確答案 2 輛）：只靠文字推理，模型在糊圖里數成了3輛；而Robust-U1先把圖修清楚、再對著兩張圖數，準確數出2輛。

去掉“看復原圖”這一步，整體成績會明顯下滑——

這也印證了“像素層面的證據”不可替代。

更深一層：這意味著什么

Robust-U1真正提出的，其實不只是一個更強的“抗損壞模型”，而是一種看待魯棒性的新視角：

把“看清→修復→推理”閉合成一個回路，讓模型在理解之前，先用自身的生成先驗主動復原被破壞的世界。

相比“對齊特征”“文字描述”這類外加的防御，“用生成能力自我復原”是一種更內生、也更通用的魯棒性來源：

它不依賴于事先知道“是哪種損壞”，也不止步于“描述損壞”，而是真正把丟失的視覺信息補回來。

對自動駕駛、醫學影像等對畫面質量極其敏感的安全攸關場景，這種“先復原、再決策”的范式尤其有價值。

代碼（GitHub）：https://github.com/jqtangust/Robust-U1
論文：https://arxiv.org/abs/2606.08063

0人收藏

專題

ICML：國際機器學習會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章