0
| 本文作者: 陳淑瑜 | 2026-06-15 14:53 | 專題:ICML:國際機器學習會議 |
原文鏈接:https://mp.weixin.qq.com/s/fNmWtYp3C63b8p1wmqtShw?scene=1&click_id=27
雨雪、霧霾、鏡頭噪點、壓縮失真、夜間弱光……
現實里拍到的照片,幾乎沒有一張是絕對“干凈”的。
可偏偏就是這種再正常不過的真實畫面,一旦交給多模態大模型,其表現往往會大幅下滑——
原本答得對的問題,畫面一糊就開始答錯。

學術界過去主要從“防御”的角度解決這個問題,但兩條主流路線都更像“打補丁”:
一種是在模型內部“悄悄”把臟圖和干凈圖的特征對齊。
有點效果,但它是個黑盒,說不清模型到底學到了什么,也沒真正建模“圖像是怎么被破壞的”。
另一種是讓模型先用一段文字描述“這張圖被什么破壞了、會有什么影響”,再去回答。
思路講清楚了,可文字寫得再細,也補不回畫面里已經丟掉的像素細節。
來自香港科技大學的研究團隊,提出了一個更本質的問題:
多模態大模型,能不能不靠外部工具,自己把損壞的畫面“復原”出來?

這個問題之所以成立,是因為如今很多多模態大模型是“既會看圖、又會畫圖”的統一模型——
它在海量圖像上學到的生成能力,本身就隱含了一份“干凈世界長什么樣”的先驗知識。
既然如此,為什么不讓模型調用這份先驗,把被破壞的像素“反推”回來,再基于復原圖去理解?
順著這個思路,團隊提出了Robust-U1,論文已被機器學習頂會ICML 2026接收。
它的核心不是再加一層“防御外掛”,而是把魯棒性變成模型的一種內生能力:
先用自己的生成先驗復原損壞像素,再“看著復原圖 + 原始臟圖”一起推理作答。
我們先用一張圖,看清三種思路的根本區別:

前兩種思路有一個共同的天花板:它們都在繞開損壞,而不去還原損壞。
可對“這輛車朝哪開”“畫面里有幾個紅燈”這類問題來說,答案恰恰藏在那些被噪聲、模糊吃掉的像素里——
繞過去,就等于把關鍵證據扔了。
Robust-U1的不同之處,是把魯棒性的來源換了個根兒:
不再向外部求助(額外的對抗訓練、外接修復模型),而是向模型自身的生成先驗求助,讓它把丟失的視覺信息重新“畫”回來。
這是一種更內生、也更可解釋的魯棒性。
一個自然的質疑是:要修圖,為什么不直接在大模型前面接一個現成的、專業的圖像修復模型(去噪、去模糊、去霧……)當“預處理”?
團隊真的做了這組對比:
把四個SOTA級外接修復模型分別接在一個強力多模態大模型前面。
結果是,最好的外接方案綜合得分只有0.55,而Robust-U1是0.74。
原因很深刻,可以歸為兩條:
Robust-U1把“修復”和“理解”放進同一個模型里聯合訓練,于是修復這件事會被“下游要答對題”這個目標反向塑造——模型學會的是面向任務的修復,而不是單純的“美顏”。
這正是它能贏過“外接修復+理解”流水線的根本原因。
Robust-U1選了一個既會看圖、又會畫圖的統一大模型BAGEL當底座(這點是前提,要修圖,模型本身得有“畫”出圖像的能力)。
然后用三步把這份通用生成能力,特化成專門的“損壞復原”本領:

團隊準備了大量“臟圖 ? 對應干凈圖” 的配對數據,讓模型照著學:
給它一張臟圖和一句指令(“把這張損壞的圖恢復成干凈版本”),它就得生成出對應的干凈圖。
這個過程和當下流行的AI繪畫很像——從一團噪點出發,一步步“畫”出清晰圖像。
練完之后,模型通用的“畫圖”能力,就被打磨成了一項專門的“按損壞反推干凈像素”的本領。
第一步修出來的圖常常還差點意思。
于是團隊再用強化學習讓模型“邊修邊打分、反復調優”,而且同時用兩把尺子打分:

兩把尺子缺一不可:只看“像不像”,可能修得清晰卻悄悄改了內容;只看“對不對”,又可能內容沒錯但畫面發糊。
兩者一起管,才能既清楚、又忠實——
這也是“面向任務的修復”落到實處的關鍵。
最后,模型回答問題時會同時拿到兩張圖(原始臟圖,和它自己修好的清晰圖),再給出帶推理過程的答案。
好處是:模型主要看清晰的復原圖來理解畫面,遇到拿不準的地方,還能回頭看一眼原始臟圖核對,相當于手里同時握著“復原照片”和“原始證據”兩份材料,判斷自然更穩。
R-Bench是專門測“圖片被污染后模型還準不準”的基準。
看最關鍵的三組對比(滿分1.0):

在MMMB測試中,把圖從“干凈”逐步破壞到“重度損壞”:
Robust-U1的優勢不是“某項特別高”,而是圖越爛越穩——
因為它先把輸入拉回了模型熟悉的“干凈”樣子。

從左到右:臟圖、BAGEL、只做第一步訓練、Robust-U1、真實原圖。
BAGEL還殘留大量噪聲和彩色條紋,而Robust-U1在多個場景里都更接近真實畫面。
下面這個問答案例更說明問題(問題:前方車輛往哪邊開,正確答案“左”):

普通方法被糊圖帶偏答“直行”,連基座BAGEL都修出了一張錯的圖;而Robust-U1先把車頭朝向修清楚,再答對了“左”。
像素修對了,回答才靠得住。
下面幾條,才是這篇工作真正“深”的地方——
團隊同時追蹤了“圖像清晰度指標(PSNR)”和“問答成績”,發現兩者并不同步:
這說明:把圖修得“數值上更干凈”遠遠不夠,只有修在“對回答問題有用的地方”,修復才真正幫到理解。
這條結論,正好解釋了第二節“為什么自己修比外接修復更強”——
勝負手不在“好看”,而在“是否面向任務”。
會不會成績提升只是因為訓練時多用了數據?
團隊把兩塊拆開單獨驗證:
主力確實是“像素自恢復”這項能力本身,而且它和推理還能1+1>2。

“數公交車”的例子(正確答案 2 輛):只靠文字推理,模型在糊圖里數成了3輛;而Robust-U1先把圖修清楚、再對著兩張圖數,準確數出2輛。
去掉“看復原圖”這一步,整體成績會明顯下滑——
這也印證了“像素層面的證據”不可替代。
Robust-U1真正提出的,其實不只是一個更強的“抗損壞模型”,而是一種看待魯棒性的新視角:
把“看清→修復→推理”閉合成一個回路,讓模型在理解之前,先用自身的生成先驗主動復原被破壞的世界。
相比“對齊特征”“文字描述”這類外加的防御,“用生成能力自我復原”是一種更內生、也更通用的魯棒性來源:
它不依賴于事先知道“是哪種損壞”,也不止步于“描述損壞”,而是真正把丟失的視覺信息補回來。
對自動駕駛、醫學影像等對畫面質量極其敏感的安全攸關場景,這種“先復原、再決策”的范式尤其有價值。
代碼(GitHub):https://github.com/jqtangust/Robust-U1
論文:https://arxiv.org/abs/2606.08063