• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    機器人 正文
    發私信給陳淑瑜
    發送

    0

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    本文作者: 陳淑瑜   2026-06-15 14:53 專題:ICML:國際機器學習會議
    導語:多模態大模型,能不能不靠外部工具,自己把損壞的畫面“復原”出來?
    來源:公眾號“量子位”

    原文鏈接:https://mp.weixin.qq.com/s/fNmWtYp3C63b8p1wmqtShw?scene=1&click_id=27

    雨雪、霧霾、鏡頭噪點、壓縮失真、夜間弱光……

    現實里拍到的照片,幾乎沒有一張是絕對“干凈”的。

    可偏偏就是這種再正常不過的真實畫面,一旦交給多模態大模型,其表現往往會大幅下滑——

    原本答得對的問題,畫面一糊就開始答錯

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    學術界過去主要從“防御”的角度解決這個問題,但兩條主流路線都更像“打補丁”:

    一種是在模型內部“悄悄”把臟圖和干凈圖的特征對齊。

    有點效果,但它是個黑盒,說不清模型到底學到了什么,也沒真正建模“圖像是怎么被破壞的”。

    另一種是讓模型先用一段文字描述“這張圖被什么破壞了、會有什么影響”,再去回答。

    思路講清楚了,可文字寫得再細,也補不回畫面里已經丟掉的像素細節。

    來自香港科技大學的研究團隊,提出了一個更本質的問題:

    多模態大模型,能不能不靠外部工具,自己把損壞的畫面“復原”出來?

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    這個問題之所以成立,是因為如今很多多模態大模型是“既會看圖、又會畫圖”的統一模型——

    它在海量圖像上學到的生成能力,本身就隱含了一份“干凈世界長什么樣”的先驗知識。

    既然如此,為什么不讓模型調用這份先驗,把被破壞的像素“反推”回來,再基于復原圖去理解?

    順著這個思路,團隊提出了Robust-U1,論文已被機器學習頂會ICML 2026接收。

    它的核心不是再加一層“防御外掛”,而是把魯棒性變成模型的一種內生能力

    先用自己的生成先驗復原損壞像素,再“看著復原圖 + 原始臟圖”一起推理作答。

    一個更本質的問題:讓大模型自己“復原”,而不是替它“防御”

    我們先用一張圖,看清三種思路的根本區別:

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026
    • (A) 特征對齊:在模型內部把臟圖、干凈圖的特征拉近。黑盒、不可解釋,本質是“硬扛”損壞。
    • (B) 文字推理:讓模型先用文字說清楚“圖被怎么破壞了”。可解釋了,但文字救不回丟失的像素
    • (C) Robust-U1(視覺自恢復):直接把臟圖重建成干凈圖,同時對著“臟圖+復原圖”推理

    前兩種思路有一個共同的天花板:它們都在繞開損壞,而不去還原損壞

    可對“這輛車朝哪開”“畫面里有幾個紅燈”這類問題來說,答案恰恰藏在那些被噪聲、模糊吃掉的像素里——

    繞過去,就等于把關鍵證據扔了。

    Robust-U1的不同之處,是把魯棒性的來源換了個根兒:

    不再向外部求助(額外的對抗訓練、外接修復模型),而是向模型自身的生成先驗求助,讓它把丟失的視覺信息重新“畫”回來。

    這是一種更內生、也更可解釋的魯棒性。

    原理:為什么“自己修”比“外接修復模塊”更對路?

    一個自然的質疑是:要修圖,為什么不直接在大模型前面接一個現成的、專業的圖像修復模型(去噪、去模糊、去霧……)當“預處理”?

    團隊真的做了這組對比:

    把四個SOTA級外接修復模型分別接在一個強力多模態大模型前面。

    結果是,最好的外接方案綜合得分只有0.55,而Robust-U1是0.74

    原因很深刻,可以歸為兩條:

    • 外接修復模型是為“好看”優化的,不是為“答題”優化的。它們的目標是讓圖像在人眼/指標上更清晰,但“更清晰”未必保留了模型回答問題真正需要的語義線索。
    • 專業修復模型往往要先知道“是哪種損壞”,面對未知或混合損壞容易失靈;而現實世界的損壞常常是多種疊加的。

    Robust-U1把“修復”和“理解”放進同一個模型里聯合訓練,于是修復這件事會被“下游要答對題”這個目標反向塑造——模型學會的是面向任務的修復,而不是單純的“美顏”。

    這正是它能贏過“外接修復+理解”流水線的根本原因。

    方法:分三步,把“像素修復能力”長進模型里

    Robust-U1選了一個既會看圖、又會畫圖的統一大模型BAGEL當底座(這點是前提,要修圖,模型本身得有“畫”出圖像的能力)

    然后用三步把這份通用生成能力,特化成專門的“損壞復原”本領:

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    第一步:先學會“把臟圖變干凈”

    團隊準備了大量“臟圖 ? 對應干凈圖” 的配對數據,讓模型照著學:

    給它一張臟圖和一句指令(“把這張損壞的圖恢復成干凈版本”),它就得生成出對應的干凈圖。

    這個過程和當下流行的AI繪畫很像——從一團噪點出發,一步步“畫”出清晰圖像。

    練完之后,模型通用的“畫圖”能力,就被打磨成了一項專門的“按損壞反推干凈像素”的本領。

    第二步:用兩把“尺子”把圖修得更準

    第一步修出來的圖常常還差點意思。

    于是團隊再用強化學習讓模型“邊修邊打分、反復調優”,而且同時用兩把尺子打分:

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026
    • 一把尺子看“像不像”:復原圖在明暗、對比、紋理結構上和原圖貼不貼合(用經典圖像相似度指標SSIM)
    • 另一把尺子看“對不對”:復原圖的內容和原圖說的是不是同一回事(借助CLIP這類“看圖識意”的模型判斷)

    兩把尺子缺一不可:只看“像不像”,可能修得清晰卻悄悄改了內容;只看“對不對”,又可能內容沒錯但畫面發糊。

    兩者一起管,才能既清楚、又忠實——

    這也是“面向任務的修復”落到實處的關鍵。

    第三步:對著“臟圖+復原圖”一起回答

    最后,模型回答問題時會同時拿到兩張圖(原始臟圖,和它自己修好的清晰圖),再給出帶推理過程的答案。

    好處是:模型主要看清晰的復原圖來理解畫面,遇到拿不準的地方,還能回頭看一眼原始臟圖核對,相當于手里同時握著“復原照片”和“原始證據”兩份材料,判斷自然更穩。

    結果:不僅更準,還揭示了幾條“反直覺”的原理

    1)真實損壞場景:明顯領先

    R-Bench是專門測“圖片被污染后模型還準不準”的基準。

    看最關鍵的三組對比(滿分1.0)

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    2)抗重度干擾:準確率掉得最少

    在MMMB測試中,把圖從“干凈”逐步破壞到“重度損壞”:

    • Robust-U1:84.75→83.18(只掉1.57個點)
    • BAGEL:81.92→78.48(掉3.44)
    • Robust-R1:81.41→75.35(掉6.06)

    Robust-U1的優勢不是“某項特別高”,而是圖越爛越穩——

    因為它先把輸入拉回了模型熟悉的“干凈”樣子。

    3)修出來的圖,肉眼可見地更接近真實

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    從左到右:臟圖、BAGEL、只做第一步訓練、Robust-U1、真實原圖。

    BAGEL還殘留大量噪聲和彩色條紋,而Robust-U1在多個場景里都更接近真實畫面。

    下面這個問答案例更說明問題(問題:前方車輛往哪邊開,正確答案“左”)

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    普通方法被糊圖帶偏答“直行”,連基座BAGEL都修出了一張錯的圖;而Robust-U1先把車頭朝向修清楚,再答對了“左”。

    像素修對了,回答才靠得住。

    下面幾條,才是這篇工作真正“深”的地方——

    反直覺一:“修得好看” ≠ “看得更準”

    團隊同時追蹤了“圖像清晰度指標(PSNR)”和“問答成績”,發現兩者并不同步:

    • 第一步訓練把清晰度大幅拉高(PSNR+6.5 dB),問答成績卻幾乎沒動;
    • 第二步強化學習幾乎沒再提高清晰度,問答成績卻大幅跳升。

    這說明:把圖修得“數值上更干凈”遠遠不夠,只有修在“對回答問題有用的地方”,修復才真正幫到理解

    這條結論,正好解釋了第二節“為什么自己修比外接修復更強”——

    勝負手不在“好看”,而在“是否面向任務”。

    反直覺二:真正立功的是“修圖”,不是“多喂了數據”

    會不會成績提升只是因為訓練時多用了數據?

    團隊把兩塊拆開單獨驗證:

    • 只加文字推理:0.58→0.62;
    • 只加“自己修圖”:0.58→0.66(提升明顯更大)
    • 兩者一起:0.74。

    主力確實是“像素自恢復”這項能力本身,而且它和推理還能1+1>2。

    反直覺三:讓模型“看著復原圖”推理,是必須的

    看不清就亂答?多模態大模型的這個毛病終于有解了 | ICML 2026

    “數公交車”的例子(正確答案 2 輛):只靠文字推理,模型在糊圖里數成了3輛;而Robust-U1先把圖修清楚、再對著兩張圖數,準確數出2輛。

    去掉“看復原圖”這一步,整體成績會明顯下滑——

    這也印證了“像素層面的證據”不可替代。

    更深一層:這意味著什么

    Robust-U1真正提出的,其實不只是一個更強的“抗損壞模型”,而是一種看待魯棒性的新視角

    把“看清→修復→推理”閉合成一個回路,讓模型在理解之前,先用自身的生成先驗主動復原被破壞的世界。

    相比“對齊特征”“文字描述”這類外加的防御,“用生成能力自我復原”是一種更內生、也更通用的魯棒性來源:

    它不依賴于事先知道“是哪種損壞”,也不止步于“描述損壞”,而是真正把丟失的視覺信息補回來

    對自動駕駛、醫學影像等對畫面質量極其敏感的安全攸關場景,這種“先復原、再決策”的范式尤其有價值。

    代碼(GitHub):https://github.com/jqtangust/Robust-U1
    論文:https://arxiv.org/abs/2606.08063


    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 无码中文字幕动漫精品| 丁香五月综合| Y111111国产精品久久久| 岛国无码在线| 欧美激情视频二区三区| 亚洲最大的熟女水蜜桃AV网站 | 夜夜躁爽| 欧亚精品视频一区二区三区| 久久中文精品无码中文字幕| 最新中文字幕在线| 中文字幕制服国产精品| 97人人操人人爽| 一级二级三一片内射视频在线| 久久国内精品自在自线91| 精品国产人成亚洲区| а√8天堂中文官网资源| 国产视频拍拍拍| 亚洲av不卡电影在线网址最新| 成品人视频ww入口| 无码AV一区在线观看免费| 欧美精品一区二区三区制服首页 | 在线看片国产日韩欧美亚洲| 欧美 亚洲 另类 丝袜 自拍 动漫| 男女做爽爽爽视频免费| 亚洲一本在线| 推油少妇久久99久久99久久| 亚洲情XO亚洲色XO无码| 免费无码成人AV在线播放不卡| 黑人巨大粗物挺进了少妇| 狼人爱干网| 国产91丝袜在线播放动漫| 亚洲欧美另类久久久精品能播放的| 91大神网址| 亚洲欧美v国产一区二区| 国产蜜臀精品一区二区三区| 欧美成人精品手机在线| av中文字幕国产精品| 最新中文字幕av无码专区| 亚洲一级电影在线观看| 免费观看视频18勿进免费观看 | 久久综合欧美|