• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    內(nèi)部專用 正文
    發(fā)私信給吳思?jí)?/span>
    發(fā)送

    0

    ICML 2026:視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),提升受損圖像理解

    導(dǎo)語:一張照片被壓縮、噪聲、暗光和模糊破壞后,多模態(tài)模型仍然可以寫出一段邏輯完整的分析。但分析越流暢,不代表它看到的證據(jù)越充分:車頭朝向已經(jīng)模糊,模型仍能解釋車輛為何

     

    原文作者:公眾號(hào)“Today讀什么”

    原文鏈接:https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg


    一張照片被壓縮、噪聲、暗光和模糊破壞后,多模態(tài)模型仍然可以寫出一段邏輯完整的分析。但分析越流暢,不代表它看到的證據(jù)越充分:車頭朝向已經(jīng)模糊,模型仍能解釋車輛為何“直行”;公交車輪廓已經(jīng)重疊,它依然可以自信地?cái)?shù)出三輛。

    過去的方法通常讓視覺編碼器適應(yīng)噪聲,或者讓模型先用文字分析圖像受到了什么破壞。Robust-U1 換了一條路線:**既然關(guān)鍵視覺信息已經(jīng)丟失,就先生成一張恢復(fù)后的圖像,再讓模型同時(shí)查看原圖與恢復(fù)圖完成回答。**方法由圖像恢復(fù)監(jiān)督訓(xùn)練、帶雙重視覺獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí),以及雙圖聯(lián)合推理組成。實(shí)驗(yàn)結(jié)果表明,性能提升并不只是來自“生成了一張更好看的圖片”,而是恢復(fù)出的視覺證據(jù)確實(shí)幫助模型回答了原本看不清的問題。

    Motivation

    Robust-U1 要處理的核心矛盾是:多模態(tài)模型可以繼續(xù)推理,卻無法僅憑語言補(bǔ)回已經(jīng)消失的視覺細(xì)節(jié)。

    視覺魯棒性研究此前主要沿著兩條路線展開。特征對(duì)齊方法讓干凈圖像和受損圖像在視覺編碼空間中盡量接近,能夠提高預(yù)測(cè)穩(wěn)定性,卻很難解釋模型究竟恢復(fù)了什么信息。Robust-R1 這樣的工作把過程顯式化,讓模型描述壓縮、噪聲或暗光如何影響畫面,再依據(jù)描述進(jìn)行推理。

    文字能夠提醒模型“這里可能看不清”,卻無法重建車輛朝向、物體數(shù)量、邊緣位置或細(xì)小文字。視覺證據(jù)已經(jīng)被破壞時(shí),再長(zhǎng)的推理鏈也可能只是圍繞錯(cuò)誤觀察組織出一段連貫解釋。

    作者由此提出一個(gè)更直接的問題:具備圖像生成能力的統(tǒng)一多模態(tài)模型,能否自己完成視覺恢復(fù),并把恢復(fù)結(jié)果作為中間推理證據(jù)?這不是在模型前面外掛一個(gè)圖像修復(fù)器,而是讓理解、恢復(fù)和回答由同一個(gè)模型協(xié)同完成。

    現(xiàn)象剖析:推理補(bǔ)不回像素

    論文中的案例很好地揭示了舊路線的限制。一張嚴(yán)重壓縮且光照不足的道路圖片里,前方車輛實(shí)際向左行駛。Qwen2.5-VL 判斷車輛直行;Robust-R1 能識(shí)別暗光與壓縮問題,也能解釋這些退化會(huì)遮蔽方向信息,最終仍給出“直行”。

    這里缺少的不是對(duì)退化類型的認(rèn)識(shí),而是決定答案的視覺細(xì)節(jié)。模型知道自己看不清,卻沒有新的視覺證據(jù)可以使用。

    基礎(chǔ)模型 BAGEL 已經(jīng)具備圖像生成能力,也嘗試恢復(fù)畫面,但生成結(jié)果改變了原場(chǎng)景,推理隨后被錯(cuò)誤恢復(fù)圖帶偏。這又引出第二個(gè)問題:**恢復(fù)圖本身也可能產(chǎn)生幻覺。**如果模型只查看恢復(fù)圖,修復(fù)過程新增的物體、方向或紋理會(huì)被當(dāng)成事實(shí)。

    Robust-U1 因此沒有把恢復(fù)圖當(dāng)作唯一輸入。原始受損圖仍被保留,恢復(fù)圖負(fù)責(zé)補(bǔ)充結(jié)構(gòu)和語義,模型在兩份視覺證據(jù)之間完成判斷。這個(gè)設(shè)計(jì)讓恢復(fù)不再等同于“重畫一張圖”,而是成為可以被原圖約束的中間推理步驟。

    核心解讀:恢復(fù)之后再理解

    Robust-U1 建立在 BAGEL 之上。BAGEL 同時(shí)支持多模態(tài)理解和圖像生成,因此同一套模型既能從受損圖片生成恢復(fù)圖,也能讀取兩張圖片回答問題。

    訓(xùn)練過程分成三個(gè)連續(xù)階段。

    模型先在 ImageNet-C 的 75 萬組受損—干凈圖像對(duì)上進(jìn)行監(jiān)督微調(diào)。受損圖像被編碼為條件,干凈圖像進(jìn)入 rectified flow 的去噪目標(biāo),生成模塊由此學(xué)習(xí)近似的退化逆過程。經(jīng)過這一階段,模型已經(jīng)會(huì)去除主要噪聲和模糊,但恢復(fù)結(jié)果仍容易缺少細(xì)節(jié),或在語義上偏離原圖。

    接下來的強(qiáng)化學(xué)習(xí)不直接獎(jiǎng)勵(lì)最終問答正確率,而是約束恢復(fù)圖本身。像素結(jié)構(gòu)獎(jiǎng)勵(lì)采用 SSIM,檢查局部亮度、對(duì)比度和結(jié)構(gòu)是否接近干凈圖;語義一致性獎(jiǎng)勵(lì)通過凍結(jié)的 CLIP 比較兩張圖的表示,避免畫面看起來清晰,卻把對(duì)象、顏色或場(chǎng)景恢復(fù)錯(cuò)。

    這兩個(gè)獎(jiǎng)勵(lì)承擔(dān)的職責(zé)并不相同。SSIM 更關(guān)心輪廓、邊緣和局部結(jié)構(gòu),CLIP 獎(jiǎng)勵(lì)更關(guān)心“畫面講的是不是同一件事”。只有像素約束,模型可能生成清晰但語義錯(cuò)誤的圖;只強(qiáng)調(diào)語義,又可能忽略回答計(jì)數(shù)、方向和文字問題所需的精細(xì)結(jié)構(gòu)。

    恢復(fù)能力穩(wěn)定后,模型進(jìn)入雙圖推理訓(xùn)練。輸入按“受損圖—恢復(fù)圖—問題”的方式交錯(cuò)組織,并配合推理鏈與答案進(jìn)行下一詞預(yù)測(cè)。模型由此學(xué)會(huì)以恢復(fù)圖作為主要觀察,同時(shí)回看受損圖,檢查恢復(fù)過程中可能出現(xiàn)的歧義。

    Robust-U1 的整體邏輯可以概括為:

    先恢復(fù)可用的視覺證據(jù),再讓原圖和恢復(fù)圖互相校驗(yàn),最后完成語言推理。

    圖表深度解讀

    圖1:三種視覺魯棒性路線

    ICML 2026:視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),提升受損圖像理解

    畫面描述:左側(cè)是受損圖與干凈圖的特征對(duì)齊,中間是用文字描述退化影響,右側(cè)的 Robust-U1 會(huì)直接生成恢復(fù)圖,并把它加入多模態(tài)推理。

    深度解讀:這張圖劃分的不是三個(gè)實(shí)現(xiàn)模塊,而是三種不同的處理層級(jí)。特征對(duì)齊調(diào)整內(nèi)部表示,文字推理解釋損壞,視覺自恢復(fù)則嘗試重新提供任務(wù)所缺少的證據(jù)。Robust-U1 的提升來自信息層級(jí)發(fā)生了變化:模型不再只學(xué)習(xí)如何容忍受損視覺,而是主動(dòng)重建可供判斷的內(nèi)容。

    圖2:三階段訓(xùn)練流程

    ICML 2026:視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),提升受損圖像理解

    畫面描述:生成模塊先通過監(jiān)督訓(xùn)練學(xué)習(xí)恢復(fù),再通過 Flow-GRPO 接受像素和語義獎(jiǎng)勵(lì),隨后理解模塊與生成模塊共同學(xué)習(xí)雙圖推理。

    深度解讀:三階段沒有被合并成一個(gè)端到端目標(biāo),是因?yàn)樗鼈兲幚淼氖遣煌L(fēng)險(xiǎn)。監(jiān)督訓(xùn)練解決“能不能恢復(fù)”,強(qiáng)化學(xué)習(xí)解決“恢復(fù)得是否可信”,聯(lián)合推理解決“模型會(huì)不會(huì)使用恢復(fù)結(jié)果”。直接訓(xùn)練問答,模型可能繞過恢復(fù)分支;只訓(xùn)練恢復(fù),又不能保證恢復(fù)內(nèi)容對(duì)下游問題有用。

    圖3:恢復(fù)質(zhì)量的逐步變化

    ICML 2026:視覺自恢復(fù) + 雙獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),提升受損圖像理解

    畫面描述:圖中依次展示受損輸入、原始 BAGEL、監(jiān)督微調(diào)、單獨(dú)使用像素獎(jiǎng)勵(lì)、單獨(dú)使用語義獎(jiǎng)勵(lì)、完整模型和干凈真值。

    深度解讀:監(jiān)督微調(diào)已經(jīng)能去掉大量退化,但畫面細(xì)節(jié)仍然松散;像素獎(jiǎng)勵(lì)強(qiáng)化邊緣和局部結(jié)構(gòu),語義獎(jiǎng)勵(lì)改善紋理與內(nèi)容一致性,完整模型在兩者之間取得較穩(wěn)定的平衡。表 5 也對(duì)應(yīng)這一變化:PSNR 從 BAGEL 的 14.37 提高到 21.49,SSIM 從 0.4722 提高到 0.6314,LPIPS 從 0.5092 降至 0.3223。

    實(shí)驗(yàn)結(jié)果說明了什么?

    R-Bench 同時(shí)包含選擇題、開放式視覺問答和圖像描述,并按照退化程度分為低、中、高三個(gè)等級(jí)。Robust-U1 的綜合得分為 0.7398,明顯高于基礎(chǔ)模型 BAGEL 的 0.5770,以及文本推理方法 Robust-R1 的 0.5017。圖像描述任務(wù)上的差距尤其明顯,說明恢復(fù)圖提供的不只是分類線索,也補(bǔ)充了場(chǎng)景級(jí)內(nèi)容。

    在 MMMB、MMStar 和 RealWorldQA 的人工退化實(shí)驗(yàn)中,優(yōu)勢(shì)隨著破壞程度增加仍然存在。MMMB 從干凈圖到 100% 退化時(shí),Robust-U1 只下降 1.57 分;BAGEL 下降 3.44 分,Robust-R1 下降 6.06 分。

    消融結(jié)果把性能來源拆得更清楚。取消雙圖推理后,R-Bench 綜合分從 0.7398 降至 0.6623,說明恢復(fù)圖必須真正進(jìn)入推理過程。移除像素獎(jiǎng)勵(lì)或語義獎(jiǎng)勵(lì),得分分別降到 0.7257 和 0.7236;高強(qiáng)度退化下,缺少語義獎(jiǎng)勵(lì)的損失更明顯,因?yàn)槟P透菀咨赏庥^合理、內(nèi)容錯(cuò)誤的恢復(fù)圖。

    外接圖像修復(fù)器也沒有得到同樣效果。由專用恢復(fù)模型預(yù)處理、再交給 Qwen2.5-VL-7B 的方案,最高綜合分只有 0.5511。修復(fù)模型通常針對(duì)單一退化類型優(yōu)化,而且追求感知質(zhì)量,不一定保留問答所需的視覺證據(jù)。

    為什么這篇工作值得關(guān)注?

    Robust-U1 把多模態(tài)推理的中間過程從純文本擴(kuò)展到了視覺空間。過去的思路是讓模型對(duì)著壞圖“想得更仔細(xì)”,現(xiàn)在則允許模型先生成一份可以檢查的視覺假設(shè),再依據(jù)原圖和恢復(fù)圖回答。

    這種方式對(duì)暗光駕駛、遙感、監(jiān)控和醫(yī)學(xué)影像很有吸引力,因?yàn)檫@些任務(wù)的錯(cuò)誤經(jīng)常來自感知信息缺失,而不是語言推理不足?;謴?fù)圖還提供了一種可觀察的中間結(jié)果:系統(tǒng)可以直接查看模型依據(jù)了什么視覺內(nèi)容,而不是只能分析隱藏特征。

    邊界也很清楚?;謴?fù)不是找回被物理刪除的信息,而是依據(jù)訓(xùn)練分布進(jìn)行估計(jì),仍有生成錯(cuò)誤的可能。論文報(bào)告恢復(fù)前后答案一致率為 92.3%,說明語義獎(jiǎng)勵(lì)壓低了幻覺風(fēng)險(xiǎn),卻沒有消除它。訓(xùn)練成本同樣不低,僅恢復(fù)監(jiān)督階段就使用了 1920 個(gè) L20 GPU 小時(shí);推理時(shí)額外生成圖像,也會(huì)增加延遲。

    此外,完整訓(xùn)練依賴成對(duì)的受損—干凈圖片。無干凈參考的語義獎(jiǎng)勵(lì)能夠改善結(jié)果,但綜合分只有 0.6233,仍明顯低于完整方法。當(dāng)前實(shí)驗(yàn)集中在靜態(tài)圖片,視頻中的時(shí)間一致性、未知真實(shí)退化和高風(fēng)險(xiǎn)場(chǎng)景下的錯(cuò)誤校準(zhǔn)仍需繼續(xù)驗(yàn)證。

    研究脈絡(luò):從抵抗退化到恢復(fù)證據(jù)

    1. TeCoA

    2023|視覺語言魯棒對(duì)齊

    通過對(duì)抗訓(xùn)練使干凈與擾動(dòng)圖像的視覺表示更接近,改善局部攻擊下的穩(wěn)定性。

    2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?

    2024|IEEE JSTSP

    系統(tǒng)評(píng)測(cè)噪聲、壓縮、暗光等真實(shí)退化對(duì)多模態(tài)模型的影響,讓視覺退化成為獨(dú)立的評(píng)測(cè)問題。

    3. Robust CLIP

    2024|視覺編碼器魯棒化

    在 CLIP 表示層提高對(duì)擾動(dòng)的抵抗能力,但恢復(fù)過程仍然隱藏在特征空間中。

    4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs

    2025|ICCV Workshops

    將魯棒視覺編碼器接入多模態(tài)模型,研究視覺前端的抗擾動(dòng)能力能否傳遞到語言理解。

    5. Thinking with Generated Images

    2025|視覺輔助推理

    開始讓模型生成輔助圖像參與思考,視覺內(nèi)容從輸入模態(tài)變成了中間推理載體。

    6. Robust-R1

    2026|文本化退化推理

    顯式識(shí)別退化類型及其語義影響,提高可解釋性,但中間過程仍然無法補(bǔ)充像素證據(jù)。

    7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

    2026|ICML

    把圖像恢復(fù)納入統(tǒng)一多模態(tài)模型的推理鏈,用像素—語義雙獎(jiǎng)勵(lì)約束恢復(fù)結(jié)果,再聯(lián)合原圖完成判斷。

    總結(jié)一下

    Robust-U1 不是把傳統(tǒng)圖像修復(fù)模型接到多模態(tài)模型前面。它重新安排了受損視覺理解的順序:當(dāng)輸入證據(jù)不足時(shí),模型先生成恢復(fù)圖,再把恢復(fù)結(jié)果與原始輸入共同納入推理。

    實(shí)驗(yàn)支持了這條路線,但也提醒我們,生成出來的清晰畫面并不自動(dòng)等于可靠證據(jù)。像素結(jié)構(gòu)、語義一致性和原圖校驗(yàn)缺少任何一項(xiàng),恢復(fù)過程都可能把模型從“看不清”帶到“看錯(cuò)了”。

    它提出的是一個(gè)方向性變化:多模態(tài)模型面對(duì)受損輸入時(shí),不必永遠(yuǎn)被動(dòng)適應(yīng),也可以主動(dòng)重建視覺證據(jù);而這份證據(jù)必須接受約束和交叉檢查,才能進(jìn)入最終判斷。


    • ? 論文題目:Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?



    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

     

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 不卡在线播放一区二区三区| 色人妻中文字幕| 国产综合久久99久久| 精品无码国产自产拍在线观看蜜 | 欧美成人a∨视频免费观看| 亚洲产在线精品亚洲第一站一 | 中国不卡一区| 久久国产精品1区2区3区网页| 成人三级片免费观看| 国产精品免费中文字幕| 国内外精品激情刺激在线| 美女扒开内裤无遮挡禁18| 亚洲天堂av日韩精品| 亚洲中文字幕久久一区| 精品国产乱码一区二区三区| 999国产精品一区二区| 亚洲精品国产中文字幕| 国产激情无码一区二区三区| 国产免费无码9191精品| 国精品午夜福利视频不卡757| 中文字幕免费一二三区乱码| 草草影院地址发布页ccyycom| 蜜桃av亚洲第一区二区| 一群老熟女69| 国产午夜成人av在线播放| 日韩AV高潮喷水在线观看| 免费视频一区二区三区亚洲激情| 国语精品国内自产视频| 亚洲AV无码久久精品色欲| 国产白浆一区二区| 三上悠亚在线精品二区| 午夜国产不卡在线观看视频| 久久人妻精品国产| 日本伊人色综合网| 久久精品国产99国产精品澳门| 国产亚洲人成网站在线观看| 曰本久久久免费黄| 国产人成精品综合欧美成人| 色噜噜人妻丝袜AⅤ资源| 国产精品国产三级国产试看| 久久综合九色综合97婷婷|