• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    本文作者: 陳淑瑜   2026-06-02 18:11
    導(dǎo)語:我們提出了 CoVCR,一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下,能夠生成并利用合理的上下文線索

    來源:微信公眾號(hào)“PRML Research Group”

    原文鏈接:https://mp.weixin.qq.com/s/1X6ZZzoZx3lyoxQuzYfwdg?scene=1&click_id=38



    1.引言

    近年來,多模態(tài)大語言模型在圖像理解、視覺問答和視覺推理任務(wù)中取得了顯著進(jìn)展。然而,在真實(shí)場景中,圖像往往并不會(huì)把完整故事全部呈現(xiàn)出來。一張靜態(tài)圖片可能只展示了事件發(fā)生的某一個(gè)瞬間,而真正回答問題所需的信息,可能隱藏在圖片發(fā)生之前、之后,或者需要結(jié)合常識(shí)進(jìn)行補(bǔ)全。

    例如,當(dāng)模型看到一個(gè)人穿著睡袍站在臥室里時(shí),它可以較容易判斷出“他可能準(zhǔn)備睡覺”。這是因?yàn)閳D像中已經(jīng)包含了足夠的視覺線索:床、臥室、睡衣等。但如果圖像只展示一個(gè)人落水、船只傾斜、周圍有水花,模型可能會(huì)簡單根據(jù)“水”這一表面線索回答“人在水里”。然而,人類可能會(huì)進(jìn)一步結(jié)合常識(shí)推斷:這個(gè)人可能在一艘正在下沉的船上,處于危險(xiǎn)情境中。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 1 視覺推理的挑戰(zhàn):充分 vs. 不充分的視覺敘事。

     

    這類問題的核心在于:

    圖像中的視覺敘事并不總是充分的。模型不僅需要識(shí)別圖像中有什么,還需要推斷圖像背后可能發(fā)生了什么。

    針對這一問題,我們提出了 CoVCR,一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下,能夠生成并利用合理的上下文線索,從而做出更加穩(wěn)健、可信的推理。

     

    2.方法

    CoVCR 的核心思想是:為圖像生成合理的上下文,讓模型根據(jù)這些上下文進(jìn)行推理。整體框架包含兩個(gè)階段:(1)視覺上下文生成學(xué)習(xí)階段;(2)視覺推理微調(diào)階段。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 2  CoVCR 框架。在第一階段,視覺上下文生成模型會(huì)生成上下文描述,從靜態(tài)圖像中推斷出合理的內(nèi)部和外部線索。在第二階段,一個(gè)融合上下文的適配器會(huì)將這些上下文線索與視覺特征有選擇地整合,以進(jìn)行魯棒的多模態(tài)推理。

     

    2.1 第一階段:視覺上下文生成學(xué)習(xí)

    在第一階段,CoVCR 訓(xùn)練一個(gè)視覺上下文生成模型,用于從靜態(tài)圖像中生成兩類上下文信息:

    (1)內(nèi)部上下文:當(dāng)前正在發(fā)生什么?

    內(nèi)部上下文關(guān)注圖像內(nèi)部已經(jīng)出現(xiàn)的事件和關(guān)系,例如:誰在做什么;物體之間有什么關(guān)系;當(dāng)前場景中正在發(fā)生什么動(dòng)作等。這類信息可以幫助模型更準(zhǔn)確理解當(dāng)前畫面。

    (2)外部上下文:之前發(fā)生了什么,之后可能發(fā)生什么?

    外部上下文關(guān)注圖像之外的時(shí)間線索,包括:這個(gè)場景之前可能發(fā)生了什么;當(dāng)前事件為什么會(huì)發(fā)生;接下來可能會(huì)發(fā)生什么。這類信息可以幫助模型補(bǔ)足靜態(tài)圖像中缺失的敘事信息。

    在訓(xùn)練過程中,模型使用 VisualCOMET 數(shù)據(jù)集學(xué)習(xí)如何根據(jù)圖像生成合理的事件上下文。為了提高訓(xùn)練效率,圖像編碼器和大語言模型主體保持凍結(jié),僅訓(xùn)練 Q-Former 模塊,使其學(xué)會(huì)從圖像中抽取有用的上下文線索。

     

    2.2 第二階段:視覺推理微調(diào)

    在第二階段,CoVCR 會(huì)將第一階段生成的上下文用于下游視覺推理任務(wù)。具體來說,模型會(huì)同時(shí)利用三類信息:圖像視覺特征;問題文本;生成的內(nèi)部上下文和外部上下文。

    為了避免直接拼接大量上下文導(dǎo)致噪聲增加,CoVCR 設(shè)計(jì)了一個(gè) context-infused adapter,用于動(dòng)態(tài)篩選和融合上下文信息。該模塊主要包含三個(gè)部分:

    (1)Context Extractor:從上下文中提取與圖像相關(guān)的信息

    由于上下文文本并不是全部都有用,因此,CoVCR 使用 cross-attention 機(jī)制,讓內(nèi)部上下文和外部上下文分別與圖像特征進(jìn)行交互,從而提取與視覺內(nèi)容相關(guān)的上下文表示。

    (2)Dynamic Gating:動(dòng)態(tài)判斷該相信哪類上下文

    不同問題對上下文的需求不同。有的問題主要依賴當(dāng)前畫面即可回答,更需要內(nèi)部上下文;有的問題需要推斷過去或未來事件,更需要外部上下文。

    因此,CoVCR 設(shè)計(jì)了動(dòng)態(tài)門控機(jī)制,根據(jù)圖像和問題自動(dòng)分配內(nèi)部上下文與外部上下文的權(quán)重。

    (3)Resampler Decoder:壓縮上下文,保留關(guān)鍵信息

    生成的上下文可能比較長,如果全部輸入大語言模型,會(huì)增加計(jì)算成本,也可能引入冗余信息。因此,CoVCR 使用 resampler decoder 將上下文壓縮為固定長度的 cue embeddings。這些壓縮后的上下文表示再與視覺特征、問題文本一起輸入大語言模型,最終生成答案。


    3.實(shí)驗(yàn)結(jié)果

    3.1定量分析

    我們在多個(gè)推理和問答任務(wù)上驗(yàn)證了 CoVCR 的效果。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    表 1 在VCR驗(yàn)證集上的評(píng)估結(jié)果

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    表 2 在VisualCOMET驗(yàn)證集上的評(píng)估結(jié)果


    結(jié)果表明,相比現(xiàn)有方法以及 Qwen2.5-VL、mPLUG-Owl3、EventLens 等強(qiáng)基線方法,CoVCR 在綜合推理任務(wù) Q→AR 上提升尤為明顯。這說明生成并融合上下文對于復(fù)雜視覺常識(shí)推理尤其重要。其次,CIDEr 和 METEOR 的提升說明,CoVCR 生成的上下文不僅在文字重合度上更好,也在語義豐富性和表達(dá)合理性上更優(yōu)。

     

    3.2 定性分析

    在定性分析中,CoVCR 能夠?yàn)殪o態(tài)圖像生成關(guān)于過去、當(dāng)前和未來事件的合理的描述。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 3 案例分析

    如圖所示,對于一個(gè)會(huì)議場景,模型不僅聯(lián)想到人物正在展示文件,還能推斷此前可能進(jìn)行了討論,之后可能會(huì)根據(jù)文件內(nèi)容采取行動(dòng)。對于一個(gè)調(diào)查板場景,模型不僅看到照片和資料板,還能推斷人物可能在調(diào)查某個(gè)嫌疑人,并進(jìn)一步根據(jù)線索展開行動(dòng)。這些案例說明,CoVCR 能夠幫助模型建立更完整的事件鏈條,從而緩解靜態(tài)圖像中視覺敘事不足的問題。

     

    論文信息及下載地址如下:

    CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning

     Xinyu Li, Shiliang Sun

     CVPR Findings

    https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_CoVCR_Bridging_Visual_Narrative_Gaps_via_Context_Generation_for_Robust_CVPRF_2026_paper.pdf


    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲欧洲日韩综合另类| 影音先锋色先锋| 亚洲男人的天堂在线播放| 四虎国产精品永久在线国在线| 亚洲精品国品乱码久久久久 | 9.1原创大神| 国产亚洲精| 亚洲国内精品一区二区| 少妇又爽又刺激视频| 欧洲免费精品视频在线| 无码少妇一区二区三区芒果| 加勒比综合| 国产成人啪精品视频免费网| 国产成人精品视频网站| 国产一级特黄aa大片软件| 午夜国产精品福利一二| 国产精品???A片在线观看| 边摸边吃奶又黄激烈视频韩国| 人妻丰满av无码中文字幕| 开心五月深深爱天天天操| 亚色天堂| 国产一级一片内射视频| 国产精品人伦一区二区三| 亚洲欧美综合中文| 色噜噜狠狠狠狠色综合久一| 国产精品剧情一区二区三区av| 我国产码在线观看av哈哈哈网站| 欧美freesex潮喷| 亚洲Av影院| 国产免费一区二区三区在线观看 | 亚洲精品高清国产一久久| 边添小泬边狠狠躁视频| 国产无遮挡无码视频在线观看| 韩日内射| 青青草成人免费自拍视频| 中文字幕日韩精品有码视频 | 精品自拍视频| 亚洲成人免费电影| 久久综合久色欧美综合狠狠| 老熟女多次高潮露脸视频| 亚洲人成电影在线天堂色|