• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    本文作者: 陳淑瑜   2026-05-29 17:35 專題:CVPR 計算機視覺與模式識別會議
    導語:南洋理工大學MARS Lab與NPL Lab聯合打造首個具身問答棄權基準AbstainEQA,實測發現頂尖模型棄權能力僅達人類47%,為安全人機交互劃定全新標準

    來源:公眾號“視覺語言導航”

    原文鏈接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58


    • 作者:Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
    • 單位:1南洋理工大學,2北京大學
    • 論文標題:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
    • 論文鏈接:https://arxiv.org/abs/2512.04597
    • 項目主頁:https://abstaineqa.github.io/
    • 代碼鏈接:https://github.com/gibrantaowu/AbstainEQA

    ? 研究背景:機器人“強行作答”,藏著巨大安全隱患

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    隨著視覺語言模型(VLMs)飛速發展,具身機器人已從實驗室走向家庭場景,能在3D室內環境中導航、感知,完成具身問答(EQA)任務,成為老人陪護、家務輔助的重要幫手。

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    所有現有EQA基準都存在一個致命前提默認機器人必須回答所有問題,完全忽略真實人機交互的復雜性。

    研究團隊通過真實用戶調研發現:

    • 收集500條人類自然提問,32.4%的問題存在信息缺失、歧義或無法回答;
    • 機器人強行作答會引發兩大災難:
    1. 幻覺致安全事故:未查看浴室就謊稱地面干燥,導致老人滑倒;
    2. 導航徹底失效:指代模糊的問題讓機器人無目的漫游,完全浪費算力。

    在家庭陪護、醫療輔助等安全敏感場景,“不知道”比“瞎回答”更重要!棄權(信息不足時拒絕作答)是可靠人機交互的最低要求,卻長期被學界忽視。

    ? 核心貢獻:四大突破,重新定義具身問答標準

    1. 首創棄權分類體系:基于人類認知理論+真實交互數據,提煉5類必須棄權的場景,為具身問答不確定性提供系統化判定依據。
    2. 發布 AbstainEQA 基準:全球首個人工標注的具身問答棄權基準,包含1636個棄權案例+1636個常規案例,經數據擴充后總樣本達16360條,配套幀級視覺證據標注。
    3. 全方位模型評測:從模型規模、提示策略、微調方法三大維度,系統性測試當前頂尖具身模型,揭露現有方法的核心缺陷
    4. 深度錯誤分析:明確模型棄權失效的根本原因,為后續安全、可靠的具身交互研究指明方向。

    ? 問題描述:從“必須作答”到“學會棄權”

    本文將傳統具身問答(EQA)升級為AbstainEQA,核心要求:智能體在證據不足、問題歧義時,主動棄權而非強行作答。

    形式化定義(極簡版)

    給定用戶問題和機器人視覺觀測序列,機器人需自主決策:

    • 選擇answer:基于視覺證據給出準確答案;
    • 選擇abstain:明確說明無法回答的理由。

    兩大評測場景

    1. 情景記憶EQA(EM-EQA):機器人僅用已看到的畫面作答,不額外探索;
    2. 主動EQA(A-EQA):機器人可在限定步數內導航探索,再決定作答或棄權。

    ? AbstainEQA 基準:科學定義“什么時候該說不知道”

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    1. 棄權需求:真實交互中,1/3問題無法回答

    團隊招募50名普通用戶,基于HM3D、ScanNet真實室內場景生成自然提問,最終證實:32.4%的人類問題需要機器人棄權,棄權是人機交互的固有需求。

    2. 五大棄權類型(核心判定標準)

    基于Norman人類認知錯誤理論,精準劃分5類必須棄權的場景,覆蓋所有真實歧義情況:

    類型
    核心含義
    通俗場景示例
    可執行性限制(AL)
    需物理交互,純視覺無法完成
    問“盒子里有什么”,機器人打不開盒子
    指代不明確(RU)
    描述對應多個物體,無法定位
    問“白色柜子上有什么”,房間有多個白柜
    信息不可用(IU)
    關鍵時空信息缺失,無法推理
    問“誰把花瓶放桌上”,機器人沒看到過程
    錯誤預設(FP)
    問題前提與事實矛盾
    問“床上泰迪熊材質”,床上根本沒有泰迪熊
    偏好依賴(PD)
    依賴主觀審美,無客觀答案
    問“墻上的畫好看嗎”,無統一標準答案

    3. 數據集亮點

    • 均衡配比:1636個棄權案例 + 1636個常規可回答案例,公平評測;
    • 幀級標注:人工標記支撐答案/棄權的關鍵畫面,綁定視覺證據;
    • 數據擴充:通過LLM生成5種語義變體,覆蓋多樣化表達。

    ? 評估標準:三維度科學評測,結果可信可復現

    為全面衡量機器人的棄權能力,團隊設計三維度評估體系,并通過人類驗證確保結果可靠:

    1. 回答準確率:用GPT-4o做語義匹配,評估機器人答案的準確性,避免主觀偏差。
    2. 棄權識別能力:核心計算召回率、精確率、F1值、準確率,判斷機器人能否精準識別需要棄權的問題。
    3. 具身導航效率:針對主動EQA,評測導航成功率、探索幀數、路徑長度,看棄權問題是否影響機器人行動。
    4. 人類驗證:LLM自動評估與人類標注的皮爾遜相關系數達0.88,評估結果高度可靠。

    ? 實驗結果:顛覆認知!現有模型根本不會“說不知道”

    團隊圍繞4個核心問題展開實驗,結論直擊領域痛點:

    1. 頂尖模型棄權能力,僅達人類一半

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布
    • 最優模型Gemini-2.5-Pro:棄權召回率42.79% ;
    • 普通人類:棄權召回率91.17% ;
    • 模型僅在“信息不可用”上表現稍好,指代模糊、主觀偏好類問題幾乎完全失效。
    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    2. 模型做大沒用,跨模態對齊才是關鍵

    • 同系列模型(如Qwen):參數擴大,棄權能力小幅提升;
    • 跨模型對比:參數規模不決定棄權能力,模型架構、跨模態對齊才是核心。

    3. 提示、推理都是“表面功夫”

    • 加提示詞:棄權召回率飆升,但精確率暴跌,機器人開始過度棄權;
    • 加推理步驟:大模型棄權能力不升反降,只會說廢話,不會真判斷。

    4. 微調模型:全是“作弊”,只看文字不看畫面

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    監督微調(SFT)模型看似指標拉滿,實則嚴重過擬合文本特征

    • 隨機刪掉/換掉視覺畫面,模型性能幾乎不變;
    • 同樣的問題,不管場景如何,答案完全一樣,完全無視視覺證據。

    5. 棄權問題,直接摧毀導航效率

    歧義問題下:

    • 導航成功率:77.17% → 61.41% ,暴跌15個百分點;
    • 機器人陷入兩極分化:要么過早停止探索,要么無目的亂逛,導航完全失效。

    ? 研究結論:具身機器人,先學會“說不知道”

    1. 現有具身問答模型,完全不具備可靠棄權能力,無法識別歧義、信息缺失問題,暗藏安全風險;
    2. 模型縮放、提示工程、顯式推理、監督微調,都只是表面優化,模型依賴文字捷徑,未真正結合視覺證據;
    3. 歧義問題會導致具身導航低效、不穩定,嚴重影響人機交互安全性與實用性。

    未來方向:研發綁定視覺證據的棄權推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式,讓機器人真正學會“知之為知之,不知為不知”。

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲精品成人片在线观看精品字幕| 午夜福利精品国产二区| 国产精品成人一区二区三区视频| 亚洲性码不卡视频在线| 97国产揄拍国产精品人妻| 亚洲无码精品人妻| 欧美性网站| 99久久国产综合精品色| 国产精品成人小说| www免费视频com| 亚洲国产日韩av一区二区| 人妻少妇精品性色av蜜桃| 国产精品午夜福利在线观看地址| 激情图区| 济宁市| 福利视频一区福利二区| 熟女女同亚洲女同中文字幕| 99riav国产精品视频| 国产极品嫩模在线精品| 日韩av电影在线观看| 国产色悠悠视频在线观看| 97无码免费人妻超级碰碰碰碰| 中文字幕av久久爽一区| 国内精品熟女亚洲精品熟女| 狠狠色噜噜狠狠亚洲AV| 亚洲制服丝袜无码| 东方四虎在线观看av| 亚洲第一成人网站| 亚洲无码免费观看| 天天爽爽夜夜爽| 免费av网站| 狠狠做五月深爱婷婷天天综合| eeuss国产一区二区三区| 国产精品人成视频免| 2024男人天堂| 99天天操| 国产av亚洲精品ai换脸电影| 殴美性爱| 国产99精品免费线观看视频 | 亚洲深深色噜噜狠狠网站| 中国亚洲无码|