<sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"><tfoot id="pqc61"></tfoot></sub><sub id="pqc61"></sub>

在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码

<samp id="qcteg"></samp>

<menu id="qcteg"><source id="qcteg"></source></menu>

<strong id="qcteg"><rt id="qcteg"><thead id="qcteg"></thead></rt></strong>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給陳淑瑜

發送

0

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

本文作者：陳淑瑜

2026-05-29 17:35

專題：CVPR 計算機視覺與模式識別會議

導語：南洋理工大學MARS Lab與NPL Lab聯合打造首個具身問答棄權基準AbstainEQA，實測發現頂尖模型棄權能力僅達人類47%，為安全人機交互劃定全新標準

來源：公眾號“視覺語言導航”

原文鏈接：https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58

作者：Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
單位：1南洋理工大學，2北京大學
論文標題：When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
論文鏈接：https://arxiv.org/abs/2512.04597
項目主頁：https://abstaineqa.github.io/
代碼鏈接：https://github.com/gibrantaowu/AbstainEQA

? 研究背景：機器人“強行作答”，藏著巨大安全隱患

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

隨著視覺語言模型（VLMs）飛速發展，具身機器人已從實驗室走向家庭場景，能在3D室內環境中導航、感知，完成具身問答（EQA）任務，成為老人陪護、家務輔助的重要幫手。

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

但所有現有EQA基準都存在一個致命前提：默認機器人必須回答所有問題，完全忽略真實人機交互的復雜性。

研究團隊通過真實用戶調研發現：

收集500條人類自然提問，32.4%的問題存在信息缺失、歧義或無法回答；
機器人強行作答會引發兩大災難：

幻覺致安全事故：未查看浴室就謊稱地面干燥，導致老人滑倒；
導航徹底失效：指代模糊的問題讓機器人無目的漫游，完全浪費算力。

在家庭陪護、醫療輔助等安全敏感場景，“不知道”比“瞎回答”更重要！棄權（信息不足時拒絕作答）是可靠人機交互的最低要求，卻長期被學界忽視。

? 核心貢獻：四大突破，重新定義具身問答標準

首創棄權分類體系：基于人類認知理論+真實交互數據，提煉5類必須棄權的場景，為具身問答不確定性提供系統化判定依據。
發布 AbstainEQA 基準：全球首個人工標注的具身問答棄權基準，包含1636個棄權案例+1636個常規案例，經數據擴充后總樣本達16360條，配套幀級視覺證據標注。
全方位模型評測：從模型規模、提示策略、微調方法三大維度，系統性測試當前頂尖具身模型，揭露現有方法的核心缺陷。
深度錯誤分析：明確模型棄權失效的根本原因，為后續安全、可靠的具身交互研究指明方向。

? 問題描述：從“必須作答”到“學會棄權”

本文將傳統具身問答（EQA）升級為AbstainEQA，核心要求：智能體在證據不足、問題歧義時，主動棄權而非強行作答。

形式化定義（極簡版）

給定用戶問題和機器人視覺觀測序列，機器人需自主決策：

選擇answer：基于視覺證據給出準確答案；
選擇abstain：明確說明無法回答的理由。

兩大評測場景

情景記憶EQA（EM-EQA）：機器人僅用已看到的畫面作答，不額外探索；
主動EQA（A-EQA）：機器人可在限定步數內導航探索，再決定作答或棄權。

? AbstainEQA 基準：科學定義“什么時候該說不知道”

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

1. 棄權需求：真實交互中，1/3問題無法回答

團隊招募50名普通用戶，基于HM3D、ScanNet真實室內場景生成自然提問，最終證實：32.4%的人類問題需要機器人棄權，棄權是人機交互的固有需求。

2. 五大棄權類型（核心判定標準）

基于Norman人類認知錯誤理論，精準劃分5類必須棄權的場景，覆蓋所有真實歧義情況：

類型	核心含義	通俗場景示例
可執行性限制（AL）	需物理交互，純視覺無法完成	問“盒子里有什么”，機器人打不開盒子
指代不明確（RU）	描述對應多個物體，無法定位	問“白色柜子上有什么”，房間有多個白柜
信息不可用（IU）	關鍵時空信息缺失，無法推理	問“誰把花瓶放桌上”，機器人沒看到過程
錯誤預設（FP）	問題前提與事實矛盾	問“床上泰迪熊材質”，床上根本沒有泰迪熊
偏好依賴（PD）	依賴主觀審美，無客觀答案	問“墻上的畫好看嗎”，無統一標準答案

3. 數據集亮點

均衡配比：1636個棄權案例 + 1636個常規可回答案例，公平評測；
幀級標注：人工標記支撐答案/棄權的關鍵畫面，綁定視覺證據；
數據擴充：通過LLM生成5種語義變體，覆蓋多樣化表達。

? 評估標準：三維度科學評測，結果可信可復現

為全面衡量機器人的棄權能力，團隊設計三維度評估體系，并通過人類驗證確保結果可靠：

回答準確率：用GPT-4o做語義匹配，評估機器人答案的準確性，避免主觀偏差。
棄權識別能力：核心計算召回率、精確率、F1值、準確率，判斷機器人能否精準識別需要棄權的問題。
具身導航效率：針對主動EQA，評測導航成功率、探索幀數、路徑長度，看棄權問題是否影響機器人行動。
人類驗證：LLM自動評估與人類標注的皮爾遜相關系數達0.88，評估結果高度可靠。

? 實驗結果：顛覆認知！現有模型根本不會“說不知道”

團隊圍繞4個核心問題展開實驗，結論直擊領域痛點：

1. 頂尖模型棄權能力，僅達人類一半

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

最優模型Gemini-2.5-Pro：棄權召回率42.79% ；
普通人類：棄權召回率91.17% ；
模型僅在“信息不可用”上表現稍好，指代模糊、主觀偏好類問題幾乎完全失效。

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

2. 模型做大沒用，跨模態對齊才是關鍵

同系列模型（如Qwen）：參數擴大，棄權能力小幅提升；
跨模型對比：參數規模不決定棄權能力，模型架構、跨模態對齊才是核心。

3. 提示、推理都是“表面功夫”

加提示詞：棄權召回率飆升，但精確率暴跌，機器人開始過度棄權；
加推理步驟：大模型棄權能力不升反降，只會說廢話，不會真判斷。

4. 微調模型：全是“作弊”，只看文字不看畫面

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

監督微調（SFT）模型看似指標拉滿，實則嚴重過擬合文本特征：

隨機刪掉/換掉視覺畫面，模型性能幾乎不變；
同樣的問題，不管場景如何，答案完全一樣，完全無視視覺證據。

5. 棄權問題，直接摧毀導航效率

歧義問題下：

導航成功率：77.17% → 61.41% ，暴跌15個百分點；
機器人陷入兩極分化：要么過早停止探索，要么無目的亂逛，導航完全失效。

? 研究結論：具身機器人，先學會“說不知道”

現有具身問答模型，完全不具備可靠棄權能力，無法識別歧義、信息缺失問題，暗藏安全風險；
模型縮放、提示工程、顯式推理、監督微調，都只是表面優化，模型依賴文字捷徑，未真正結合視覺證據；
歧義問題會導致具身導航低效、不穩定，嚴重影響人機交互安全性與實用性。

未來方向：研發綁定視覺證據的棄權推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式，讓機器人真正學會“知之為知之，不知為不知”。

0人收藏

分享：

相關文章

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

more

陳淑瑜

編輯

發私信

當月熱門文章

最新文章

熱門搜索

Apple Watch 網絡安全 FAIR 科大訊飛 Yann LeCun 互聯網金融小米手機數據分析教育 Spotify 沃爾沃

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板：亚洲精品成人片在线观看精品字幕| 午夜福利精品国产二区| 国产精品成人一区二区三区视频| 亚洲性码不卡视频在线| 97国产揄拍国产精品人妻| 亚洲无码精品人妻| 欧美性网站| 99久久国产综合精品色| 国产精品成人小说| www免费视频com| 亚洲国产日韩av一区二区| 人妻少妇精品性色av蜜桃| 国产精品午夜福利在线观看地址| 激情图区| 济宁市| 福利视频一区福利二区| 熟女女同亚洲女同中文字幕| 99riav国产精品视频| 国产极品嫩模在线精品| 日韩av电影在线观看| 国产色悠悠视频在线观看| 97无码免费人妻超级碰碰碰碰| 中文字幕av久久爽一区| 国内精品熟女亚洲精品熟女| 狠狠色噜噜狠狠亚洲AV| 亚洲制服丝袜无码| 东方四虎在线观看av| 亚洲第一成人网站| 亚洲无码免费观看| 天天爽爽夜夜爽| 免费av网站| 狠狠做五月深爱婷婷天天综合| eeuss国产一区二区三区| 国产精品人成视频免| 2024男人天堂| 99天天操| 国产av亚洲精品ai换脸电影| 殴美性爱| 国产99精品免费线观看视频 | 亚洲深深色噜噜狠狠网站| 中国亚洲无码|

<li id="1w4jc"><table id="1w4jc"></table></li>

<xmp id="1w4jc">