CVPR 2026最新論文！DetAS橫空出世：目標檢測的"GPT時刻"來了？

本文作者：陳淑瑜

2026-06-02 17:48

導語：炸裂！CVPR 2026接收一篇重磅論文，用Agent做目標檢測，直接屠榜6大benchmarks！平均提升28%，暗光場景提升37%！這是要革目標檢測的命..

來源：公眾號“視覺AI研報”
原文鏈接：https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1

? 快速入口

? arXiv論文：https://arxiv.org/abs/2605.31174
? GitHub代碼：搜索"DetAS"獲取

導語：目標檢測還能這么玩？最近CVPR 2026接收了一篇論文，直接把Agent（智能體）塞進了目標檢測里，效果直接炸裂——6個數據集平均提升28%！暗光場景更是暴力提升37%！這就是DetAS，"在任意場景檢測"的意思。?

? DetAS是什么？

一句話總結：CVPR 2026接收的Agentic目標檢測框架，用多模態大模型（MLLM）當大腦，動態指揮檢測流程。

項目	內容
全稱	Detect in Any Scene
縮寫	DetAS
定位	Agentic目標檢測框架
發表	CVPR 2026
arXiv	2605.31174

? DetAS憑啥這么牛？

傳統目標檢測的"三大痛點"

┌─────────────────────────────────────────────┐
│        目標檢測的"三大難題"                    │
├─────────────────────────────────────────────┤
│                                             │
│  ? 黑暗場景：晚上拍照看不見                   │
│     手機夜景差，檢測直接掛                  │
│                                           │
│  ? 領域差異：訓練認車，測試認貓           │
│     數據分布偏移，分分鐘失效              │
│                                           │
│  ? 不會思考：只會悶頭檢測              │
│     不知道"為什么要檢測這里"            │
│                                             │
└─────────────────────────────────────────────┘

DetAS的兩大核心創新

? 創新1：自適應圖像恢復（Self-Adaptive Image Restoration）

讓模型自己決定"要不要P圖"！

┌─────────────────────────────────────────────┐
│        DetAS怎么處理圖像                  │
├─────────────────────────────────────────────┤
│                                             │
│  輸入圖片 → MLLM判斷 → 決定增強策略        │
│                                           │
│  "這張太暗" → "調亮+去噪"               │
│  "這張還行" → "直接檢測"               │
│  "這張模糊" → "銳化+增強"               │
│                                           │
│  相當于：給照片加了"智能美顏"           │
└─────────────────────────────────────────────┘

? 創新2：多專家檢測（Multi-Expertise Detection）

不是用一個檢測器，而是"開會決策"！

┌─────────────────────────────────────────────┐
│        多專家"投票"機制                   │
├─────────────────────────────────────────────┤
│                                             │
│  ? 專家1：通用檢測器 → 給我往死里檢          │
│  ? 專家2：暗光專家 → 專門處理夜景       │
│  ? 專家3：車輛專家 → 專門檢車           │
│  ? 專家4：動物專家 → 專門檢動物         │
│                                           │
│  ? MLLM決策：根據場景選專家            │
│                                           │
│  效果：專業的事交給專業的人來做！        │
└─────────────────────────────────────────────┘

? 創新3：經驗積累（Experience-Aware）- DetAS-X升級版

越 Detection, 越聰明！

從歷史數據中學習決策經驗
遇到類似場景自動調用"成功經驗"
相當于：從"實習生"進化成"老油條"

? 實驗效果：直接屠榜！

六大數據集屠榜

數據集	提升幅度	場景
DarkFace	+37.01% ?	暗光場景
COCO	+25%+	通用場景
LVIS	+20%+	長尾類別
...	...	...

平均提升：28.36%

┌─────────────────────────────────────────────┐
│        DetAS  vs  基線檢測器                      │
├─────────────────────────────────────────────┤
│                                             │
│  DarkFace (暗光)：                           │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基線:    45.2 F1                         │
│  DetAS:  82.21 F1 ? (+37.01%)           │
│                                           │
│  通用場景：                                │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基線:    55.8 F1                         │
│  DetAS:  70.2 F1 ? (+25.8%)             │
│                                           │
│  綜合平均：+28.36%                         │
└─────────────────────────────────────────────┘

? 為什么DetAS重要？

目標檢測的"GPT時刻"

┌─────────────────────────────────────────────┐
│     DetAS = 目標檢測的"ChatGPT"               │
├─────────────────────────────────────────────┤
│                                             │
│   以前：                                   │
│   輸圖片 → 跑模型 → 出結果                  │
│   "傻傻執行，不動腦子"                     │
│                                           │
│   DetAS：                                   │
│   輸圖片 → 想一想 → 選策略 → 精準檢測     │
│   "會思考的執行力"                         │
│                                           │
│   關鍵變量：                               │
│   = MLLM理解場景 + 自適應處理 + 多專家融合   │
└─────────────────────────────────────────────┘

核心價值

價值	說明
? 泛化性	能檢測"任意場景"
?? 模塊化	可插拔的專家檢測器
? 可進化	經驗可以積累
? 高性能	28%+提升不是吹的

? 論文圖表

圖號	描述	建議放置位置
圖1	DetAS框架總覽	"核心創新"章節
圖2	自適應圖像恢復流程	"創新1"章節
圖3	多專家檢測架構	"創新2"章節
圖4	實驗對比柱狀圖	"實驗效果"章節

高清大圖獲取

? arXiv原文：https://arxiv.org/abs/2605.31174

? 吃瓜總結

維度	評價
? 創新性	????? Agentic檢測先驅
? 實用性	????? 6大數據集驗證
? 工程價值	???? 模塊化可插拔
? 想象力	????? 萬物皆可Agent

一句話總結

DetAS可能開啟"智能檢測時代"：以后檢測器不只是"執行命令"，而是會"思考怎么做"——這可能就是目標檢測的GPT時刻...

? 論文信息

標題
：Detect in Any Scene: An Agentic Framework for Object Detection with Experience-Aware Reasoning
作者
：Wenlun Zhang, Jun Yin, Kentaro Yoshioka
發表
：CVPR 2026
arXiv
：https://arxiv.org/abs/2605.31174