0
| 本文作者: 陳淑瑜 | 2026-06-02 17:48 |
來源:公眾號“視覺AI研報”
原文鏈接:https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1
? 快速入口
導語:目標檢測還能這么玩?最近CVPR 2026接收了一篇論文,直接把Agent(智能體)塞進了目標檢測里,效果直接炸裂——6個數據集平均提升28%!暗光場景更是暴力提升37%!這就是DetAS,"在任意場景檢測"的意思。?
一句話總結:CVPR 2026接收的Agentic目標檢測框架,用多模態大模型(MLLM)當大腦,動態指揮檢測流程。
| 全稱 | |
| 縮寫 | |
| 定位 | |
| 發表 | |
| arXiv |
┌─────────────────────────────────────────────┐
│ 目標檢測的"三大難題" │
├─────────────────────────────────────────────┤
│ │
│ ? 黑暗場景:晚上拍照看不見 │
│ 手機夜景差,檢測直接掛 │
│ │
│ ? 領域差異:訓練認車,測試認貓 │
│ 數據分布偏移,分分鐘失效 │
│ │
│ ? 不會思考:只會悶頭檢測 │
│ 不知道"為什么要檢測這里" │
│ │
└─────────────────────────────────────────────┘
讓模型自己決定"要不要P圖"!
┌─────────────────────────────────────────────┐
│ DetAS怎么處理圖像 │
├─────────────────────────────────────────────┤
│ │
│ 輸入圖片 → MLLM判斷 → 決定增強策略 │
│ │
│ "這張太暗" → "調亮+去噪" │
│ "這張還行" → "直接檢測" │
│ "這張模糊" → "銳化+增強" │
│ │
│ 相當于:給照片加了"智能美顏" │
└─────────────────────────────────────────────┘
不是用一個檢測器,而是"開會決策"!
┌─────────────────────────────────────────────┐
│ 多專家"投票"機制 │
├─────────────────────────────────────────────┤
│ │
│ ? 專家1:通用檢測器 → 給我往死里檢 │
│ ? 專家2:暗光專家 → 專門處理夜景 │
│ ? 專家3:車輛專家 → 專門檢車 │
│ ? 專家4:動物專家 → 專門檢動物 │
│ │
│ ? MLLM決策:根據場景選專家 │
│ │
│ 效果:專業的事交給專業的人來做! │
└─────────────────────────────────────────────┘
越 Detection, 越聰明!
| +37.01% | ||
┌─────────────────────────────────────────────┐
│ DetAS vs 基線檢測器 │
├─────────────────────────────────────────────┤
│ │
│ DarkFace (暗光): │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基線: 45.2 F1 │
│ DetAS: 82.21 F1 ? (+37.01%) │
│ │
│ 通用場景: │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基線: 55.8 F1 │
│ DetAS: 70.2 F1 ? (+25.8%) │
│ │
│ 綜合平均:+28.36% │
└─────────────────────────────────────────────┘
┌─────────────────────────────────────────────┐
│ DetAS = 目標檢測的"ChatGPT" │
├─────────────────────────────────────────────┤
│ │
│ 以前: │
│ 輸圖片 → 跑模型 → 出結果 │
│ "傻傻執行,不動腦子" │
│ │
│ DetAS: │
│ 輸圖片 → 想一想 → 選策略 → 精準檢測 │
│ "會思考的執行力" │
│ │
│ 關鍵變量: │
│ = MLLM理解場景 + 自適應處理 + 多專家融合 │
└─────────────────────────────────────────────┘
| 圖1 | ||
| 圖2 | ||
| 圖3 | ||
| 圖4 |
DetAS可能開啟"智能檢測時代":以后檢測器不只是"執行命令",而是會"思考怎么做"——這可能就是目標檢測的GPT時刻...
標題
作者
發表
arXiv