雙賽道奪冠｜諾因智能斬獲CVPR 2026 EgoCross Challenge全球第一

本文作者：陳淑瑜

2026-06-04 14:31

導語：諾因智能（Knowin）憑借自研高效推理技術，一舉拿下Source-Limited、Open-Source 雙賽道全球第一名，實現該賽事雙賽道滿貫奪冠！

來源：公眾號“Knowin諾因”

原文鏈接：https://mp.weixin.qq.com/s/t-o34_8wWAjMD6YBp7Nwqw

CVPR 2026 EgoVis Workshop 首屆 EgoCross Challenge 挑戰賽結果正式揭曉！諾因智能（Knowin）憑借自研高效推理技術，一舉拿下Source-Limited、Open-Source 雙賽道全球第一名，實現該賽事雙賽道滿貫奪冠！

本次奪冠，充分驗證了諾因智能在第一視角視頻理解、跨領域泛化能力、小模型高效適配、復雜具身場景感知領域的硬核技術，充分印證了團隊在具身智能核心感知技術領域的前沿研發實力。

雙賽道奪冠｜諾因智能斬獲CVPR 2026 EgoCross Challenge全球第一

奪冠證書

頂級賽事加持

含金量拉滿

EgoCross Challenge 是 CVPR 2026 EgoVis Workshop 重磅推出的首屆跨領域第一視角視頻理解專項賽事。作為全球第一視角視覺、人機交互與機器人感知方向的核心權威賽事，本屆比賽聚焦具身智能前沿，旨在全面考察并突破 EgoCentric（第一視角感知）的核心能力。如果說傳統的 EgoCentric 聚焦于“單個主體的第一人稱基礎感知”，那么本屆EgoCross 則代表著更高級別的跨主體、跨視角的交叉建模與推理能力。

賽事基準源自AAAI 2026 頂會公開論文，專為解決真實場景的模型域泛化難題打造，更能真實反應模型應對復雜場景時的泛化能力。

賽事依托798 個專業場景視頻片段、957 組高精度問答樣本，全方位考核模型的識別、定位、預測、計數四大核心能力，精準檢驗模型在陌生、復雜、動態真實場景中的感知與推理水平。

作為行業公認的高難度評測基準，EgoCross 對 AI 模型極具挑戰性。過往評測數據顯示，主流通用多模態大模型、第一視角專用模型在該基準中表現普遍不佳，CloseQA 平均準確率不足 55%，OpenQA 準確率更是低于 35%，足以印證賽事的技術門檻與行業含金量。

EgoCross_Testing

嚴苛賽道比拼

硬核實力突圍

本次賽事分為 Source-Limited 受限賽道 與 Open-Source 開源賽道。雙賽道各有側重、各展所長：受限賽道嚴苛設限，徹底杜絕“大模型堆參數、大數據堆訓練”的內卷套路，真正比拼算法創新與工程優化能力；開源賽道則全面開放，允許擁抱大模型與海量數據，全面釋放前沿技術的巨大潛能。

Source-Limited 賽道：

強制固定基座模型為 Qwen3-VL-4B，僅提供少量支持樣本，嚴格限制數據與模型擴容，完全考驗團隊的推理策略與算法設計能力。

Open-Source 賽道：

開放模型與數據權限，匯集全球頂尖團隊與商用模型同臺競技，競爭維度更全面、行業參考性更強。

在全球超過130個頂尖參賽隊伍、超1500次提交的激烈角逐中，諾因智能成為唯一包攬雙賽道冠軍的團隊，以絕對優勢刷新賽事基準紀錄，打破了“大模型才具備強跨域感知能力”的固有認知。

輕量化創新方案

釋放小模型極致潛能

本次奪冠，諾因智能并未采用傳統的大規模預訓練、海量數據微調方案，而是依托自研 KnowinAct 生成式決策框架，創新提出了“場景自適應推理”策略。其核心思路與KnowinAct “理解場景，再進行決策”的理念一脈相承：不盲目堆砌模型與數據，而是通過構建動態決策鏈路，讓輕量化 Qwen3-VL-4B 精準適配各類第一視角復雜場景。

在面對第一視角視頻中的多樣化任務時，KnowinAct 并非簡單依賴視覺識別，而是能夠根據不同場景動態構建決策鏈路：