0
| 本文作者: 陳淑瑜 | 2026-06-04 14:31 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“Knowin諾因”
原文鏈接:https://mp.weixin.qq.com/s/t-o34_8wWAjMD6YBp7Nwqw
CVPR 2026 EgoVis Workshop 首屆 EgoCross Challenge 挑戰賽結果正式揭曉!諾因智能(Knowin)憑借自研高效推理技術,一舉拿下Source-Limited、Open-Source 雙賽道全球第一名,實現該賽事雙賽道滿貫奪冠!
本次奪冠,充分驗證了諾因智能在第一視角視頻理解、跨領域泛化能力、小模型高效適配、復雜具身場景感知領域的硬核技術,充分印證了團隊在具身智能核心感知技術領域的前沿研發實力。

奪冠證書
1
頂級賽事加持
含金量拉滿
EgoCross Challenge 是 CVPR 2026 EgoVis Workshop 重磅推出的首屆跨領域第一視角視頻理解專項賽事。作為全球第一視角視覺、人機交互與機器人感知方向的核心權威賽事,本屆比賽聚焦具身智能前沿,旨在全面考察并突破 EgoCentric(第一視角感知) 的核心能力。 如果說傳統的 EgoCentric 聚焦于“單個主體的第一人稱基礎感知”,那么本屆EgoCross 則代表著更高級別的跨主體、跨視角的交叉建模與推理能力。
賽事基準源自AAAI 2026 頂會公開論文,專為解決真實場景的模型域泛化難題打造,更能真實反應模型應對復雜場景時的泛化能力。
賽事依托798 個專業場景視頻片段、957 組高精度問答樣本,全方位考核模型的識別、定位、預測、計數四大核心能力,精準檢驗模型在陌生、復雜、動態真實場景中的感知與推理水平。
作為行業公認的高難度評測基準,EgoCross 對 AI 模型極具挑戰性。過往評測數據顯示,主流通用多模態大模型、第一視角專用模型在該基準中表現普遍不佳,CloseQA 平均準確率不足 55%,OpenQA 準確率更是低于 35%,足以印證賽事的技術門檻與行業含金量。

EgoCross_Testing
2
嚴苛賽道比拼
硬核實力突圍
本次賽事分為 Source-Limited 受限賽道 與 Open-Source 開源賽道。雙賽道各有側重、各展所長:受限賽道嚴苛設限,徹底杜絕“大模型堆參數、大數據堆訓練”的內卷套路,真正比拼算法創新與工程優化能力;開源賽道則全面開放,允許擁抱大模型與海量數據,全面釋放前沿技術的巨大潛能。
Source-Limited 賽道:
強制固定基座模型為 Qwen3-VL-4B,僅提供少量支持樣本,嚴格限制數據與模型擴容,完全考驗團隊的推理策略與算法設計能力。
Open-Source 賽道:
開放模型與數據權限,匯集全球頂尖團隊與商用模型同臺競技,競爭維度更全面、行業參考性更強。
在全球超過130個頂尖參賽隊伍、超1500次提交的激烈角逐中,諾因智能成為唯一包攬雙賽道冠軍的團隊,以絕對優勢刷新賽事基準紀錄,打破了“大模型才具備強跨域感知能力”的固有認知。
3
輕量化創新方案
釋放小模型極致潛能
本次奪冠,諾因智能并未采用傳統的大規模預訓練、海量數據微調方案,而是依托自研 KnowinAct 生成式決策框架,創新提出了“場景自適應推理”策略。其核心思路與KnowinAct “理解場景,再進行決策”的理念一脈相承:不盲目堆砌模型與數據,而是通過構建動態決策鏈路,讓輕量化 Qwen3-VL-4B 精準適配各類第一視角復雜場景。
在面對第一視角視頻中的多樣化任務時,KnowinAct 并非簡單依賴視覺識別,而是能夠根據不同場景動態構建決策鏈路:
在手術場景中,理解器械、組織與操作步驟之間的時序關系,實現高精度操作意圖推理;
在工業場景中,理解零部件屬性、空間關系與標準作業流程,完成復雜任務判斷;
在極限運動場景中,捕捉高速動態變化,推斷動作演進趨勢;
在動物視角場景中,適應非標準視角與復雜運動模式,理解特殊環境下的交互邏輯。
這種能力背后體現的是 KnowinAct 的核心思想:不是讓模型記住更多數據,而是讓模型學會如何思考和決策。
諾因在此次EgoCross Challenge挑戰賽奪冠進一步證明,未來具身智能的發展不僅取決于模型規模,更取決于決策能力。KnowinAct 所代表的生成式決策路線,正在持續釋放輕量化模型的潛力,為機器人理解世界、規劃任務和執行動作提供更加高效的基礎能力。