0
| 本文作者: 陳淑瑜 | 2026-06-08 10:18 |
6月4日,當(dāng)維也納多瑙河畔的 ICRA 2026 進入正會的最后一天,大洋彼岸的美國丹佛科羅拉多會議中心(Colorado Convention Center)已經(jīng)人聲鼎沸。許多我們前幾天還在維也納見到的熟悉面孔,各大頂尖高校的學(xué)者和硬科技企業(yè)的高管,此刻都正拖著行李箱,馬不停蹄地出現(xiàn)在丹佛的街頭。
這種罕見的“全球雙城趕場”現(xiàn)象背后,是計算機視覺(CVPR)與機器人(ICRA)兩大頂會賽道正在發(fā)生的史詩級大融合。
今年的 CVPR 在丹佛當(dāng)?shù)貢r間 6月3日至4日率先開啟 Workshop 環(huán)節(jié),正會及重磅頒獎典禮則在 6月5日正式拉開帷幕,雷峰網(wǎng)已提前抵達第一現(xiàn)場,為您帶來這份滾燙的展前觀察。
最新官方數(shù)據(jù)顯示,本屆 CVPR 2026 的論文投稿量達到了驚人的 16,092 篇,較上一年激增 24%,而最終錄用量在 4,090 篇左右,錄用率依舊維持在殘酷的 25.42% 上下。

翻看今年的論文列表與 Workshop 議程,如果說前兩年的 CVPR 還在卷圖像生成和 2D 檢測,那么今年丹佛的核心敘事已經(jīng)徹底轉(zhuǎn)向了“多模態(tài)基礎(chǔ)模型”與“具身智能”。
在擠滿人的分會場里,這種趨勢尤為明顯。
無論是探討如何將視覺-語言-動作(VLA)模型部署到自動駕駛和機器人上的 WDFM-EAI(具身智能基礎(chǔ)模型部署)Workshop,還是引入了真實機器人操控挑戰(zhàn)賽(ManipArena Competition)的具身智能專場,都在傳遞一個極其明確的信號:計算機視覺已經(jīng)走出了“畫框識別”的屏幕舒適區(qū),全面向具有物理法則的真實三維世界進軍。視覺系統(tǒng)不再僅僅滿足于“看(Sense)”,而是開始作為中樞大腦主導(dǎo)“行動(Act)”。
中國高校的論文產(chǎn)出量也折射出這股浪潮的烈度。 最新統(tǒng)計顯示,CVPR 2026 高校論文接收 Top 10 中,中國高校占據(jù)八席:上海交通大學(xué)以 46 篇高居榜首,浙江大學(xué) 40 篇緊隨其后,中國科學(xué)技術(shù)大學(xué) 38 篇位列第三,中山大學(xué)以 36 篇超越北大、清華沖入前四,堪稱本屆最大黑馬。
更為驚人的是西湖大學(xué)。僅 4 位學(xué)者合力產(chǎn)出 22 篇,以“閃電戰(zhàn)”模式躋身第十,人均效率冠絕全場。
在去年的頂會上,中國學(xué)者的論文數(shù)量就已占據(jù)半壁江山。而在今年的丹佛,這種中國力量同樣體現(xiàn)在產(chǎn)業(yè)端和生態(tài)鏈的每一個環(huán)節(jié)。
今年在丹佛布展的中國公司,覆蓋了互聯(lián)網(wǎng)、大模型、機器人、智能駕駛四大領(lǐng)域:
字節(jié)跳動、阿里巴巴、螞蟻集團、騰訊、美團、元戎啟行、百度、MiniMax、宇樹科技、光輪智能、自變量。

我們現(xiàn)場還看到了官方的贊助商名單,堪稱一份中國 AI 實力的“巡禮圖”:

終極贊助商與白金陣營:騰訊強勢拿下最高級別的 Ultimate Sponsor;在白金贊助商中,阿里云、螞蟻集團、字節(jié)跳動悉數(shù)在列,體現(xiàn)了中國科技巨頭在算力與大模型上的統(tǒng)治力。更引人注目的是,國內(nèi)大模型獨角獸 MiniMax 也躋身白金行列,展示了中國多模態(tài)大模型企業(yè)強勁的出海與科研反哺實力。
黃金與白銀陣營:如果說大廠代表了底氣,那么具身智能等垂直賽道的初創(chuàng)公司則代表了銳氣。在這個區(qū)間,我們看到了令人驚喜的本土生態(tài)網(wǎng):
Sudo(蘇度科技):由知名學(xué)者蘇昊教授創(chuàng)辦的具身智能明星公司,高調(diào)亮相丹佛,帶來其在強化學(xué)習(xí)與物理仿真領(lǐng)域的最新降維打擊。
此前雷峰網(wǎng)編輯在ICRA 2026展會現(xiàn)場報道,蘇度科技機器人已能夠準確抓取不同材質(zhì)和形態(tài)的物體,泛化性極高。
Linkerbot:總部位于北京的中國明星機器人創(chuàng)企,專注于高自由度靈巧手及具身智能硬件研發(fā)。
Nexdata(數(shù)據(jù)堂國際品牌):在數(shù)據(jù)為王的今天,他們直接端出了行業(yè)最緊缺的 VLM 數(shù)據(jù)集及靈巧手物理遙操作數(shù)據(jù),精準卡位“數(shù)據(jù)基建”。
HPC AI COM(潞晨科技):尤洋教授團隊帶來的 Colossal-AI 系統(tǒng),正在為全球開源大模型與視頻生成(如 Open-Sora)提供底層彈藥。
百度(Baidu)與美團(Meituan)也出現(xiàn)在黃金贊助商陣營,進一步壯大了中國軍團的陣容。
從提供算力和基礎(chǔ)架構(gòu)(阿里云、潞晨),到多模態(tài)基座大模型(MiniMax、字節(jié)),再到數(shù)據(jù)集(Nexdata)和具身智能本體硬件(蘇度、Linkerbot),中國企業(yè)在 CVPR 2026 的舞臺上,已經(jīng)完全撕掉了過去“底層代工”的標簽,構(gòu)建起了一條堅不可摧的“軟硬一體全棧 AI 產(chǎn)業(yè)鏈”。
如果說贊助商名單是實力的名片,那么 Workshop 才是真正爭奪話語權(quán)的主戰(zhàn)場。
在 CVPR 2026 為期三天的 Workshop 環(huán)節(jié)中,超過 80 場專題研討會密集開火,其中中國企業(yè)與機構(gòu)不再只是“到場聽講”,而是越來越多地以組織者身份親自“設(shè)局”,把議題方向和評審標準攥在自己手里。
WDFM-EAI:特斯拉與小鵬“純視覺雙雄”同臺
6月3日,本屆 CVPR 產(chǎn)業(yè)濃度最高的對話在 WDFM-EAI(具身智能基礎(chǔ)模型部署)Workshop 悄然上演。
特斯拉 Autopilot 及 AI 負責(zé)人 Ashok Elluswamy 與小鵬汽車通用智能中心負責(zé)人劉先明,以及 Waymo 研究副總裁 Dragomir Anguelov、英偉達感知與機器人研究副總裁 Jan Kautz,罕見同臺。
劉先明是現(xiàn)場唯一受邀的中國車企代表。這也是小鵬第三次登上 CVPR 演講臺。

Ashok 的演講題目為《Building Foundational Models for Robotics at Tesla》,系統(tǒng)披露了 Tesla 在具身智能方向的技術(shù)積累:FSD 上下文長度從約 10 秒猛增至約 30 秒(提升 3 倍);FSD 模型完整輸入/輸出架構(gòu)首次公開亮相。
現(xiàn)場還播放了一段 Tesla Robotaxi 瞬間避讓摔落騎行者的真實視頻,引發(fā)全場熱議,清晰傳遞出 Tesla 的戰(zhàn)略意圖:將自動駕駛作為更廣泛機器人與具身 AI 平臺的一部分,與 Optimus 人形機器人項目深度協(xié)同。

劉先明則給出了小鵬對“模塊化堆疊 vs 端到端世界模型”之爭的明確答案:“VLA 與世界模型并非相互競爭的技術(shù)路線,而是物理世界基座模型的兩大支柱。”
VLA 學(xué)的是“人類駕駛員會怎么做”,世界模型學(xué)的是“物理世界接下來會發(fā)生什么”,二者融合才是正解。
他進一步透露,小鵬第二代 VLA 已量產(chǎn)落地,推送首月用戶輔助駕駛里程占比首次突破 50%,并判斷“只有能做基座模型的公司,才有可能真的做到 L4”。

OpenDriveLab:從自動駕駛到具身智能,上海 AI Lab 系連辦四屆
如果說 WDFM-EAI 是產(chǎn)業(yè)對話場,那么 OpenDriveLab(上海 AI Lab/商湯系)主辦的 EmbodiedAIinLife Workshop 則是學(xué)術(shù)話語權(quán)的硬核爭奪。
這已經(jīng)是該團隊連續(xù)第四年在 CVPR 主辦 Workshop:從 2023 年的“端到端自動駕駛”,到 2024 年的“具身智能與自動駕駛”,到 2025 年的“基礎(chǔ)模型與自主系統(tǒng)”,再到今年的“從實驗室到生活:野外具身智能”,研究視野從特定任務(wù)逐步拓展到通用具身智能。
今年的嘉賓陣容堪稱全明星:
蘇昊教授(蘇度科技創(chuàng)始人、CVPR 2025 程序主席)演講《物理理解的幻覺》;
哈佛助理教授 Yilun Du 談世界模型與具身智能;
UC Berkeley 的 Jiahui Lei 講從 4D 視覺到機器人;
UPenn 助理教授Jiatao Gu發(fā)問“具身智能需要關(guān)心 3D 嗎?”
更值得注意的是,Workshop 尾聲特別設(shè)置了嘉賓與組織者辯論環(huán)節(jié),火藥味可見一斑。

GigaBrain Challenge:真機賽道成中國團隊主場,小米斬獲雙料冠軍
如果說 Workshop 演講描繪了具身智能的理論藍圖,那么賽場上的真機對決則用硬指標給出了最直白的回答:概念能不能落地,數(shù)據(jù)說了算。
由極佳視界(GigaAI)牽頭,聯(lián)合港大、北大、上海交大、地平線機器人、智元機器人(AGIBOT)等共同組織的 GigaBrain Challenge 2026,是本屆 CVPR 競賽維度最豐富的 Workshop 之一。
它同時開設(shè)了四個賽道:仿真 VLA 評測(RoboTwin)、世界模型評估器(GigaWorld)、真機機器人操控(RoboChallenge)和物理爪持演示(PhysClaw),從仿真到真機、從評估到部署,構(gòu)成了一條完整的具身智能能力驗證鏈路。
這個 Workshop 也成了中國團隊的主場:小米拿下 RoboChallenge 真機賽道冠軍(40.89% 成功率,唯一破 40%成功率),電子科技大學(xué)拿下 RoboTwin 仿真賽道冠軍,清華大學(xué)拿下世界模型賽道冠軍,清華深研院拿下 PhysClaw 演示賽道冠軍。中國團隊在四個賽道中包攬全部冠軍,這在 CVPR 歷史上極為罕見。

值得一提的是,小米機器人團隊同時斬獲本屆 CVPR 2026 與 ICRA 2026 兩項冠軍,成為丹佛與維也納雙城最耀眼的“中國賽果”。

RoboChallenge Track共設(shè)置 30 個超難度真實任務(wù),涵蓋雙臂靈巧操作、柔性物體操控、工具因果推理與跨平臺魯棒性,需進行 10 次連續(xù)無干擾測試,且要求提交統(tǒng)一多任務(wù)模型。
在這對泛化性要求極高的賽事中,小米參賽模型“my16”殺出重圍,它采用“S1/S2 雙系統(tǒng) + 長短期記憶 + 跨本體預(yù)訓(xùn)練”的整體架構(gòu),融合了大模型的認知深度、控制器的執(zhí)行精度與記憶系統(tǒng)的長程穩(wěn)定性。
最終,my16以 40.89% 的整體成功率顯著領(lǐng)先,是本屆賽事唯一突破 40% 成功率門檻的模型,綜合排名位列總榜第一。

為了讓參會者更直觀地感受技術(shù)如何轉(zhuǎn)化為現(xiàn)實應(yīng)用,CVPR 2026 歷史上首次在 F 展廳推出“AI Demonstrations”環(huán)節(jié)。
近 30 場來自各大科技公司和研究團隊的現(xiàn)場演示,將實驗室里的前沿論文變成可交互、可運行的真實系統(tǒng)。不少參會者戲稱:“這才是 CVPR 的正確打開方式——不看 poster,看真機。”
而在丹佛主會場之外,一股“平行浪潮”同樣值得關(guān)注。大量無法赴美的歐洲學(xué)者,在巴黎自發(fā)組織了 CVPR@Paris 2026 平行活動,其講者名單含金量極高,包括多位 CV 領(lǐng)域頂尖學(xué)者,近年來在多模態(tài)與視覺大模型領(lǐng)域頻出爆款的香港大學(xué)李弘揚教授(Hongyang Li)在ICRA、CVPR兩大頂會趕場的同時,也受邀成為 CVPR@Paris 2026 的嘉賓,即將登臺分享。

這一方面折射出 CVPR 的全球影響力已溢出丹佛會場,另一方面也暗示著:計算機視覺這場“諸神之戰(zhàn)”,早已不再局限于某一個地理坐標。
CVPR正會將在當(dāng)?shù)貢r間6月5日開始,屆時開幕式上也將會頒布一系列獎項,雷峰網(wǎng)將會持續(xù)關(guān)注。
從 ICRA 的維也納,到 CVPR 的丹佛,技術(shù)的浪潮正在前所未有地加速。
純視覺如何抹平 Sim-to-Real 的虛實差異?視覺大模型如何學(xué)會理解 3D 空間結(jié)構(gòu)與反常識的物理碰撞?VLA 與世界模型的融合終局在哪里?
為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網(wǎng)已全面上線【CVPR 2026 深度專區(qū)】。
專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方的第一手會議動態(tài)。
掃描下方二維碼,或點擊「閱讀原文」關(guān)注專區(qū)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。