CVPR 2026現(xiàn)場直擊：CV與機器人的物理結(jié)界被徹底打破

本文作者：陳淑瑜

2026-06-08 10:18

導(dǎo)語：計算機視覺已經(jīng)走出了「畫框識別」的屏幕舒適區(qū)，全面向真實三維世界進軍。?

6月4日，當(dāng)維也納多瑙河畔的 ICRA 2026 進入正會的最后一天，大洋彼岸的美國丹佛科羅拉多會議中心（Colorado Convention Center）已經(jīng)人聲鼎沸。許多我們前幾天還在維也納見到的熟悉面孔，各大頂尖高校的學(xué)者和硬科技企業(yè)的高管，此刻都正拖著行李箱，馬不停蹄地出現(xiàn)在丹佛的街頭。

這種罕見的“全球雙城趕場”現(xiàn)象背后，是計算機視覺（CVPR）與機器人（ICRA）兩大頂會賽道正在發(fā)生的史詩級大融合。

今年的 CVPR 在丹佛當(dāng)?shù)貢r間 6月3日至4日率先開啟 Workshop 環(huán)節(jié)，正會及重磅頒獎典禮則在 6月5日正式拉開帷幕，雷峰網(wǎng)已提前抵達第一現(xiàn)場，為您帶來這份滾燙的展前觀察。

1.6萬篇投稿的“諸神之戰(zhàn)”：

從感知世界，到理解物理

最新官方數(shù)據(jù)顯示，本屆 CVPR 2026 的論文投稿量達到了驚人的 16,092 篇，較上一年激增 24%，而最終錄用量在 4,090 篇左右，錄用率依舊維持在殘酷的 25.42% 上下。

CVPR 2026現(xiàn)場直擊：CV與機器人的物理結(jié)界被徹底打破

翻看今年的論文列表與 Workshop 議程，如果說前兩年的 CVPR 還在卷圖像生成和 2D 檢測，那么今年丹佛的核心敘事已經(jīng)徹底轉(zhuǎn)向了“多模態(tài)基礎(chǔ)模型”與“具身智能”。

在擠滿人的分會場里，這種趨勢尤為明顯。

無論是探討如何將視覺-語言-動作（VLA）模型部署到自動駕駛和機器人上的 WDFM-EAI（具身智能基礎(chǔ)模型部署）Workshop，還是引入了真實機器人操控挑戰(zhàn)賽（ManipArena Competition）的具身智能專場，都在傳遞一個極其明確的信號：計算機視覺已經(jīng)走出了“畫框識別”的屏幕舒適區(qū)，全面向具有物理法則的真實三維世界進軍。視覺系統(tǒng)不再僅僅滿足于“看（Sense）”，而是開始作為中樞大腦主導(dǎo)“行動（Act）”。

中國高校的論文產(chǎn)出量也折射出這股浪潮的烈度。 最新統(tǒng)計顯示，CVPR 2026 高校論文接收 Top 10 中，中國高校占據(jù)八席：上海交通大學(xué)以 46 篇高居榜首，浙江大學(xué) 40 篇緊隨其后，中國科學(xué)技術(shù)大學(xué) 38 篇位列第三，中山大學(xué)以 36 篇超越北大、清華沖入前四，堪稱本屆最大黑馬。

更為驚人的是西湖大學(xué)。僅 4 位學(xué)者合力產(chǎn)出 22 篇，以“閃電戰(zhàn)”模式躋身第十，人均效率冠絕全場。

CVPR的中國軍團：

大廠坐鎮(zhèn)，新銳出海，重塑生態(tài)話語權(quán)

在去年的頂會上，中國學(xué)者的論文數(shù)量就已占據(jù)半壁江山。而在今年的丹佛，這種中國力量同樣體現(xiàn)在產(chǎn)業(yè)端和生態(tài)鏈的每一個環(huán)節(jié)。

今年在丹佛布展的中國公司，覆蓋了互聯(lián)網(wǎng)、大模型、機器人、智能駕駛四大領(lǐng)域：

字節(jié)跳動、阿里巴巴、螞蟻集團、騰訊、美團、元戎啟行、百度、MiniMax、宇樹科技、光輪智能、自變量。

我們現(xiàn)場還看到了官方的贊助商名單，堪稱一份中國 AI 實力的“巡禮圖”：

終極贊助商與白金陣營：騰訊強勢拿下最高級別的 Ultimate Sponsor；在白金贊助商中，阿里云、螞蟻集團、字節(jié)跳動悉數(shù)在列，體現(xiàn)了中國科技巨頭在算力與大模型上的統(tǒng)治力。更引人注目的是，國內(nèi)大模型獨角獸 MiniMax 也躋身白金行列，展示了中國多模態(tài)大模型企業(yè)強勁的出海與科研反哺實力。
黃金與白銀陣營：如果說大廠代表了底氣，那么具身智能等垂直賽道的初創(chuàng)公司則代表了銳氣。在這個區(qū)間，我們看到了令人驚喜的本土生態(tài)網(wǎng)：

Sudo（蘇度科技）：由知名學(xué)者蘇昊教授創(chuàng)辦的具身智能明星公司，高調(diào)亮相丹佛，帶來其在強化學(xué)習(xí)與物理仿真領(lǐng)域的最新降維打擊。

此前雷峰網(wǎng)編輯在ICRA 2026展會現(xiàn)場報道，蘇度科技機器人已能夠準確抓取不同材質(zhì)和形態(tài)的物體，泛化性極高。

Linkerbot：總部位于北京的中國明星機器人創(chuàng)企，專注于高自由度靈巧手及具身智能硬件研發(fā)。
Nexdata（數(shù)據(jù)堂國際品牌）：在數(shù)據(jù)為王的今天，他們直接端出了行業(yè)最緊缺的 VLM 數(shù)據(jù)集及靈巧手物理遙操作數(shù)據(jù)，精準卡位“數(shù)據(jù)基建”。
HPC AI COM（潞晨科技）：尤洋教授團隊帶來的 Colossal-AI 系統(tǒng)，正在為全球開源大模型與視頻生成（如 Open-Sora）提供底層彈藥。
百度（Baidu）與美團（Meituan）也出現(xiàn)在黃金贊助商陣營，進一步壯大了中國軍團的陣容。

從提供算力和基礎(chǔ)架構(gòu)（阿里云、潞晨），到多模態(tài)基座大模型（MiniMax、字節(jié)），再到數(shù)據(jù)集（Nexdata）和具身智能本體硬件（蘇度、Linkerbot），中國企業(yè)在 CVPR 2026 的舞臺上，已經(jīng)完全撕掉了過去“底層代工”的標簽，構(gòu)建起了一條堅不可摧的“軟硬一體全棧 AI 產(chǎn)業(yè)鏈”。

Workshop 密集開火：

中國企業(yè)從“參會”走向“設(shè)局”

如果說贊助商名單是實力的名片，那么 Workshop 才是真正爭奪話語權(quán)的主戰(zhàn)場。

在 CVPR 2026 為期三天的 Workshop 環(huán)節(jié)中，超過 80 場專題研討會密集開火，其中中國企業(yè)與機構(gòu)不再只是“到場聽講”，而是越來越多地以組織者身份親自“設(shè)局”，把議題方向和評審標準攥在自己手里。

WDFM-EAI：特斯拉與小鵬“純視覺雙雄”同臺

6月3日，本屆 CVPR 產(chǎn)業(yè)濃度最高的對話在 WDFM-EAI（具身智能基礎(chǔ)模型部署）Workshop 悄然上演。

特斯拉 Autopilot 及 AI 負責(zé)人 Ashok Elluswamy 與小鵬汽車通用智能中心負責(zé)人劉先明，以及 Waymo 研究副總裁 Dragomir Anguelov、英偉達感知與機器人研究副總裁 Jan Kautz，罕見同臺。

劉先明是現(xiàn)場唯一受邀的中國車企代表。這也是小鵬第三次登上 CVPR 演講臺。

Ashok 的演講題目為《Building Foundational Models for Robotics at Tesla》，系統(tǒng)披露了 Tesla 在具身智能方向的技術(shù)積累：FSD 上下文長度從約 10 秒猛增至約 30 秒（提升 3 倍）；FSD 模型完整輸入/輸出架構(gòu)首次公開亮相。

現(xiàn)場還播放了一段 Tesla Robotaxi 瞬間避讓摔落騎行者的真實視頻，引發(fā)全場熱議，清晰傳遞出 Tesla 的戰(zhàn)略意圖：將自動駕駛作為更廣泛機器人與具身 AI 平臺的一部分，與 Optimus 人形機器人項目深度協(xié)同。

劉先明則給出了小鵬對“模塊化堆疊 vs 端到端世界模型”之爭的明確答案：“VLA 與世界模型并非相互競爭的技術(shù)路線，而是物理世界基座模型的兩大支柱。”

VLA 學(xué)的是“人類駕駛員會怎么做”，世界模型學(xué)的是“物理世界接下來會發(fā)生什么”，二者融合才是正解。

他進一步透露，小鵬第二代 VLA 已量產(chǎn)落地，推送首月用戶輔助駕駛里程占比首次突破 50%，并判斷“只有能做基座模型的公司，才有可能真的做到 L4”。

OpenDriveLab：從自動駕駛到具身智能，上海 AI Lab 系連辦四屆

如果說 WDFM-EAI 是產(chǎn)業(yè)對話場，那么 OpenDriveLab（上海 AI Lab/商湯系）主辦的 EmbodiedAIinLife Workshop 則是學(xué)術(shù)話語權(quán)的硬核爭奪。

這已經(jīng)是該團隊連續(xù)第四年在 CVPR 主辦 Workshop：從 2023 年的“端到端自動駕駛”，到 2024 年的“具身智能與自動駕駛”，到 2025 年的“基礎(chǔ)模型與自主系統(tǒng)”，再到今年的“從實驗室到生活：野外具身智能”，研究視野從特定任務(wù)逐步拓展到通用具身智能。

今年的嘉賓陣容堪稱全明星：

蘇昊教授（蘇度科技創(chuàng)始人、CVPR 2025 程序主席）演講《物理理解的幻覺》；
哈佛助理教授 Yilun Du 談世界模型與具身智能；
UC Berkeley 的 Jiahui Lei 講從 4D 視覺到機器人；
UPenn 助理教授Jiatao Gu發(fā)問“具身智能需要關(guān)心 3D 嗎？”

更值得注意的是，Workshop 尾聲特別設(shè)置了嘉賓與組織者辯論環(huán)節(jié)，火藥味可見一斑。

GigaBrain Challenge：真機賽道成中國團隊主場，小米斬獲雙料冠軍

如果說 Workshop 演講描繪了具身智能的理論藍圖，那么賽場上的真機對決則用硬指標給出了最直白的回答：概念能不能落地，數(shù)據(jù)說了算。

由極佳視界（GigaAI）牽頭，聯(lián)合港大、北大、上海交大、地平線機器人、智元機器人（AGIBOT）等共同組織的 GigaBrain Challenge 2026，是本屆 CVPR 競賽維度最豐富的 Workshop 之一。

它同時開設(shè)了四個賽道：仿真 VLA 評測（RoboTwin）、世界模型評估器（GigaWorld）、真機機器人操控（RoboChallenge）和物理爪持演示（PhysClaw），從仿真到真機、從評估到部署，構(gòu)成了一條完整的具身智能能力驗證鏈路。

這個 Workshop 也成了中國團隊的主場：小米拿下 RoboChallenge 真機賽道冠軍（40.89% 成功率，唯一破 40%成功率），電子科技大學(xué)拿下 RoboTwin 仿真賽道冠軍，清華大學(xué)拿下世界模型賽道冠軍，清華深研院拿下 PhysClaw 演示賽道冠軍。中國團隊在四個賽道中包攬全部冠軍，這在 CVPR 歷史上極為罕見。

值得一提的是，小米機器人團隊同時斬獲本屆 CVPR 2026 與 ICRA 2026 兩項冠軍，成為丹佛與維也納雙城最耀眼的“中國賽果”。

RoboChallenge Track共設(shè)置 30 個超難度真實任務(wù)，涵蓋雙臂靈巧操作、柔性物體操控、工具因果推理與跨平臺魯棒性，需進行 10 次連續(xù)無干擾測試，且要求提交統(tǒng)一多任務(wù)模型。

在這對泛化性要求極高的賽事中，小米參賽模型“my16”殺出重圍，它采用“S1/S2 雙系統(tǒng) + 長短期記憶 + 跨本體預(yù)訓(xùn)練”的整體架構(gòu)，融合了大模型的認知深度、控制器的執(zhí)行精度與記憶系統(tǒng)的長程穩(wěn)定性。

最終，my16以 40.89% 的整體成功率顯著領(lǐng)先，是本屆賽事唯一突破 40% 成功率門檻的模型，綜合排名位列總榜第一。

現(xiàn)場直擊：F 展廳首秀與巴黎響應(yīng)

為了讓參會者更直觀地感受技術(shù)如何轉(zhuǎn)化為現(xiàn)實應(yīng)用，CVPR 2026 歷史上首次在 F 展廳推出“AI Demonstrations”環(huán)節(jié)。

近 30 場來自各大科技公司和研究團隊的現(xiàn)場演示，將實驗室里的前沿論文變成可交互、可運行的真實系統(tǒng)。不少參會者戲稱：“這才是 CVPR 的正確打開方式——不看 poster，看真機。”

而在丹佛主會場之外，一股“平行浪潮”同樣值得關(guān)注。大量無法赴美的歐洲學(xué)者，在巴黎自發(fā)組織了 CVPR@Paris 2026 平行活動，其講者名單含金量極高，包括多位 CV 領(lǐng)域頂尖學(xué)者，近年來在多模態(tài)與視覺大模型領(lǐng)域頻出爆款的香港大學(xué)李弘揚教授（Hongyang Li）在ICRA、CVPR兩大頂會趕場的同時，也受邀成為 CVPR@Paris 2026 的嘉賓，即將登臺分享。