0
| 本文作者: 吳思夢 | 2026-06-08 16:11 |
CVPR 2026主會議于6月7日落下帷幕,三大重磅信號同頻共振:獎項(xiàng)端,Google DeepMind的D4RT摘得最佳論文獎,Oxford VGG實(shí)現(xiàn)CVPR最佳論文「背靠背」兩連冠,何愷明的ResNet/YOLO同獲Longuet-Higgins時間檢驗(yàn)獎,微軟×清華的TRELLIS.2斬獲最佳學(xué)生論文獎;數(shù)據(jù)基建端,號稱「視覺物理ImageNet時刻」的PhysInOne以2M視頻、150K+3D場景、71種物理現(xiàn)象震撼發(fā)布,VLA論文5倍增長、世界模型3倍增長已成共識;人才端,2名本科生半年攬5個頂會、大三學(xué)生憑老舊泰坦GPU拿下最佳學(xué)生論文提名,中國本科生頂會現(xiàn)象成為閉幕日全網(wǎng)熱議話題。以下三大熱門議題,雷峰網(wǎng)(公眾號:雷峰網(wǎng))帶你一口氣看完CVPR 2026閉幕日的所有精華。
熱門議題一:五大獎項(xiàng)全揭曉——D4RT封神、牛津VGG兩連冠、何愷明再獲至高榮譽(yù)
閉幕式上,CVPR 2026五大獎項(xiàng)塵埃落定。Google DeepMind的D4RT以4D動態(tài)場景重建摘得最佳論文獎,標(biāo)志著Oxford VGG連續(xù)兩年站上CVPR最高領(lǐng)獎臺(VGGT'25 + D4RT'26);何愷明團(tuán)隊的ResNet/YOLO同獲Longuet-Higgins時間檢驗(yàn)獎,再次印證其在計算機(jī)視覺史上的奠基地位;微軟×清華的TRELLIS.2以17秒生成PBR資產(chǎn)的驚艷表現(xiàn)斬獲最佳學(xué)生論文獎;SAM 3D獲最佳論文提名,NitroGen(NVIDIA)獲最佳論文榮譽(yù)提名。這五大獎項(xiàng)不僅是論文本身的勝利,更折射出計算機(jī)視覺從2D到4D、從感知到生成的范式遷移主線。
D4RT — CVPR 2026 Best Paper Award(Google DeepMind / UCL / Oxford · 閉幕式揭曉)
[摘要] CVPR 2026最佳論文獎花落Google DeepMind、UCL和Oxford聯(lián)合團(tuán)隊的D4RT。該論文提出了一套高效的4D動態(tài)場景重建方法,在重建質(zhì)量與計算效率之間取得了突破性平衡。這是Oxford VGG實(shí)驗(yàn)室連續(xù)兩年斬獲CVPR最佳論文——2025年的VGGT與2026年的D4RT共同寫就了「背靠背」兩連冠的傳奇,也標(biāo)志著4D重建已從研究前沿正式進(jìn)入主流視野。

ResNet & YOLO — Longuet-Higgins 時間檢驗(yàn)獎(何愷明團(tuán)隊)
[摘要] 何愷明團(tuán)隊的ResNet與YOLO檢測框架同獲CVPR 2026 Longuet-Higgins時間檢驗(yàn)獎,表彰其對計算機(jī)視覺研究與實(shí)踐長達(dá)十年以上的深遠(yuǎn)影響。從2015年的ResNet到2016年的YOLO,這兩項(xiàng)工作經(jīng)歷了大規(guī)模工業(yè)驗(yàn)證后,其奠基性貢獻(xiàn)獲最高級別學(xué)術(shù)獎項(xiàng)認(rèn)可,再次印證何愷明「一作即封神」的傳奇學(xué)術(shù)軌跡。

TRELLIS.2 — 最佳學(xué)生論文獎(微軟 × 清華 · 17秒生成PBR資產(chǎn))
[摘要] 微軟研究院與清華大學(xué)聯(lián)合提出的TRELLIS.2斬獲CVPR 2026最佳學(xué)生論文獎。TRELLIS.2作為原生3D大模型,能在17秒內(nèi)生成超高精度的PBR(物理渲染)資產(chǎn),將3D資產(chǎn)生成從「天級」縮短至「秒級」,被視為3D生成領(lǐng)域的新標(biāo)桿。該論文是產(chǎn)學(xué)研結(jié)合的典范之作。
SAM 3D(最佳論文提名)& NitroGen(NVIDIA · 最佳論文榮譽(yù)提名)
[摘要] SAM 3D提出從單張圖像進(jìn)行3D重建的生成模型,獲CVPR 2026最佳論文提名(Best Paper Finalist);NVIDIA的NitroGen則獲得最佳論文榮譽(yù)提名(Best Paper Honorable Mention),延續(xù)了NVIDIA在CVPR的強(qiáng)勢表現(xiàn)。兩篇論文分屬3D重建與圖像生成方向,代表了當(dāng)前計算機(jī)視覺最具活力的兩個子領(lǐng)域。
熱門議題二:PhysInOne發(fā)布——「視覺物理ImageNet時刻」開啟,世界模型與具身智能論文暴漲
如果說D4RT代表了過去,那么PhysInOne的發(fā)布則指向CV視覺的未來。這個包含2M視頻、150K+動態(tài)3D場景、71種物理現(xiàn)象(力學(xué)、光學(xué)、流體、磁學(xué))的超大型數(shù)據(jù)集,被學(xué)界稱為「視覺物理的ImageNet時刻」——其意義不在于一項(xiàng)技術(shù)突破,而在于為世界模型和具身AI研究奠定了此前缺失的數(shù)據(jù)基礎(chǔ)設(shè)施。與此同時,CVPR 2026數(shù)據(jù)清晰顯示VLA論文數(shù)量增長了5倍、世界模型論文數(shù)量增長了3倍,前AlphaFold2核心成員Simon Kohl以一場被評價為「全場最佳」的Keynote,打通了從蛋白質(zhì)設(shè)計到生成式AI的跨領(lǐng)域鏈路。具身智能正在從學(xué)術(shù)春天走向真正的產(chǎn)業(yè)夏天。
PhysInOne: Physics-Grounded World Models & Embodied AI Dataset(「視覺物理ImageNet時刻」)
[摘要] PhysInOne是一個面向物理世界模型和具身AI的大規(guī)模數(shù)據(jù)集,包含200萬個視頻、150K+動態(tài)3D場景,覆蓋71種物理現(xiàn)象(力學(xué)、光學(xué)、流體、磁學(xué)),并提供完整的2D/3D/4D/文本標(biāo)注。其發(fā)布被視為世界模型訓(xùn)練的分水嶺事件——在此之前,研究者缺少一個大規(guī)模、多元化、帶物理標(biāo)注的數(shù)據(jù)集作為世界模型的學(xué)習(xí)基礎(chǔ)。PhysInOne有望成為具身智能時代的數(shù)據(jù)標(biāo)準(zhǔn),推動機(jī)器人從「看懂世界」到「理解物理」的質(zhì)變。
[鏈接] https://x.com/boyang_vLAR/status/2063676557223514490
Simon Kohl(前AlphaFold2 / Latent Labs CEO)Keynote
[摘要] 前AlphaFold2核心成員、現(xiàn)任Latent Labs CEO Simon Kohl發(fā)表了被多位參會者評價為「全場最精彩Keynote」的演講。他以「預(yù)測器賦能生成模型」為核心洞見:在AlphaFold2中做的是預(yù)測器(Predictor),而在Latent Labs則轉(zhuǎn)向生成器(Generator),AI設(shè)計的抗體已在十人人類panel中展示低免疫激活。這場橫跨CV、計算生物學(xué)與藥物設(shè)計的演講,讓在場研究者看到了視覺模型與生命科學(xué)深度交匯的巨大潛力。

[鏈接] https://x.com/CVPR/status/2063001229672743180?s=20
MAPS: VLA魯棒微調(diào)框架 + VQ-VA World:具身智能方法論的集中爆發(fā)
[摘要] CVPR 2026具身智能方向以「VLA論文5倍增長、世界模型3倍增長」的數(shù)據(jù)坐實(shí)了賽道熱度。MAPS提出了VLA模型魯棒微調(diào)框架,核心發(fā)現(xiàn)是VLA的不同組件需要不同級別的保留與適配策略;VQ-VA World等世界模型相關(guān)論文同期亮相。這標(biāo)志著具身智能從早期的單點(diǎn)突破階段,正式進(jìn)入系統(tǒng)性方法論構(gòu)建階段。
熱門議題三:中國本科生頂會現(xiàn)象引爆網(wǎng)絡(luò)——2人半年5個頂會、大三學(xué)生老泰坦逆襲、美團(tuán)560B開源模型齊登CVPR
CVPR 2026閉幕日,最出圈的討論不是最佳論文花落誰家,而是一群中國本科生的驚艷表現(xiàn)。2名本科生半年內(nèi)在CVPR/ICCV/ECCV等頂級會議上狂攬5篇論文;一位大三學(xué)生僅憑一塊老舊泰坦GPU完成的研究,成功獲得CVPR 2026最佳學(xué)生論文提名——這條消息以極快的速度在機(jī)器之心、新智元、量子位等頭部科技媒體間發(fā)酵,成為閉幕日全網(wǎng)最熱話題。與此同時,中國科技巨頭在CVPR現(xiàn)場同樣重量級:美團(tuán)正式開源560B參數(shù)的LongCat MoE大模型,字節(jié)跳動的HiFi-Inpaint圖像修復(fù)新范式高調(diào)亮相,微軟×清華的TRELLIS.2更是讓產(chǎn)學(xué)研合作成果站上國際舞臺。中國力量,正在以不可忽視的姿態(tài)成為CVPR的主角。
大三本科生憑老泰坦GPU斬獲CVPR最佳學(xué)生論文提名
[摘要] 一名大三本科生使用一塊老舊泰坦(Titan)GPU完成的研究,脫穎而出獲得CVPR 2026最佳學(xué)生論文提名。該故事經(jīng)量子位微信公眾號首發(fā)后迅速引爆全網(wǎng),機(jī)器之心、新智元等頭部科技媒體陸續(xù)跟進(jìn)。在算力軍備競賽愈演愈烈的今天,這一「低配逆襲」敘事?lián)糁辛藢W(xué)術(shù)界的集體共鳴點(diǎn),也讓更多資源受限的高校學(xué)生看到了沖頂頂會的可能。

2名本科生半年5個頂會——中國青年學(xué)者全民出海
[摘要] 兩名本科在讀學(xué)生,僅用半年時間便在CVPR、ICCV、ECCV等五大頂級會議上發(fā)表了5篇論文,并在CVPR 2026上獲得最佳學(xué)生論文提名。這一現(xiàn)象經(jīng)新智元、機(jī)器之心等多家媒體報道后引發(fā)熱議,折射出中國計算機(jī)視覺教育——尤其是本科階段拔尖人才培養(yǎng)體系——的跨越式進(jìn)步。
LongCat:美團(tuán)開源560B MoE大模型(CVPR現(xiàn)場展出)
[摘要] 美團(tuán)在CVPR 2026現(xiàn)場正式發(fā)布并開源LongCat模型家族:560B參數(shù)Mixture-of-Experts架構(gòu),每次推理僅需激活約27B參數(shù),在推理速度與模型能力之間取得了出色平衡。這是中國互聯(lián)網(wǎng)巨頭在CVPR舞臺上最大規(guī)模的模型開源行動之一,標(biāo)志著美團(tuán)AI戰(zhàn)略從應(yīng)用層向基礎(chǔ)模型層的縱深延伸。

[鏈接]https://x.com/VincentLogic/status/2063877403739558179?s=20
HiFi-Inpaint:字節(jié)跳動圖像修復(fù)新范式
[摘要] 字節(jié)跳動在CVPR 2026上提出HiFi-Inpaint,以全新思路解決圖像修復(fù)(Image Inpainting)任務(wù)中的高頻細(xì)節(jié)恢復(fù)難題。該論文經(jīng)CVer公眾號深度解讀后獲得廣泛傳播,成為本屆CVPR中國科技企業(yè)賽道中平面視覺方向最受關(guān)注的成果之一。
[CVPR 2026完美落幕] 視覺物理時代,才剛剛開始
從D4RT的4D重建到PhysInOne的物理數(shù)據(jù)集,從中國本科生的泰坦逆襲到LongCat 560B的開源浪潮。
CVPR 2026告訴我們:計算機(jī)視覺正在從「理解圖像」的時代,
大踏步邁向「理解世界」的時代——而中國,已站上這場變革的中心舞臺。
>> 點(diǎn)擊關(guān)注CVPR專題專區(qū),獲取年度綜述、深度論文解讀與行業(yè)趨勢全盤點(diǎn) <<
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。