3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

本文作者：吳思夢

2026-06-08 10:05

導語：結合了結構的“結構化世界模型”，完全可以作為一種無限可擴展的數據引擎，扛起大規模機器人模型訓練與驗證的重任

作者｜岑峰

2026年6月1日，機器人領域最重要的學術會議國際機器人與自動化會議（ICRA）在奧地利維也納召開。

在首日舉行的“Synthetic Data for Robot Learning” Workshop上，哥倫比亞大學助理教授李昀燭（Yunzhu Li）發表了題為“Structured World Models as Scalable Data Enginesfor Robot Policy Training and Evaluation”的演講，直擊了當今具身智能領域面臨的核心痛點：真實物理交互數據采集成本極高，且模型試錯與評估極其困難。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

為此，他提出將結構化世界模型（Structured World Models）作為機器人策略訓練與評估的“無限數據引擎”。演講指出，純端到端大模型缺乏物理常識，而純物理引擎又受限于嚴苛的觀測條件。團隊從而開辟了一條融合兩者優勢的“中間路線”：

總結而言，將3D物理先驗與海量2D數據學習深度融合，是突破機器人基礎模型（Foundation Models）數據瓶頸的必由之路。

（編者按：雷峰網(公眾號：雷峰網)·AI科技評論此前在《MIT具身智能達人志》一文中有提及李昀燭親歷 Learning 深刻改變機器人領域的經歷，MIT博士畢業后，李昀燭在哥倫比亞大學任職推進世界模型與多模態感知。）

以下是李昀燭在ICRA 2026大會發表的演講精編稿，AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯：

《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》

主講人：李昀竹（Yunzhu Li），哥倫比亞大學

從剛體環境到“結構化世界模型”

感謝主持人的介紹。今天我非常榮幸能與各位分享我們在“構建環境結構化世界模型”方向上的最新探索。我將向大家展示，如何將這些世界模型轉化為強大的數據引擎，以賦能機器人策略的訓練與評估。

最近，機器人的某些子領域正經歷著爆炸式的突破——比如現在滿地跑的人形機器人，或者越來越普及的自動駕駛。但當我們把目光轉向“與環境的復雜物理交互”時，我們到底走到了哪一步？離真正人類水平的操作能力還有多遠？

盡管學術界每天都有各種炫酷的 Demo刷屏，但工業界真正大規模部署的，依然是針對規則幾何體的簡單“拾取與放置”機器人。這顯然不是我們的終極愿景。不僅能駕馭結構化環境，還能在充滿未知的非結構化場景中游刃有余；不僅能擺弄剛硬的鐵塊，還能處理柔軟易變的柔性物體，從而勝任長周期、大跨度的復雜任務。要做到這些，系統所需的泛化與適應能力，必須遠遠甩開現有的技術基線。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

看到大語言模型和視覺模型的驚人成功后，很多人自然會問：這套基礎模型的打法能直接復刻到機器人上嗎？目前主要有兩條路線：一種類似“搭積木”，將基礎模型與系統結合，構建一些結構化的中間接口，以便將基礎模型的知識傳達給機器人；另一條路線則是“端到端”。構建這種端到端模型通常有兩種方式：從視覺語言模型（VLM）進行預訓練，或者從世界模型/視頻模型進行預訓練。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

然而挑戰依然如影隨形：比如可控性，模型真的會聽從你對機器人的指令嗎？能否僅僅通過改變語言指令，就能輕松引導機器人從一個任務無縫切換到另一個任務？更致命的是，視覺語言大模型根本不懂底層的物理法則，如何將預測的視頻畫面落實到下游底層的物理運動控制中，仍然是一個未解決的問題。此外系統還面臨著可調試性和可擴展性的問題。盡管人們在推動“基礎模型與機器人操作結合”方面取得了很大進展，但仍有許多需要解答的問題。

我認為，在這個拼圖中缺失的最關鍵一環，就是環境模型（Models of the environment）。這個模型可以是基于物理的、基于學習的，回顧一下，正是因為這種模型的存在，火箭才能升空、無人機才能翱翔，甚至四足機器狗能在野外狂奔。雖然模型永遠不可能 100%完美，但正是它們，讓機器在真實的物理世界中擁有了立足之本。

對于機器人的靈巧操作而言，我們也必須在它的大腦里建立一個物理世界的“心理模型（Mental Model）”。我們需要能夠預測：當機械臂推出去時，面團會怎么變形？洋蔥塊會如何滾落？正是這種正向預測能力，賦能了機器人的行為規劃。

那么，如何構建這個模型？如果把技術路線比作一個光譜：光譜最左邊是純基于學習（Pure learning-based）的方法，例如DeepMind 的 Genie 3就是這個方向上的絕佳代表；光譜最右邊則是純依賴物理規則的方法，比如NVIDIA Warp/Flex。這兩端各有千秋，但我最核心的考量是：這兩端的中間地帶是否存在某種“黃金地帶”，能把兩者的優勢一網打盡？

過去幾年，我們的答案是：以圖（Graph）為核心的神經動力學模型。我們將物體拆解為無數個粒子，以此來描述剛性和可變形物體內部及相互之間的物理約束規則。我們在CoRL 大會上拿過最佳系統論文的一個案例，就是讓機器人捏面團。機器人可以使用隨機3D打印的工具，在面團上隨便“把玩”十幾分鐘，我們的神經動力學模型能夠預測出：當你使用特定工具施加特定動作時，面團的形狀會如何發生形變。這種預測能力讓機器人能夠進行行為的逆向規劃，并最終成功把面團做成餃子。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

同樣的邏輯，我們也完美應用到了不規則的顆粒物重排、多物體復雜碰撞等高難度任務中。例如我們可以規劃機器人的行為，將顆粒重新分布成不同的目標形狀，也就是從字母 A 到 Z 的形狀。這是一個高度復雜的任務，涉及到顆粒物極不規則的重新分布，以及與目標字母形狀的細粒度對齊。

前兩年的年底，我們在《Science Robotics》上發表了一篇綜述論文，回顧了過去十多年里關于“用于機器人操作的基于學習的動力學模型”研究。這篇論文的整體結構正是建立在我當年博士論文的框架之上的。它真正反映了過去幾年我們在構建該領域模型時，對其中無數細微差別與權衡的深度思考。

數字孿生：突破真機測試的效率瓶頸

沿著這個思路往下走，我們不禁會問：“接下來呢？”

我們絕不能永遠被困在實驗室的桌面上，而是要擴展到更廣泛的自然場景數據收集中去。行業內正投入量的人力物力去真實世界里采集物理交互數據。如果這些帶著極高“物理含金量”的數據，最后僅僅被拿去跑一個簡單的模仿學習，那簡直是暴殄天物！在這些帶有動作條件的真實數據中，蘊含著非常豐富的物理定律。我們完全可以把它們提煉成動力學模型，進而向構建“用于機器人策略訓練和評估的可擴展數據引擎”的目標邁進。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

我們再回顧一下剛才提到的那個技術光譜，我們在偏向“基于物理建模”方向上做了一項核心工作：建可變形物體的數字孿生數字孿生是什么意思是一個包含可變形物體外觀、幾何形狀和動力學特征的物理學實體副本。

大家在左邊看到的是輸入我們系統的實拍視頻。中間，我們展示了重建出的、隨時間追蹤的物體幾何形狀，以及用于描述人類手部輸入動作軌跡的球體網絡；在右側，背景是實拍視頻，前景是我們基于動作條件渲染出來的3D視頻預測它們完美重合。有了這個數字孿生體，你甚至可以用鼠標鍵盤像玩沙盒游戲一樣去揉捏那塊虛擬布料。這個框架同樣適用于布料、繩索等其他可變形物體。

這項工作一經發布，Google 機器人團隊的朋友就找上門來，希望用這套模型來做策略評估。為什么？因為對于 Google這樣的大廠，訓練一個基礎模型可能會產出成百上千個Checkpoints，但由于真機測試太慢，他們只能挑屈指可數的幾個扔到物理世界里去跑，測一輪就得等上一兩天。

這是當前機器人研發最致命的效率瓶頸。他們當時向我吐槽：“哪怕全靠燒錢堆真機，我們硬磕也能磨出結果來。”——但前提只是針對桌面環境的簡單Gemini 機器人任務。如果他們轉向運行周期更長、規模更大、更復雜的任務，這種砸錢堆真機的迭代速度就會斷崖式下跌。

為了解決這個痛點，我們徹底簡化了這種“數字孿生”的構建流程。現在，我們只需要拿著相機繞著物體走一圈，就能捕獲機器人、背景和物體的外觀及幾何形狀，并通過幾次簡短的實際交互來捕捉物體的動力學特性。

大家可以對比第一排的仿真環境和第二排的真實環境。一個僅僅用真實數據訓練出的策略，在數字世界里表現出的成功率與失敗姿態，與物理真實世界實現了極其驚人的線性相關性。

于是我們真正將這個數字引擎用于模型評估。在這里，我們評估了一系列當下最流行的策略算法，以及輕量級的 VLA模型，并跨越了多個不同的 Checkpoints。你可以看到，在許多不同的任務中，我們的數字仿真環境在成功率預測上，與真實環境實現了高度線性的相關。

但這里我必須嚴肅強調：任何做“模型評估”的研究，都必須對測試協議懷有敬畏之心。我們借鑒了豐田研究院（TRI）的嚴苛標準：我們必須極其嚴格地控制并理解訓練和評估時的數據分布，以此來確保在不同模型間進行的是完全公平的比較。

在我的實驗室，我甚至定下一條鐵律：學生在真機評估時，必須向我展示初始狀態的半透明疊影，我直接對他們說，如果不給我看這個疊加圖，我就完全不相信你們的測試結果。

為了確保所有的初始狀態在不同策略間、尤其是在真實環境與數字仿真環境間絕對一致，每次我們在真機上擺放測試物體時，都會像左圖那樣使用半透明疊加輪廓。學生必須將實物嚴絲合縫地對齊在輪廓內，確保初始配置的一致性。

憑借這種嚴謹，我們可以在同一個策略架構內篩選出最佳的Checkpoint，如這個折線圖所示，仿真引擎測出的成功率（數字圖）與真機成功率完美對齊。有趣的是，有時候表現最好的Checkpoint 未必是你訓練到最后的那一個，反而往往出現在訓練的中期。

最近，我也聯合創立了一家初創公司，推進這一理念落地，看看這種數字環境究竟能無限逼近真實世界到什么地步。如視頻所示，左邊是真實環境，右邊是孿生數字環境。這是一個極其復雜的操作任務，最終機器人必須將這兩個齒輪插入一個公差非常小的孔位中。大家在這里看到的是一個完全“只用純仿真數據”訓練出來的策略模型，但它的真機行為表現，與數字環境中的推演依然保持了極高的相關性。

我們可以利用這個數字孿生引擎源源不斷地生成海量訓練數據。由這些數據訓練出的模型策略，能夠直接部署在真實環境中，不間斷且非常可靠地工作。這有力地證明了，由底層物理規則驅動的結構化世界模型，完全有能力捕捉現實中物理交互的細微偏差與復雜性，從而幫我們訓練出足以真機落地的魯棒策略。

這里是柔性線纜的插拔操作的演示。你不僅能看到兩者在渲染外觀上匹配得極其逼真，甚至在操作過程中，系統也完美重現了線纜由于受力不均所表現出的各種異質物理形變。我們在展覽廳的 72 號展位與 Analog Devices聯合進行現場實機演示。如果大家感興趣，非常歡迎過去圍觀。

純AI構造的世界模擬器：零真實數據實現真機落地

剛才是偏向“物理先驗”的路徑，接著，我們把目光投向光譜的另一端，即“擁抱數據、相信大力出奇跡”的純基于學習的方向。由此，我們開發了一項名為“交互式世界模擬器”的工作。

這是一個物理交互語境下的、基于動作條件的視頻生成/預測模型，也是該領域首個真正讓我感覺突破的成果。它證明了純AI的視頻預測模型完全能勝任長周期的、包含高度非平庸的柔性物體交互任務。

各位現在屏幕上看到的這些操作畫面，完完全全是純 AI 生成的視頻，這里沒有任何一臺真實的機器人在參與。

它不僅能以 15 幀/秒的速率，生成了超過 10 分鐘的動作條件預測視頻，它不僅能推演剛體與柔性體的交織互動，甚至還能實時響應。我的學生在這邊操控著遙操作手柄，馬上就能在那個平行宇宙里的AI模擬器中瞬間渲染出對應的物理反饋。這套系統同樣適用于推T型、抓杯子以及多物體交互等復雜操作。

我想重點強調幾個極其炸裂的技術細節：

第一，你可以看到視頻預測模型完全理解了夾爪與繩索之間的物理拓撲約束。它具備真實的 3D深度理解能力，知道這根繩子是在夾子的上方，還是已經被塞進了夾子內部；

第二，模型精準地捕捉了夾爪與馬克杯之間細微的接觸交互。當你張開夾爪、閉合夾爪，或者是去推杯子的邊緣、推杯子的把手時，模型都會相應地預測出杯子不同的旋轉軌跡；

第三，你甚至能在這個純AI生成的視頻里，把杯子從 3D空間中舉起來，放在高處的盤子上。系統確保了不同攝像機視角在三維空間中的絕對一致性。

我們已經將這項工作開源，最近它也剛被頂會 RSS 接收。如果你訪問我們的官方主頁，可以找到并親自上手體驗這些交互式 Demo。

那么，這個“極其逼真的幻覺世界”到底有什么用？正如我開篇所述，這依然服務于我們的核心愿景：一是策略訓練，二是策略評估。

我們在訓練時，沒有采集哪怕一條真實的物理世界數據，所有數據全都是在這個世界模擬器里生成的虛擬軌跡。然而令人吃驚的是，靠純虛構數據喂出來的策略模型，居然可以在復雜的“繩索布線”、“雜物清掃”中實現現實世界零樣本落地。即使畫面里有外人不斷伸手去干擾機器人，機器人的表現依然堅如磐石。這種表現同樣適用于抓取馬克杯、掃除雜物以及井字棋任務。

這就引出了一個終極問題：多少條虛擬數據，才能抵得上一條真實的數據？為了回答這個問題，我們做了一項消融實驗，從 100%虛擬到 100% 真實，不斷調節訓練集里虛實數據的配比。

我們橫向評測了當今最能打的幾套策略算法：Diffusion Policy、ACT以及Pi0模型。甚至最新的大模型架構\pi_0。得出的結論非常震撼：所有模型的表現都保持了跨度極高的一致性。而且這種規律在不同任務間完美遷移。

我可以大膽放言：在我們的世界模擬器中生成的一條虛擬軌跡數據，在訓練價值上，幾乎 100%等效于你在真機上辛苦采集的一條真實數據。

我們也會拿這個世界模型來做策略評估。大家現在看到的是僅用真實數據訓練好的策略，我們將它同時部署在上面這排的虛擬世界模擬器中，和下面這排的真實物理空間中。兩條軌跡幾乎完美同步；如果在底層做定量的誤差評估，它們的數值對齊程度也非常高。

我順帶提個有趣的插曲：幾個拿著Y Combinator投資的年輕創業者，直接拿我們開源的模型去搞商業化融資。我去看了眼他們宣發的BP博客，心想：“好家伙，這圖看著可真眼熟啊！”

總之，這完美印證了我的核心觀點：結合了結構的“結構化世界模型”，完全可以作為一種無限可擴展的數據引擎，扛起大規模機器人模型訓練與驗證的重任。我們完全可以把這些數據的價值榨干：通過它們訓練出極度豐富的世界模型，再用世界模型反哺數據的生成。

最后，我想向我所有的合作者致以最深切的感謝。沒有他們，完成這些龐大的工程系統簡直是天方夜譚，尤其是我的學生們，他們承擔了我剛才所展示工作里幾乎所有最繁重的開發和推演。我還要感謝我實驗室的贊助商們，他們常常提供非常敏銳的行業需求視角，啟發了我們今天的很多研究方向。

這就是我演講的全部內容，我非常樂意回答大家的提問。謝謝大家！

Q&A 問答環節

聽眾A：這種基于圖的神經模擬器，在底層算力上會不會有瓶頸？如果是極其動態的高速操作，還能擴展嗎？

李昀燭：這是一個非常好的問題。圖本質上是對物理環境的一種降維抽象。你可以自由調節參與計算的節點或粒子數量，算力緊張時，你可以把它當成稀疏的“關鍵點”來算。

所以，這本質上是一個在“算力”與“精度”如何平衡的問題。你可以動態調整這個參數，從而在計算效率和仿真效果之間找到最佳折中點。你需要找到那個最精簡、卻又能剛好兜住下游任務所需物理信息的平衡點。

聽眾B：您能詳細講講 3D 高斯濺射與基于圖的表征在您系統里的關系嗎？另外，在評估時到底要給算法喂多少演示數據才算公平？由于不同算法需要的演示形態不一樣，您怎么定義泛化能力的基準呢？

李昀燭：這是一個非常內行的提問，我必須要澄清：在我們的架構里，高斯點僅僅負責環境的光影和外觀渲染。而涉及系統最核心的物理底層，也就是我們說的實際動力學建模，我們完全使用的是圖節點和粒子網絡。

以面團的仿真為例，我們用基于圖的神經動力學模型來算面團的變形，并在圖的網絡結構上套上密集彈簧質點約束來控制它的物理拉伸。這意味著，在我們的架構里，動力學建模引擎與視覺渲染引擎本質上是相互解耦的：高斯管渲染，Graph管物理。兩者在解耦的同時，通過圖形學里經典的“線性混合蒙皮”技術綁定在一起。

關于評估的嚴謹性，我們在實證數據上極其苛刻，如我幻燈片所示，我們硬性規定了極其嚴苛的同一套初始構型。在對比時，對于每種算法策略的每一個Checkpoint，我們雷打不動地在真實環境里跑 20 次實測，在數字環境里也跑 20次。雖然在數字環境里我們一鍵就能跑一萬次，但為了絕對的側邊比對（Side-by-side），我們取 20對 20。

我幻燈片上那密密麻麻的散點圖，每一個點背后都是學生在臺子上一絲不茍擺放 20次換來的真金白銀的數據。你可以數數我學生為了出這幾張圖到底肝了多久，這絕對是苦力活。至于訓練階段，我們就采用行業通行的標準做法，也就是喂給策略大概 50到 200 條演示數據。

聽眾C：您的模型泛化能力如何？比如，如果現在換一個形狀完全不同的小孩玩具，或者換一條材質完全不同的繩子，您的模型還能直接泛化嗎？它是能直接泛化，還是說我要重頭為它訓練一個新模型？

李昀燭：這是個極其直擊痛點的問題！因為我們現在的數字孿生是通過“現實到仿真（Real-to-Sim）”的管線為眼前這個“特定物體”量身定制的，所以它并不能零樣本直接遷移到新物體上。好在現在的極簡流程，只需要幾分鐘就能構建出一個新數字孿生體。

3D 還是 2D？哥大李昀燭：通用機器人基礎模型的解藥在“中間地帶” | ICRA 2026

但是我們的星辰大海不止于此，我們正在全力攻堅的一項工作，就是從這批已經被辨識出的各種物體中，“蒸餾”出一個更高維度的通用神經動力學模型。我們的終極愿景是：只用這一個通用模型，就能自然而然地泛化到所有奇形怪狀的未知可變形物體上。

聽眾D：我非常震撼于您能把偏向 2D數據驅動的視頻生成和偏向 3D 物理先驗驅動的結構化重建完美結合。我知道您的學術背景很偏向 CV，都在狂堆 2D 端到端模型，甚至有人喊出“3D 路線已死”，站在您的視角，您對未來的技術版圖有什么樣的愿景？這兩條路線最終將以何種形態融合？

李昀燭：這是一個非常宏大的問題，如果私下聊，這個話題我們能激辯幾個小時，但我長話短說以表立場：我是 3D技術死心塌地的信徒。

只要有一絲可能讓系統跑在 3D 空間里，我就會不惜一切代價往三維靠攏。哪怕是我在做“生成式視頻預測”這項工作時，我的底線也是必須做“多攝像機視角的聯合推演”。也就是說，即使是跑 2D 的視頻大模型，它的大腦里也必須含有一定程度的三維空間理解能力。

從長遠來看，我絕對承認純數據驅動路線那可怕的潛力——只要算力不斷，但至少現在，它的泛化性、多視角的物理一致性，還差得太遠。

反過來看另一端的純物理引擎呢？邏輯雖然絕對嚴密，但它苛求完整的環境狀態信息，這種理想條件在自然場景里根本不現實。正因為看到了兩者的極限，我才一直死磕這個問題：我到底能在光譜兩端的中間地帶找到什么？

我堅信，最終能改變世界的那個大模型，一定會坐落在 3D 物理結構與 2D海量數據的交匯處。我們要尋找的是那把最精簡的“物理先驗”鑰匙，并讓它在無盡的真實數據浪潮中自我進化。這，才是通向通用機器人時代的終極配方。

謝謝大家！

0人收藏

專題

ICRA 國際機器人與自動化會議

本專題其他文章

吳思夢

編輯

發私信

當月熱門文章