讓機器人“邊想邊做”，螞蟻靈波“因果世界模型”論文被世界機器人頂會RSS 2026接收

本文作者：業界評論

2026-05-25 16:24

導語：近日，螞蟻靈波科技與香港科技大學等高校合作完成的研究論文《Causal World Modeling for Robot Control》被國際機器人頂級學術

近日，螞蟻靈波科技與香港科技大學等高校合作完成的研究論文《Causal World Modeling for Robot Control》被國際機器人頂級學術會議 Robotics: Science and Systems（RSS）2026 接收。

RSS 是全球機器人領域公認的頂級學術會議之一，長期關注機器人學習、控制、感知、規劃與系統等前沿方向，錄用標準嚴格。論文被 RSS 接收，意味著相關研究不僅具有學術創新性，也獲得了國際機器人研究共同體的高度認可。

這項研究的核心，是讓機器人不只是完成動作，還能夠在行動前預測世界會如何變化。論文提出了面向機器人控制的因果世界建模框架，并將其落地為全球首個開源的自回歸視頻-動作世界模型 LingBot-VA。該模型能夠在機器人執行任務的過程中，持續預測環境變化，并根據預測結果生成下一步動作指令，使機器人具備類似人類“邊觀察、邊判斷、邊行動”的能力。

對螞蟻靈波而言，此次論文入選 RSS 2026，標志著其在“世界模型驅動機器人控制”方向上的探索獲得國際頂級學術平臺認可，也進一步驗證了 LingBot-VA 作為具身智能基礎模型的技術價值。未來，這一路線有望推動機器人從依賴指令執行，走向更強的環境理解、任務泛化和自主決策。

讓機器人“邊想邊做”，螞蟻靈波“因果世界模型”論文被世界機器人頂會RSS 2026接收

對機器人來說，真正困難的并不只是完成動作，還需要理解這個動作會帶來什么變化。例如，拿起杯子后桌面會怎樣變化，推動抽屜后物體位置會怎樣改變。LingBot-VA 的核心突破，正是把這種對未來變化的預測能力引入機器人控制，讓機器人先預測世界接下來會變成什么樣，再根據預測結果決定應該如何行動。

這也是論文強調“因果世界建模”的原因。真實物理世界沿時間向前，因此機器人在預測未來時，也必須按照真實時間順序一步步向前推演。LingBot-VA 將這一因果關系寫入模型結構，每一步預測都只依據此前的觀察和動作，按時間順序展開。這樣一來，模型生成的就不僅僅是一段展示未來的視頻，而是一條可用于機器人控制決策的因果軌跡。這也讓模型具備了更強的長期記憶能力，對于完成長時序、多步驟的真實任務尤其重要。

在技術實現上，LingBot-VA 采用 Mixture-of-Transformers（MoT）架構，將視頻預測和動作生成統一到同一個自回歸擴散框架中。模型還設計了閉環推演機制，在任務執行過程中持續接收真實環境反饋，減少長時間預測中的誤差累積。

論文在仿真基準和真實機器人任務上系統驗證了 LingBot-VA 的性能。在 RoboTwin 2.0 的 50 個雙臂操作任務中，LingBot-VA 在 Easy 和 Hard 設置下分別取得 92.0% 和 91.1% 的平均成功率；在 LIBERO 基準上達到 98.5%。

在真實世界評測中，面對長時序、高精度以及柔性與關節物體操控這三大類 6 項高難度挑戰，LingBot-VA 僅需 50 條真實示范數據即可完成適配，整體成功率較業界基線 π0.5 提升超過 20 個百分點，展現出良好的數據效率和泛化能力。

LingBot-VA 已在今年早些時候開放模型權重、訓練與推理代碼。研究人員和開發者可在 Model Scope、Hugging Face 和 GitHub 訪問下載。

雷峰網(公眾號：雷峰網)雷峰網雷峰網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

業界評論

編輯

發私信

當月熱門文章