0
| 本文作者: 業界評論 | 2026-05-25 16:24 |
近日,螞蟻靈波科技與香港科技大學等高校合作完成的研究論文 《Causal World Modeling for Robot Control》被國際機器人頂級學術會議 Robotics: Science and Systems(RSS)2026 接收。
RSS 是全球機器人領域公認的頂級學術會議之一,長期關注機器人學習、控制、感知、規劃與系統等前沿方向,錄用標準嚴格。論文被 RSS 接收,意味著相關研究不僅具有學術創新性,也獲得了國際機器人研究共同體的高度認可。
這項研究的核心,是讓機器人不只是完成動作,還能夠在行動前預測世界會如何變化。論文提出了面向機器人控制的因果世界建模框架,并將其落地為全球首個開源的自回歸視頻-動作世界模型 LingBot-VA。該模型能夠在機器人執行任務的過程中,持續預測環境變化,并根據預測結果生成下一步動作指令,使機器人具備類似人類“邊觀察、邊判斷、邊行動”的能力。
對螞蟻靈波而言,此次論文入選 RSS 2026,標志著其在“世界模型驅動機器人控制”方向上的探索獲得國際頂級學術平臺認可,也進一步驗證了 LingBot-VA 作為具身智能基礎模型的技術價值。未來,這一路線有望推動機器人從依賴指令執行,走向更強的環境理解、任務泛化和自主決策。
對機器人來說,真正困難的并不只是完成動作,還需要理解這個動作會帶來什么變化。例如,拿起杯子后桌面會怎樣變化,推動抽屜后物體位置會怎樣改變。LingBot-VA 的核心突破,正是把這種對未來變化的預測能力引入機器人控制,讓機器人先預測世界接下來會變成什么樣,再根據預測結果決定應該如何行動。
這也是論文強調“因果世界建模”的原因。真實物理世界沿時間向前,因此機器人在預測未來時,也必須按照真實時間順序一步步向前推演。LingBot-VA 將這一因果關系寫入模型結構,每一步預測都只依據此前的觀察和動作,按時間順序展開。這樣一來,模型生成的就不僅僅是一段展示未來的視頻,而是一條可用于機器人控制決策的因果軌跡。這也讓模型具備了更強的長期記憶能力,對于完成長時序、多步驟的真實任務尤其重要。
在技術實現上,LingBot-VA 采用 Mixture-of-Transformers(MoT)架構,將視頻預測和動作生成統一到同一個自回歸擴散框架中。模型還設計了閉環推演機制,在任務執行過程中持續接收真實環境反饋,減少長時間預測中的誤差累積。
論文在仿真基準和真實機器人任務上系統驗證了 LingBot-VA 的性能。在 RoboTwin 2.0 的 50 個雙臂操作任務中,LingBot-VA 在 Easy 和 Hard 設置下分別取得 92.0% 和 91.1% 的平均成功率;在 LIBERO 基準上達到 98.5%。
在真實世界評測中,面對長時序、高精度以及柔性與關節物體操控這三大類 6 項高難度挑戰,LingBot-VA 僅需 50 條真實示范數據即可完成適配,整體成功率較業界基線 π0.5 提升超過 20 個百分點,展現出良好的數據效率和泛化能力。
LingBot-VA 已在今年早些時候開放模型權重、訓練與推理代碼。研究人員和開發者可在 Model Scope、Hugging Face 和 GitHub 訪問下載。
雷峰網(公眾號:雷峰網)雷峰網雷峰網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。