0
| 本文作者: 徐咪 | 2025-10-17 17:58 |
近年來機器人的“體能”正在以肉眼可見的速度進步——后空翻、跑酷、馬拉松,這些曾經只屬于人類的運動能力,如今機器人也能輕松完成。然而,讓機器人完成一個后空翻很難,但讓它“理解”面前的水杯為什么倒下后水會灑出來,或許更難。
繼Deepseek在大語言模型開源促進行業發展后,北京人形機器人創新中心再次打破邊界并開源了全新的世界模型架構,提出了一個讓機器人真正“看見、理解并行動于世界”的具身世界模型——WoW(World-Omniscient World Model),幫助具身智能機器人快速學習掌握各項技能,助力行業打造“最好用”的機器人。
一經發布,該模型便受到學術界產業界廣泛關注,其中Huggingface官方留言:Excellent work,并重點推薦希望上傳更多內容。斯坦福具身智能大佬 、PI創始人、清華合作文章也引用了WoW具身世界模型技術報告。這意味著北京人形機器人創新中心在具身世界模型領域走在世界前列。
這不僅僅是一次視覺模型的升級,更是一個融合了視覺、動作、物理感知與推理的統一世界生成框架。 它讓 AI 不再只是“看視頻”或“生成圖像”,而是能通過交互學習世界的物理規律,并在真實環境中自主操作。如果說GPT系列讓機器“讀懂語言”,Sora系列是在“看世界”,那么 WoW 就是讓機器人“理解物理世界”,并且給到算法觸摸世界的雙手。創新的技術架構、完全開源的策略、完整的工具支持,使得WoW有望成為世界模型領域的“Deepseek"。
相較于 Sora 2, WoW 具身世界模型 在模擬機器人操作的時空一致性、物理推理能力表現更為出色。
圖 WoW生成依次抓取火方塊,柔性方塊,水方塊
圖 WoW生成打開喬布斯自傳書
圖 Sora 2生成依次抓取火方塊,柔性方塊,水方塊
圖 Sora 2生成打開喬布斯自傳書
創新的技術架構體系,重新定義世界模型能力邊界
北京人形提出了一個全新的多模態大模型框架,將世界生成(World Generation)、動作預測(Action Inference)、視覺理解(Vision-Language Models, VLM) 和自我反思(Refiner Agent)融合為一個統一系統,成功解決傳統架構物理一致性、因果推理和跨本體跨場景跨動作泛化方面的局限。
圖 WoW 是一個融合了感知、預測、判斷、反思與行動五個環節的具身世界模型。它從真實的機器人交互數據中學習,能在已知與未知場景中生成高質量、物理一致的機器人視頻,最終讓想象中的動作真正落地于現實執行。
WoW具身世界模型系統由四個核心組件構成:
DiT 世界生成基座模型(Diffusion Transformer) —— 具備真實世界推理與生成能力的[物理引擎+想象系統]
WoW具身世界模型能夠根據環境狀態與歷史幀,預測未來場景、推演物理演化、還原動態因果鏈。在此基礎上,北京人形從800萬條海量機器人與物理世界交互軌跡, 并自建數據優化精煉管線,篩選出200 萬條高質量的訓練集,訓練了多個版本的世界模型, 從 1.3B → 2B → 7B → 14B 參數的全系列擴展,并驗證了隨著模型規模提升,物理一致性與生成穩定性以及泛化性呈顯著上升趨勢。
域內(In-domain)泛化生成:
圖 WoW生成打開洗碗機
圖 WoW生成打開水龍頭放下蘋果
圖 WoW生成機械臂生成依次按下紅色按鈕,收拾餐具,按下綠色開關(長程任務)
域外(Out-of-domain)泛化生成:
(a)北京人形具身天工2.0
圖 WoW生成具身天工2.0把橙子放進盤子里
圖 WoW生成具身天工2.0倒酒
圖 WoW生成具身天工2.0把面包放進面包機
(b)更有趣的泛化
圖 WoW生成其他類型機器人打招呼
圖 WoW生成從梵高的向日葵畫里拿出向日葵
圖 WoW生成機械臂夾爪工作軌跡流
WoW 不是在記憶訓練場景,而是在學習“物理規律的抽象本質”,具備跨機器人形態泛化、任務泛化、場景泛化全方位能力,這類“視覺+物理”的泛化能力,是通向具身智能(Embodied Intelligence)的關鍵指標。
圖 機器人本體形態泛化
圖 機器人動作任務泛化

圖 更多泛化能力
SOPHIA 自反范式(Solver–Critic–Refiner) —— 業內首次提出SOPHIA框架,讓世界模型“自己教自己”。
WoW 具身世界模型遵循 SOPHIA 范式——將大語言模型 (LLM) 與 擴散 Transformer (DiT) 結合起來,在語言引導下生成物理上合理的未來,通過“生成預測(predict)—批評(critic)—修正(refine)”的迭代循環機制,將“想象(imagination)”與“推理(reasoning)”統一為具身智能的基本組成部分,正類似于人類智能“想象-驗證-修正-再想象”的核心特征,讓模型越看越準,越生成越真實。
圖 左側展示了 動態評論模型(Dynamic Critic Model Team),它通過真實與合成視頻的標注訓練,學會判斷生成畫面的物理合理性。右側展示 Refiner Agent(優化智能體),根據評論模型的反饋不斷改寫提示詞、重新生成視頻,形成一個“生成—批評—改進”的閉環優化過程。
FM-IDM 逆動力學模型(Flow-Mask Inverse Dynamics) —— 從視頻到動作,給算法觸摸世界的雙手
WoW具身世界模型實現[視頻生成]和[機器人動作]閉環,通過給定連續兩幀預測視頻,FM-IDM能夠計算出機器人末端執行器的動作變化量,從視覺“想象”中反推出真實可執行的運動指令,讓模型真正實現從視頻到行動的閉環,意味著AI不再停留在“想象中”,而能真正“動手”去驗證自己的理解,標志著真正實現從生成到執行的跨越。
圖 給定連續兩幀預測視頻,FM-IDM(Flow-Mask Inverse Dynamics Model)能夠計算出機器人末端執行器的動作變化量(ΔAction),從視覺“想象”中反推出真實可執行的運動指令,讓模型真正實現從視頻到行動的閉環。
WoWBench 世界基準 —— 全球首個針對具身世界模型的綜合基準,讓“想象力”第一次有了可量化的科學標準
北京人形提出了專測“物理一致性與因果推理”的新基準 WoWBench, 也是全球首個針對具身世界模型的綜合基準,從四大核心維度評估模型能力——感知理解、預測推理、決策與規劃、泛化執行,覆蓋包括視覺保真與時間一致、指令理解與語義正確性、物理與因果推理、規劃與任務分解等多個指標,采用混合評測機制(專家模型+GPT或精調VLM+人類專家)進行評分,確保模型表現與人類認知保持一致。
圖 WoWBench 圍繞五個核心組成部分構建:(左上)多維評測體系,從視頻質量、規劃推理、物理規律、指令理解四個角度評價生成結果;(中上)對應具身世界模型的四大核心能力——感知、規劃、預測與泛化;(右上)依托多源數據構建流程,融合自采、開源與AI生成數據,并結合 GPT 預篩選 + 人類標注 的混合機制,形成高質量的視頻–指令對(圖中三張餅圖展示了數據分布統計);(中部)采用雙評測機制:專家模型評估運動與一致性,GPT或精調VLM評估指令理解與任務規劃;(底部)還邀請了12位領域專家進行人工評審,確保模型表現與人類認知一致。
實踐測評,WoW性能領先強勢基線模型
經評測驗證 WoW具身世界模型,區別于傳統僅追求視覺保真度的視頻生成,WoW 的“自我優化循環(SOPHIA 框架)”使模型能從推理—生成—反思的閉環中不斷改進,在WoWBench四大指標中全面領先,未加入SOPHIA Agent自優化模塊前,WoW-DiT在人類與自動評測中已經均取得最高分(Overall = 49.39),遠超Cosmos-Predict、CogVideoX等強勢基線模型,加入 SOPHIA Agent自優化模塊(Self-Optimization Framework) 后,總體評分更是進一步提升至 51.97,超過所有對比模型。
表 WoW-DiT本身已經在人類與自動評測中均取得最高分
表 加入 SOPHIA Agent自優化模塊(Self-Optimization Framework) 后,WoW+Agent 的總體評分進一步提升至 51.97,超過所有對比模型。
WoW具身世界模型學習到的不僅具備外觀一致性,并且具備物理機制的一致性,在物理模擬指標量化測評中,在復雜動力學(軟體、流體、光學)等場景中全面領先,特別是非剛體動力學的柔性物體或流體中優勢顯著。
表 物理模擬指標量化
在不同難度的機器人實驗中,WoW具身世界模型驅動的FM-IDM中,簡單任務成功率高達94.5%,遠超傳統逆動力學基線模型,中等難度的成功率達到 75.2% (創下新SOTA,尤其在中等任務上顯著超越其他方法),當部署到實際機械臂上,WoW 生成的動作幾乎可直接執行,實現“從像素到動作”的完整閉環。
表 不同難度級別下的視頻回放成功率基準
圖 WoW 在真實機器人環境中的有效性。(左)展示了 WoW 在真實機器人上執行的 簡單與中等難度任務 的成功軌跡示例。 (右)展示三種不同世界模型骨干(backbone)在現實世界準確性比較的定量結果。在所有基礎模型中,微調都極大地提高了現實世界中的性能,其中 WoW-cosmos2 達到了 最高得分,展現了最優的實際執行能力。
從 3萬 到 200萬 條交互軌跡,WoW 的性能幾乎呈冪律增長——證明真實交互數據比純視覺數據更能塑造“世界理解力”。14B 參數版本在復雜物理任務上表現最穩健,此外7B模型也能在效率與效果間取得理想平衡。
圖 WoWBench 各模型多維細粒度性能對比圖
開源開放,構建世界模型的研究基礎設施
北京人形機器人創新中心開源WoW具身世界模型部分模型權重,推理代碼與WoWBench,這種程度的開源,使得全球研究者不僅能夠復現論文結果,更能夠在WoW的基礎上進行深入研究和應用開發,大大降低了世界模型研究的入門門檻,加速具身智能機器人走入生活方方面面。
開源部分模型權重:包含1.3B、2B、7B、14B三個參數量級的預訓練模型。
開源訓練推理代碼:從數據預處理到模型部署推理的流程代碼。
開源WoWBench評估基準:首個專門針對具身世界模型的綜合測試標準。
應用前景廣闊,實現從技術到產業的全面賦能
北京人形發布的WoW具身世界模型,憑借創新的技術架構,優越的性能表現以及開源開放合作賦能,助力具身智能機器人多場景落地。
學術研究層面:北京人形為世界模型研究提供統一的基準平臺和可比較的評估體系,并將WoWBench基準和模型開源,加速研究進展,促進科研復現。
技術演進層面:智能體自我訓練平臺,北京人形提供自優化接口,WoW世界模型可作為交互式生成模擬沙盒,使VLM在長時序任務規劃中“自我調試邏輯錯誤”,可顯著提升模型在模糊任務中的自我修正與反思能力。
產業應用層面:一方面WoW具身世界模型可以實現數據遷移與擴增,從少量真實數據出發,生成更多合成樣本,完成“想象-生成-再標注-遷移”的自循環過程,讓AI擁有“自我造數”能力。
圖 少量真是數據出發,生成更多合成樣本
另一方面WoW具身世界模型可以從視覺“想象”中反推真實可執行的動作指令,可遷移真實機器人本體上執行抓取、裝配等各類操作任務,使機器人具備了在復雜環境中自主理解與執行自然任務指令的能力。
圖 想象遷移真實機器人本體
WoW通過系統性結合完成了 想象世界 → 理解物理 → 生成視頻 → 執行動作 → 再學習 的邏輯閉環,當 AI 擁有“手”和“身體”,能夠真實地探索世界、干預世界、理解因果、積累經驗,它將不再只是世界的觀察者,而成為一個真正的智能體。
此前,北京人形機器人創新中心“具身天工Ultra”獲得全球首個人形機器人半程馬拉松冠軍,并且采用”全自主“方式在首屆世界人形機器人運動會,獲得100米短跑項目的冠軍,成為人形機器人史上首個百米“飛人”,充分展示其“最能跑”的領先技術實力;基于”慧思開物“平臺下的”具身大小腦協同,北京人形僅憑天軼2.0一款機器人,在首屆世界人形機器人運動會一舉斬獲一金三銀一銅的優異成績,表現出卓越的泛化能力——面對毫米級物料插裝、復雜路徑搬運、行李識別與運送等任務,均能在無人干預下高效完成,能夠在多個垂直場景中同時達到頂尖水平,且在效率上不輸專用機器人,同樣也證明了其“最好用”。
本次WoW具身世界模型的開源,進一步展現了北京人形機器人創新中心在大腦方面的領先實力,從[理解世界]到[重建世界],WoW具身世界模型讓我們看到人工智能真正成為具身智能體的未來,圍繞“最能跑、最好用”北京人形機器人創新中心將持續開源開放,加速具身智能落地應用。
論文地址: https://arxiv.org/pdf/2509.22642
項目地址: https://wow-world-model.github.io/#
開源代碼地址: https://wow-world-model.github.io/
開源模型地址:https://huggingface.co/WoW-world-model