0

作者丨齊鋮湧
編輯丨馬曉寧
你有沒有發現,2026年的具身智能賽道,很多公司都在考慮中途換帆。
從人形到輪式、從物流到家庭,大量創業公司在技術路線和場景選擇上反復橫跳,仿佛誰先調頭誰就能活下去。在此背景下,AI 科技評論希望找到具身賽道里的“篤定派”。
靈初智能進入了我們的視野。
這家具身公司在過去一年半時間里,累計融資超20億元,國家隊資本密集進入,估值一年漲六七倍。2026年5月7日,摩根士丹利發布《Humanoid Horizons: Money Meets Machines》,在其"中國-人形機器人價值鏈"圖譜中,靈初智能作為"Brain(大腦)"板塊的關鍵一員被列示。
在我們看來,除了00后天才少年陳源培的光環加持,靈初智能還有一個非常稀缺的特點:這是一家從第一天起就錨定方向做輪式底盤加雙臂通用靈巧操作的公司。
堅持追求靈巧操作,這種篤定在今天的具身賽道非常稀缺。這份“篤定”最初來自靈初智能創始人兼CEO王啟斌的判斷,我們就此話題跟他聊聊他眼中的具身賽道。
王啟斌從黑莓手機做到Sonos音箱,從云跡科技的室內配送機器人做到京東的L4無人車,2024年9月創立靈初智能。"2018年我選擇機器人賽道時,就想找一個面向未來的十年長賽道。"王啟斌說,"但現在看來,這個行業的變化速度比我想象的還快。但在快速變化中,他始終認為,操作才是皇冠上的明珠,移動只是入場券。
在這場對話里,他會分享具身賽道的真實創業經歷,數據飛輪的行業真相、具身大腦的生死命題,以及行業終局判斷。
以下是王啟斌與 AI 科技評論的對話,經編輯整理:

01
▎AI 科技評論:你最早在黑莓做智能手機,后來做Sonos音箱,再到云跡和京東無人車,2024年創立靈初。這條路徑看起來是從消費電子到移動機器人,再到具身智能。2018年你為什么篤定機器人是下一個十年賽道?
王啟斌:2008年從喬治華盛頓大學回來后,前十年我一直在做消費品。在黑莓時正值智能手機轉折期,后來做Sonos是全球第一家智能WiFi音箱。那個年代我們主要做全球公司在大中華區的產品負責人角色。
2010年前后是移動互聯網興起,智能手機因為有巨大傳感器和云平臺,端側能力爆發,產生了APP生態。音箱是個小波浪,當時大家想做成Voice VUI,但NLP比較弱。我在看下一個終端形態時,覺得機器人是一個可移動的終端,很有意思。
2018年加入云跡科技,那時候行業基于SLAM技術做移動能力。后來去京東做L4無人車,從室內延伸到室外三維空間。2020年底看到ChatGPT出來后,我們預判模型能力會不停迭代,具身智能會有新機會。2024年成立靈初,從一開始聚焦的就是操作,人形從來不是我們最關注的。
▎AI 科技評論:2024年行業都在追人形機器人,你們為什么反而選擇輪式+雙臂?
王啟斌:2024年我們做融資BP時畫了一個圖,綜合移動能力x操作能力看,當時存量市場有云跡,高仙等主打移動能力,也有具身這波特斯拉和宇樹,這樣主打"移動+人形",我們定位在"移動+雙手操作"方面。
任何一個移動的機器人,如果不能閉環去做任務操作,它一定無法解決客戶需求里最重要的那部分。這是我在云跡和京東最大的教訓。我們把機器人的移動能力,從酒店走廊拓展到了城市道路,從室內延伸到了戶外,但只要它不能用手完成最后一步,任務就始終停在“運到”,而不是“做到”。所以2024年10月我們就預判,主流解決方案形態應該是輪式加雙臂,操作價值遠高于移動。
直到今天,我們依然堅持這個判斷。

02
▎AI 科技評論:你們去年在世界人工智能大會上展示了打麻將、商超打包這些長程任務,成功率很高。但今年4月發布的Psi-R2和Psi-W0,技術路線似乎從VLA轉向了世界模型。這個轉變是怎么發生的?
王啟斌:我們是國內最早做長程靈巧操作的。去年展示打麻將、商超打包,是長程任務在語義層面做理解和規劃,主要靠語言模態。但今年我們看到,如何把人類數據揉進去,如何在時空關系中做任務推理,世界模型很有優勢。
今年4月發布的Psi-R2是策略模型,學"這件事該怎么做";Psi-W0是動作條件型世界模型(AC-WM),推演"換種做法會怎樣"。Psi-W0在訓練中加入了約30%的失敗樣本,讓模型不只學習成功軌跡,也理解失敗如何發生。

▎AI 科技評論:架構上,Psi系列和之前的VLA是什么關系?替代還是融合?
王啟斌:主要是替代了舊的VLA架構。但從輸入輸出看,它們本質可以交互——輸入有視頻、語言、機器人狀態,輸出有機器人動作和對未來狀態的預測。我們現在的架構是基于10萬小時人類數據預訓練的World Action Model(WAM),這在行業里正成為共識性技術路線。
▎AI 科技評論:10萬小時人類數據是怎么采的?行業里有仿真數據、遙操作數據、UMI夾爪數據,你們為什么堅持自研手套采人類五指數據?
王啟斌:去年下半年開始,我們自研穿戴式多模態數據手套,在北京建了數據工廠。手套捕捉視覺、觸覺、關節角,3D軌跡精度達亞毫米級。

這里有個對數據的洞察能力。人類數據是個金字塔:純第一人稱視角視頻容易出現遮擋,多攝像頭又很難搬到真實場景。更重要的是,純視頻數據精度不夠。有人說純視頻能做到毫米級,但那更多是偏靜態的、很慢的動作。操作有很多高頻節拍非常快,基于視頻的東西在這么高動態情況下,怎么做到毫米級?
我們加了關節角和觸覺,做到亞毫米級數據。原來模型能做的事,現在涌現出來的能力更強。比如疊紙盒子,每次折疊形變都不一樣;手機盒鉸鏈、微波爐處理,基礎模型能力明顯不同。
▎AI 科技評論:成本呢?10萬小時聽起來很貴。
王啟斌:通過手套采集的綜合成本,可以降至真機遙操作方案的十分之一。我們計劃推出便攜式眾包版本,讓成本進一步下降。今年和明年,數據采集系統包括云端服務,是靈初很重要的商業化方向。

03
▎AI 科技評論:你們定位是通用靈巧操作的模型公司,但為什么又做整機PsiBot V1?行業里很多公司要么做純算法授權,要么做本體硬件,你們怎么想的?
王啟斌:我們叫"小全棧",不做移動,不碰核心零部件,但做整機設計和全棧軟件。這個選擇是被“逼”出來的。我們買過一些整機硬件,發現底層軟件不開放,控制方式對我們強化學習不友好,很難做到系統最優。
具身模型和語言模型完全是兩回事。語言模型跑在標準化的服務器上,硬件底層是統一的;但具身模型必須直接操控物理世界,從算法到真機之間,隔著巨大的物理動態鴻溝(dynamics gap)。不同機器人的關節結構、傳感器分布、質量慣性全都不一樣。換句話說,在這個行業,連打造一臺軟硬件深度耦合的專用整機(類似iPhone模式)都極富挑戰,更遑論讓同一個foundation model像安卓那樣去適配成百上千種形態各異的硬件。所以一兩年內,我非常看衰純算法授權這種模式。
▎AI 科技評論:但做整機很重。
王啟斌:我們硬件是定制后找代工,軟件全棧自研。因為訓模型出身,我們對數據的洞察很深,知道為什么純視頻數據很難做到后面這些東西。這是靈初最核心的定位。我們錨定在通用靈巧操作的模型公司,但因為要訓模型,所以知道數據怎么采;因為采數據,所以知道整機怎么看透。
▎AI 科技評論:怎么看今年上半年的具身市場?出貨量好像越來越往頭部集中,您覺得具身行業該如何卡位?
王啟斌:出貨量集中說明行業到了決賽圈,但現在的競爭本質還是全棧競爭。大家比拼的是整套系統能不能跑通,成功率、節拍、能不能穩定工作一整天。模型、數據、硬件形態現在還是深度綁定的,誰也解不了耦。(雷峰網)
這也是我們堅持"小全棧"的原因。靈初本質上是一家通用靈巧操作的模型公司,但我們必須對整機有穿透力。因為模型是我們自己訓出來的,所以我們知道純視頻數據為什么不夠、為什么需要亞毫米級的關節角和觸覺;反過來,數據的采集又讓我們對硬件該往哪走看得很透。從2026年往回看,很多硬件基因很強的團隊,在模型側和數據側反而缺乏這種從訓練里長出來的體感。
但我預判,這種"每家都必須做全棧"的狀態大概還會維持兩年左右。兩年后行業會慢慢分化:有人專門做本體代工,有人深耕運控,有人做操作模型和系統集成,生態位重新分層。到那時候,靈初的位置會很清楚:我們是做通用靈巧操作的模型公司,手里握著從數據采集到模型訓練的全套能力,只做輪式加雙臂這個形態,把操作這件事做透。

04
▎AI 科技評論:你們為什么不做家庭場景?今年很多創業公司都在拼命切入這個賽道。
王啟斌:家庭場景泛化性要求最高,但節拍可以慢;工業流水線泛化性最弱,但節拍最快。我們選的是中間態:物流、零售、服務場景,泛化性適中,節拍適中。家庭要做到很通用,還是比較挑戰,得拆細了看。工業場景我們也在看3C和汽車,但純流水線的節拍算賬很難。
▎AI 科技評論:今年以來很多智駕背景的公司也在切入具身,對比你做L4無人車的時間點,他們比你轉向晚了近兩年,你有什么具身心得可以跟他們分享?
王啟斌:智駕有更大市場,但具身比智駕更復雜。智駕的核心是讓機器在結構化環境里跑起來,無論是從酒店走廊還是城市公開道路。從智駕轉過來,有個最大的慣性是覺得"底盤和感知我搞定了,具身不就是加個機械臂嗎?"這個認知陷阱很深。
車的線控底盤是相對標準的,一個車型平臺可以跑幾十萬輛車,傳感器布局、質量慣性、控制接口都是固定的。但具身智能面對的是完全不同的物理世界,是上半身操作,一個靈巧手就有二十多個自由度,雙臂協同加上輪式底盤,整個系統五六十個自由度。你在智駕里訓練的那個模型,處理的是路面上的預測和規劃;到了具身,你要處理的是軟體變形、鉸鏈開合、接觸力控,這些dynamics gap比車與車之間的差異大一個數量級。
▎AI 科技評論:感悟和建議呢?
我的第一個感悟是:不要低估從"移動智能"到"操作智能"的鴻溝。你在智駕積累的數據管線、仿真能力、車隊運營經驗,確實可以復用一部分,但物理交互的復雜度完全不同。我們去年開始自研多模態數據手套,就是因為發現純視覺數據在動態操作精度上根本不夠用,智駕的攝像頭可以拍清楚一百米外的車道線,但機器人疊一個紙盒子,需要亞毫米級的關節角和觸覺反饋,這是兩套數據邏輯。
第二個感悟是時間窗口的殘酷性。我在京東做無人車時,那波L4配送的戰爭基本上已經打完了,頭部格局很清晰。具身這波不一樣,它還在早期,但窗口期比智駕更短。因為大模型爆發得太快,2024年大家還在爭論VLA路線,2025年已經在卷世界模型和人類數據了。如果你還帶著智駕的周期思維,先花兩年打磨硬件平臺,再花兩年上算法,等你的整機ready,模型范式可能已經換了兩代。
第三個感悟可能更直接,上來不要想做通用平臺。具身領域,模型和硬件的耦合深度遠超自動駕駛。靈初選擇做"小全棧",只做輪式加雙臂,不碰核心零部件,但整機設計和底層軟件全自己抓,就是為了能跑快速跑強化學習做驗證。
所以要給建議,就是先找一個窄切口扎進去。智駕的市場邏輯是贏家通吃,因為道路是標準化的,具身的市場邏輯是垂直深耕,先把一種硬件形態、一類操作任務做閉環,比做一個"適配所有機器人的安卓系統"要務實得多。操作才是具身皇冠上的明珠,移動只是入場券。在操作上,我們很快會在工業客戶現場看到更真實的驗證。
▎AI 科技評論:你們今年還有什么計劃?
王啟斌:六七月份,會發基于更大幾十萬小時數據的模型,做更長程、更泛化的任務。年底會做到類似π0.7的語言操控能力,你給機器人一句很粗放的自然語言,它就能做很長程的任務,而且會出現沒見過場景中自己涌現的技能組合。這既是技術秀肌肉,也是服務產業的真實需求,普通人能操作了。
▎AI 科技評論:這需要多少數據?
王啟斌:我們今年目標是百萬小時級人類數據。通用操作能力的涌現需要百萬小時起步,億小時級是終極目標。(雷峰網(公眾號:雷峰網))
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。