0

作者丨向 欣
編輯丨高景輝
在競技體育中,有一種勝利含金量最高——在對手主場、用對手制定的規則、擊敗對手。
剛剛,一家中國公司在北美具身智能的“奧林匹克”賽場上,完成了這一壯舉。
由UC Berkeley、斯坦福和英偉達聯合發起的全球具身智能實戰評測平臺RoboArena,被譽為機器人領域的“Chatbot Arena”。RoboArena最新榜單顯示,千尋智能自研的具身基座模型Spirit v1.6,在技術全能項目中力壓英偉達最新模型Cosmos3與Physical Intelligence (以下簡稱PI)Pi0.5,排名全球第一,成為前三名中唯一的中國具身模型。

有趣的是,英偉達和PI不僅是參賽者,還是賽事的設計方。就在不久前的NVIDIA GTC Taipei 2026大會上,英偉達還專門介紹,自家最新發布的NVIDIA Cosmos 3模型在RoboArena上排名第一。賽事主辦方親自為榜單站臺。

而現在榜首換人了。千尋這次登頂,頗有種踢館成功的意味。以前中美在具身智能賽場是各自練兵,今天千尋直接去美國隊的主場,拿了塊全能金牌。
同時,千尋智能在資本市場上也獲得了頂薪續約。千尋智能今日正式官宣完成15億元A+輪融資,三個月融資四輪,刷新具身智能行業融資速度記錄,股東包含一線美元基金、大型產業投資方以及國資基金,老股東持續加碼,構筑起頂級財務PE、國際美元基金、實業產業資本、各地方國資等全方位合圍的頂配資本陣容。
至此,千尋今年累計融資金額已近50億元。
技術登頂與資本頂配兩件事放在一起看,背后傳遞出的信息遠比表面看到的更加豐富。
過去一年,具身智能領域融資紀錄不斷刷新,榜單高分層出不窮,但“刷榜”現象讓這些成績的真實含金量備受質疑。
RoboArena受到關注,正是因為試圖解決這個問題。它把具身Benchmark從標準化考試變成了一場防作弊、重泛化、難以刷分的全球實戰擂臺賽,模型需要面對完全未知的場景和物體,實打實地考驗泛化性與穩定性。
千尋的模型登頂,也足以讓整個行業重新審視中國玩家的位置。
長期以來,具身智能領域最重要的話語權主要掌握在美國頭部機構手中。如今,中國企業已在模型能力和落地速度上快速追趕,實現并跑甚至領跑。
在具身智能的技術對決中,以千尋智能為代表的中國力量已經具備了與美國頂尖玩家正面掰手腕的底氣。
大額融資的持續落地,則讓這種技術優勢有機會進一步轉化為數據優勢和場景優勢。中國具身智能企業,會跑得越來越快。

01
具身智能行業一直存在一個現實問題:評測成績與真實世界表現并不能簡單畫等號。榜單高分與真實世界的泛化落地之間,橫亙著一條巨大的鴻溝。
問題出在評測方式上。具身智能領域建立了大量Benchmark。不同榜單覆蓋仿真、真機、導航、操作、長程任務以及VLA模型、世界模型等不同條件和方向,為研究者提供了統一的評價體系,也推動了技術進步。
但標準化評測天然存在局限。為了保證可重復性,大多數榜單都會固定場景、固定任務和固定評價規則。模型經過反復訓練后,可以逐漸適應這些測試條件。
于是行業開始出現“刷榜”現象,不少公司針對榜單進行專項優化,從而刷出高分,但這與具身智能所追求的核心能力“泛化”背道而馳。結果是,某些模型能夠在特定任務上取得極高分數,但換環境、物體或者操作順序,表現可能大幅下降。
這種做法就像學生靠題海戰術拿滿分,換個沒做過的題目就束手無策。模型越來越會考試,卻未必越來越會干活。
PI的具身模型核心研究員Karl Pertsch曾犀利地評價這類榜單:“注定是徒勞”。
對于需要進入工廠、門店和家庭的機器人來說,此類成績參考價值不夠高。“刷榜”現象也削弱了榜單的說服力。
RoboArena的突破性在于重新設計了評測邏輯,與大多數Benchmark追求標準化不同,RoboArena把評測重點放在泛化能力上。模型無法提前適配固定場景,每一次測試都需要面對新的環境、新的物體和新的任務組合。
這份榜單由UC Berkeley、斯坦福、英偉達聯合發起,是具身智能領域首個國際公開性評測平臺,榜單規則來自行業最核心的一批前沿技術研究者。
值得注意的是,PI的聯合創始人Sergey Levine、核心研究員Karl Pertsch也是該測試平臺的核心設計者。

PI,這家由斯坦福、伯克利等頂級研究團隊創立的公司,一直被視為具身智能領域最具代表性的技術標桿之一。這意味著行業最強玩家用自己的標準認可了這套評測體系。
為了避免人為的技術性干預,RoboArena采用“全球眾包+雙盲”機制。評測員分布在不同國家和地區,任務和場景則由評測研究員自行設計,多聚焦操作類任務,測試整個過程中操作員不會獲知模型身份,完全盲測,測試結果全部開源。
在這種規則下,賽事對泛化能力的要求近乎苛刻。提前備考的可能性被切斷,參賽模型的每一次測試都是臨場發揮,需要面對極其多樣化的環境與任務,可能是從未見過的物品,也可能是從未適應過的場景。

RoboArena的評分機制也與眾不同,引入了競技體育中的ELO動態評級算法。
熟悉電競或者國際象棋的人應該知道,ELO最大的特點是打敗強者獲得更多積分。不看你贏了多少次,只看你贏了誰。打敗強隊加分高,贏弱隊加分少。
這種機制大幅降低了刷榜空間,讓真正有實力的黑馬能夠浮出水面,也能夠持續淘汰名不副實的高分選手。

RoboArena中模型的 Elo 分變化趨勢:從左到右,按 Elo 分從低到高排列
如果把傳統Benchmark理解為訓練賽,那么RoboArena更接近總決賽。當不少團隊還在訓練賽里爭奪MVP時,千尋已經在總決賽里拿到了FMVP。
能在任意場景、任意任務的隨機對決中勝出,意味著模型已經具備了走出實驗室、進入真實商業場景的核心素養。它比任何單一任務的高分都更具落地參考價值。

02
這不是千尋第一次登頂國際權威榜單。今年1月,千尋自研的Spirit v1.5在RoboChallenge的Table30榜單上一舉登頂,超過了之前的最強模型PI0.5。
有意思的是,RoboChallenge和RoboArena的評測邏輯完全不同。前者關注模型在統一條件下能做到什么水平;后者關注模型面對隨機的任務、未知的世界能否持續發揮。
RoboChallenge由Dexmal、Hugging Face、智源研究院等聯合發起,是全球首個大規模真機(real-robot)具身智能評測平臺,評測采用統一硬件和標準化環境,要求參賽模型完成30項固定任務,重點考察模型在相同條件下的綜合能力與任務完成質量。
RoboArena的評測環境、任務內容和操作對象則都具有較強隨機性。
Spirit能夠連續登頂兩套邏輯完全不同的評測體系,說明其在標準化環境下的綜合能力和開放環境下的泛化能力,都得到了驗證。
RoboArena的評測任務由研究員隨機指定,沒有固定題庫。在眾多測試項目中,“將玩具水豚放入餐盤”和“打開筆記本”兩個任務,較為典型地體現了Spirit v1.6的能力。它們分別對應具身智能里的兩類典型難題:開放環境中的目標識別與操作執行,以及精細力控。
任務一:將玩具水豚放置到餐盤。Spirit v1.6 VS Pi0.5。
任務中,桌面中央擺放著一個餐盤,周圍散落著筆、杯子、足球玩具、膠棒等多種物品。
Spirit v1.6準確識別出玩具水豚,完成抓取并將其放入盤中。Pi0.5則識別錯誤,抓取了綠色杯子,且定位不準,反復嘗試仍失敗。

左 Spirit v1.6 右 Pi0.5
差異背后是模型對場景語義的理解深度不同。千尋的模型能夠理解“水豚”這一語義概念,區分干擾物,并在雜亂環境中保持抓取穩定性;Pi0.5則在目標識別階段就出現偏差。
任務二:打開筆記本。Spirit v1.6 VS Cosmos 3
這屬于物體操作與精細力控任務,涉及受力點判斷、開合角度控制和連續動作規劃。筆記本開合處較薄,機器人需要準確找到能夠施力的位置,還要控制好力度和角度,避免物體滑動導致操作失敗。
Spirit v1.6成功完成整個打開過程。英偉達最新發布的Cosmos 3則多次嘗試翻開,始終未能成功。

左 Spirit v1.6 右 Cosmos 3
值得注意的是,Spirit v1.6的測試環境中還擺放著杯子、毛巾、蔬果等多種干擾物,而Cosmos 3的環境相對簡單,干擾物較少。
千尋的模型在受力點判斷、實時力控和任務理解上更勝一籌,Cosmos 3則沒能定位到筆記本準確的開合位置,缺乏精細的閉環調節。
回看RoboChallenge,千尋Spirit v1.5在插花、桌面清理等任務中同樣表現出色。插花需要精細力度控制,桌面清理涉及多物體分類與連續操作,模型均能穩定完成。
RoboArena榜單更新后,有人將千尋擊敗英偉達和PI視為一次“爆冷”。不過,仔細觀察過去半年千尋的發展軌跡,了解其連續登頂RoboChallenge和RoboArena兩大評測體系后,就能夠理解這種領先其實不能單純用偶然來解釋。
千尋用對手制定的規則,在對手的主場實現“兩連冠”,說明Spirit的優勢并非來自針對性優化,而是模型能力本身的提升。Spirit在環境理解、目標識別、動作規劃和執行穩定性方面展現出更強的一致性,整個決策鏈條更加完整。

03
Spirit v1.6的登頂,是千尋技術實力的最佳證明。這種實力已經轉化為資本市場的吸金力。
今年,千尋三個月融資四輪,刷新了具身智能行業融資速度記錄,已累計融資近50億元。資金將用于具身基座模型研發、數據體系建設、場景規模化商業落地三大方面。
從投資陣容看,千尋的股東已經是夢之隊級別,包含順為、云鋒等頂級的財務VC,國際美元基金這類海外資本,石溪資本、兆易創新等實業產業資本。
不同的股東能形成各自助力,財務VC擅長資本運作與投后賦能,美元基金對技術路線的判斷更偏向全球視野,利于海外市場拓展;產業戰略投資方則提供供應鏈、場景等核心資源。
據AI科技評論了解,資本市場普遍認為,千尋智能近期連續落地多輪大額融資,是硬科技獨角獸上市前的戰略鋪路布局。
市場之所以給予這樣的判斷,在于千尋已經具備了硬科技企業走向資本市場所需要的基礎:技術閉環與商業閉環。
一個廣泛共識是,具身智能的Scaling Law正在遭遇真實世界數據不足的挑戰。高質量、規模化、可持續獲取的數據,已經成為決定模型能力上限的關鍵變量。
圍繞這一問題,千尋構建了一套完整的“數據金字塔”技術戰略:底層依托互聯網通用視頻完成預訓練,中層利用可穿戴設備采集的真實交互數據進行專項迭代,頂層則通過實際落地場景產生的數據持續優化模型表現。

為了解決行業普遍面臨的“數據采集貴、效率低”的痛點,千尋自研了數據采集設備。其自研的uDAS可穿戴數采設備歷經7次技術迭代,采集成本降至傳統遙操作方式的十分之一,數據可用性提升至95%以上。
設備實現了全身關節、手部力觸覺多維度信息同步采集,無需搭建實驗室環境,可直接在真實工業、居家、零售場景作業。

千尋智能可穿戴數采設備已遍布全國
解決采集成本問題只是第一步。對于具身公司而言,更大的挑戰在于如何持續、穩定地獲得海量真實世界數據。
為此,千尋進一步搭建起一套分布式數據超級工廠體系,組建了國內規模最大的真實數據采集團隊,近千臺可穿戴設備分布在100多個城市同步采集數據,并形成了覆蓋采集、清洗、標注和質檢的數據閉環處理流程。
采用分布式布局,是因為單一地點采集的數據場景單一、物品單一,無法覆蓋真實世界的多樣性。分布式采集網絡可以在不同城市、不同場景同時進行,大幅提升數據的場景覆蓋度和品類豐富度。
2026年,千尋計劃將數據規模拓展至100萬小時。
千尋的數據訓練理念也極為獨特,他們十分看重“臟數據”。
在很多訓練體系中,異常數據會被盡可能清理掉。而千尋認為,真實世界本身充滿噪聲。機器人未來面對的環境,本來就不完美。因此保留一定比例復雜數據、異常數據和失敗數據,反而有助于提升模型泛化能力。
在千尋看來,多數玩家仍在使用“溫室數據”,導致模型一出實驗室就水土不服。臟數據的訓練理念,刻意保留了一部分“不標準答案”,能夠讓千尋的模型在真實社會中長大,泛化能力天然更強。
這種思路也與RoboArena的評測邏輯高度一致。RoboArena考察的,也正是模型面對不確定因素時的適應能力。
數據飛輪能否真正轉起來,最終還要看機器人能否進入真實場景。千尋的機器人已經進入寧德時代的產線、京東的門店、博世的全球工廠等場景,大量真實落地場景為千尋提供了美國企業難以獲取的數據礦。此外,千尋還開展了全球化合作與生態建設。

由此,千尋構成了 “場景沉淀數據→數據迭代模型→模型反哺產業” 的完整閉環。這也是資本敢于重倉的根本邏輯。

04
此次千尋登頂的意義,不僅屬于一家企業,也屬于整個中國具身智能產業的發展進程。
行業的一個普遍認知是,美國負責定義具身智能技術,中國負責制造機器人。如今,這種分工正在發生變化。
千尋在RoboArena這個由美國頂尖機構設計、長期由美國公司主導的擂臺上擊敗了主場霸主,證明中國團隊在具身模型層面同樣具備全球頂尖的競爭力。
這是中國具身智能從“制造優勢”向“技術話語權”延伸的關鍵一步。以千尋為代表的中國戰隊,用硬橋硬馬的真功夫打出了一波漂亮的攻守轉換。

而且,具身智能競賽是上半場比論文,下半場比落地,當前行業競爭核心正在轉向體系能力建設。模型、數據、硬件和場景深度耦合,單一技術領先已經難以構建長期壁壘。
中國企業也在用場景紅利和工程能力,實現從追趕到并跑的質變。
模型可以通過迭代持續進步,榜單排名也會不斷刷新,但真實場景中的能力沉淀很難被短期復制。數據如何獲取、場景如何進入、模型如何迭代、產品如何落地,這些問題都是行業發展的重要命題,而千尋智能已經在這場長跑中,率先卡住了身位。
隨著具身智能行業的發展,實戰能力會取代論文數量成為新的評判標準,場景數據會成為比參數規模更寶貴的資產,中國具身智能的全球化領跑,才剛剛開始。(雷峰網(公眾號:雷峰網))
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。