ICRA 2026最佳論文獎，千尋智能首席科學家、清華高陽團隊FP3入圍

本文作者：吳思夢

2026-06-08 15:28

專題：ICRA 2017：創(chuàng)新、創(chuàng)業(yè)和解決方法

導語：相較主流基線，開放未知場景性能平均提升80%。

原文作者：譚梓馨

原文鏈接：https://mp.weixin.qq.com/s/llcXE2be4oNWItL_0ydVZw

2026年IEEE國際機器人與自動化會議（IEEE ICRA 2026）是機器人與自動化領(lǐng)域的頂級學術(shù)盛會，于6月1日至5日在奧地利維也納舉辦。

今年，F(xiàn)P3、HITTER等多篇華人團隊論文入圍最佳論文獎提名，頭部科技此前曾報道過HITTER，今天來看另一篇研究FP3。

FP3論文的導師之一高陽是清華大學跨學科信息科學研究院（IIIS）的助理教授，同時他也是國內(nèi)具身獨角獸千尋智能（Spirit AI）的聯(lián)創(chuàng)兼首席科學家。

下面，一起來看看FP3做了哪些創(chuàng)新工作。

三維基座帶來的改進

基于海量多任務(wù)數(shù)據(jù)預訓練的基座大模型在機器人領(lǐng)域展現(xiàn)出巨大潛力，但絕大多數(shù)機器人基礎(chǔ)策略模型僅采用二維圖像作為輸入觀測，缺失三維幾何信息，而三維幾何是機器人感知、理解真實三維空間的關(guān)鍵。

概括來說，F(xiàn)P3是一個面向機器人操作的大規(guī)模三維基座策略模型。

該模型參數(shù)大小為1.3B，基于可規(guī)模化的擴散Transformer架構(gòu)搭建，依托6萬條含點云觀測的運動軌跡完成預訓練，憑借特有模型結(jié)構(gòu)與多元化預訓練數(shù)據(jù)，F(xiàn)P3可快速微調(diào)適配各類下游任務(wù)，泛化性能優(yōu)異。

真機實測表明：僅需80組人工示教樣本，F(xiàn)P3即可在包含全新未知物體的陌生場景中習得新任務(wù)，性能大幅領(lǐng)先現(xiàn)有機器人基座模型。

在自建的多項新任務(wù)數(shù)據(jù)集上驗證FP3高效微調(diào)與強泛化特性，結(jié)果顯示：僅使用單卡、兩小時微調(diào)，相較主流基線，同場景性能平均提升60%，開放未知場景性能平均提升80%。

性能對比表現(xiàn)突出

FP3的在架構(gòu)中設(shè)計了一個編碼器-解碼器擴散Transformer網(wǎng)絡(luò)，首先對多模態(tài)輸入進行編碼，包括3D點云、語言和機器人本體感受狀態(tài)，然后對動作進行去噪。

ICRA 2026最佳論文獎，千尋智能首席科學家、清華高陽團隊FP3入圍

研究人員與業(yè)內(nèi)其他機器人控制策略進行了對比，域內(nèi)實驗結(jié)果顯示，單場景僅10條示教樣本條件下：DP、DP3僅能勉強完成簡單任務(wù)，多數(shù)場景成功率不足50%，在倒水這類高難度任務(wù)上基本失效；OpenVLA整體各項任務(wù)表現(xiàn)糟糕，根源在于缺少連續(xù)動作塊預測機制。

ICRA 2026最佳論文獎，千尋智能首席科學家、清華高陽團隊FP3入圍

依托預訓練與三維點云表征，F(xiàn)P3全部任務(wù)成功率突破90%。從實操現(xiàn)象來看，基線算法失敗多源于動作精度缺陷：夾取時定位偏差推飛物件、倒水時瓶口對偏等；而FP3憑借大參數(shù)量與海量預訓練，可精準擬合復雜目標動作，輸出軌跡更平滑、控制精度更高，顯著優(yōu)于對比算法。

將機械臂更換至全新環(huán)境、使用從未見過的物體開展零樣本測試，不含預訓練的所有基線策略普遍無法識別目標物體，任務(wù)成功率近乎歸零。

反觀經(jīng)過預訓練的FP3極少出現(xiàn)識別失效，全場景平均成功率超80%，全面碾壓對照組。

研究認為優(yōu)異性能來自兩點：一是大規(guī)模預訓練覆蓋海量場景與物件，大幅提升策略魯棒性；二是點云輸入可精準捕獲三維幾何特征，是實現(xiàn)跨域泛化的關(guān)鍵。

指令跟隨測試結(jié)果顯示，在初始環(huán)境完全一致的條件下，使用多條不同文本指令測試FP3與基線策略，F(xiàn)P3可精準依照指令執(zhí)行對應(yīng)任務(wù)，并非單純死記訓練數(shù)據(jù)分布。

研究人員在論文中表示，F(xiàn)P3雖作為基座策略模型表現(xiàn)優(yōu)異，但仍存在若干短板：

第一，F(xiàn)P3下游微調(diào)效率與泛化能力突出，但基座原生零樣本性能偏弱，誘因大概率是預訓練所用DROID數(shù)據(jù)集體量不及OXE等二維機器人數(shù)據(jù)集，后續(xù)可構(gòu)建規(guī)模更大的三維機器人數(shù)據(jù)集用于預訓練。

第二，F(xiàn)P3僅依靠CLIP嵌入實現(xiàn)語言條件接入，難以表征復雜動態(tài)語義；后續(xù)可將本擴散架構(gòu)FP3與視覺大模型VLM融合，搭建類似π0的視覺-語言-動作（VLA）模型；

第三，當前FP3未復用DINOV2、SigLIP等成熟預訓練二維視覺編碼器，融合三維點云特征與二維圖像特征、或?qū)⒍S特征升維至三維空間具備巨大優(yōu)化空間，相關(guān)研究留作未來工作。

具身獨角獸激烈競逐

FP3之外，高陽所在的千尋智能今天也官宣了兩大進展。

一方面，其自研具身基座模型Spirit v1.6在具身基準測試平臺RoboArena中成功登頂，性能超過英偉達Cosmos3與Physical Intelligence Pi0.5，成為首個登頂?shù)闹袊呱砟Ｐ汀?/p>

ICRA 2026最佳論文獎，千尋智能首席科學家、清華高陽團隊FP3入圍

另一方面，該公司宣布新獲15億元A+輪融資，從2月份至今融資近50億再次刷新行業(yè)紀錄。

千尋智能在官宣中表示2026年將積累100萬小時級真實世界交互數(shù)據(jù)的階段性沉淀，涵蓋豐富的長尾復雜場景與多模態(tài)操作樣本，構(gòu)筑核心護城河。

在另一份榜單具身智能大規(guī)模真機評測平臺RoboChallenge的Table30系列任務(wù)測試中，千尋智能此前發(fā)布的Spirit v1.5目前排名第四，排名第一的是星動紀元Era0模型，其次是原力靈機的DM0和極佳視界的GigaBrain-0.1，模型排位變換之間也見證了中國具身智能創(chuàng)業(yè)賽道競爭之激烈。

今年以來，估值超百億的具身獨角獸不斷擴容，除了上述幾家公司，賽道中還有銀河通用、星海圖、智元、智平方、自變量、星塵智能、靈心巧手、帕西尼感知等等，即將IPO的宇樹也計劃將募資重點投入到具身智能大模型。

獨角獸們的技術(shù)競逐，正加速機器人行業(yè)拐點的到來，推動中國成為全球具身智能落地的核心市場。

-END-

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

0人收藏

相關(guān)文章