0
| 本文作者: 吳思夢 | 2026-06-08 15:28 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
原文作者:譚梓馨
原文鏈接:https://mp.weixin.qq.com/s/llcXE2be4oNWItL_0ydVZw







研究人員與業(yè)內(nèi)其他機器人控制策略進行了對比,域內(nèi)實驗結(jié)果顯示,單場景僅10條示教樣本條件下:DP、DP3僅能勉強完成簡單任務(wù),多數(shù)場景成功率不足50%,在倒水這類高難度任務(wù)上基本失效;OpenVLA整體各項任務(wù)表現(xiàn)糟糕,根源在于缺少連續(xù)動作塊預測機制。

依托預訓練與三維點云表征,F(xiàn)P3全部任務(wù)成功率突破90%。從實操現(xiàn)象來看,基線算法失敗多源于動作精度缺陷:夾取時定位偏差推飛物件、倒水時瓶口對偏等;而FP3憑借大參數(shù)量與海量預訓練,可精準擬合復雜目標動作,輸出軌跡更平滑、控制精度更高,顯著優(yōu)于對比算法。

將機械臂更換至全新環(huán)境、使用從未見過的物體開展零樣本測試,不含預訓練的所有基線策略普遍無法識別目標物體,任務(wù)成功率近乎歸零。
反觀經(jīng)過預訓練的FP3極少出現(xiàn)識別失效,全場景平均成功率超80%,全面碾壓對照組。
研究認為優(yōu)異性能來自兩點:一是大規(guī)模預訓練覆蓋海量場景與物件,大幅提升策略魯棒性;二是點云輸入可精準捕獲三維幾何特征,是實現(xiàn)跨域泛化的關(guān)鍵。

指令跟隨測試結(jié)果顯示,在初始環(huán)境完全一致的條件下,使用多條不同文本指令測試FP3與基線策略,F(xiàn)P3可精準依照指令執(zhí)行對應(yīng)任務(wù),并非單純死記訓練數(shù)據(jù)分布。
研究人員在論文中表示,F(xiàn)P3雖作為基座策略模型表現(xiàn)優(yōu)異,但仍存在若干短板:
第一,F(xiàn)P3下游微調(diào)效率與泛化能力突出,但基座原生零樣本性能偏弱,誘因大概率是預訓練所用DROID數(shù)據(jù)集體量不及OXE等二維機器人數(shù)據(jù)集,后續(xù)可構(gòu)建規(guī)模更大的三維機器人數(shù)據(jù)集用于預訓練。
第二,F(xiàn)P3僅依靠CLIP嵌入實現(xiàn)語言條件接入,難以表征復雜動態(tài)語義;后續(xù)可將本擴散架構(gòu)FP3與視覺大模型VLM融合,搭建類似π0的視覺-語言-動作(VLA)模型;
第三,當前FP3未復用DINOV2、SigLIP等成熟預訓練二維視覺編碼器,融合三維點云特征與二維圖像特征、或?qū)⒍S特征升維至三維空間具備巨大優(yōu)化空間,相關(guān)研究留作未來工作。

FP3之外,高陽所在的千尋智能今天也官宣了兩大進展。
一方面,其自研具身基座模型Spirit v1.6在具身基準測試平臺RoboArena中成功登頂,性能超過英偉達Cosmos3與Physical Intelligence Pi0.5,成為首個登頂?shù)闹袊呱砟P汀?/p>

另一方面,該公司宣布新獲15億元A+輪融資,從2月份至今融資近50億再次刷新行業(yè)紀錄。
千尋智能在官宣中表示2026年將積累100萬小時級真實世界交互數(shù)據(jù)的階段性沉淀,涵蓋豐富的長尾復雜場景與多模態(tài)操作樣本,構(gòu)筑核心護城河。

在另一份榜單具身智能大規(guī)模真機評測平臺RoboChallenge的Table30系列任務(wù)測試中,千尋智能此前發(fā)布的Spirit v1.5目前排名第四,排名第一的是星動紀元Era0模型,其次是原力靈機的DM0和極佳視界的GigaBrain-0.1,模型排位變換之間也見證了中國具身智能創(chuàng)業(yè)賽道競爭之激烈。
-END-
本專題其他文章