0
| 本文作者: 陳淑瑜 | 2026-06-11 14:12 | 專題:ICRA 國際機器人與自動化會議 |
來源:公眾號“INFINITY”
原文鏈接:https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

用 3D 點云提升機器人跨視角、跨物體泛化,80 條示范即可完成新任務微調。
機器人基礎模型為什么泛化差?很多時候不是模型不夠大,而是它看世界的方式不對。
現在主流機器人基礎模型大多依賴 2D 圖像。圖像能提供外觀,但它本質上是三維世界壓扁后的投影。相機角度一變,背景一換,物體型號稍有不同,像素分布就變了。實驗室里跑得好,到了客戶現場就開始掉成功率。
FP3 要處理的就是這個輸入模態缺陷。
它提出了首個面向機器人操作的 3D 基礎策略模型,也就是 3D Foundation Policy。簡單說,FP3 不再只讓機器人從 2D 圖像里學動作,而是把策略建立在 3D 點云空間里,讓模型直接理解物體、機械臂和環境之間的空間關系。
這也是當前 VLA 路線向 3D 空間延伸的代表性工作。FP3把視覺輸入從二維圖像推進到三維空間。
這篇工作由清華大學 IIIS 聯合上海 AI Lab、上海期智研究院發布,通訊作者為高陽,獲 ICRA 2026 Robot Learning 方向最佳論文提名;它也是本屆 ICRA 入圍中的國產具身基礎模型成果。
高陽是清華大學交叉信息研究院助理教授、上海期智研究院 PI,同時也是具身智能公司千尋智能聯合創始人、首席科學家。他的研究方向包括計算機視覺、機器人學習和具身智能。其本科畢業于清華大學計算機系,博士畢業于 UC Berkeley,師從 Trevor Darrell。高陽團隊長期關注機器人如何真正理解三維世界,近期代表工作包括 FP3、ATM、CoPa 等。

它的產業價值很直接:80 條示范學會新任務,單卡約 2 小時微調;在從未見過的場景和物體上,零樣本成功率達到 82.5%。這兩件事對應機器人落地最真實的兩個障礙:數據采集貴,換場景就廢。
FP3 給出的不只是好看的數字,更是一個國產開源 3D 基礎策略模型的起點。

1.3B 參數 3D 點云基礎策略模型,基于 DROID 60k 軌跡預訓練,支持少量數據微調和未見場景泛化。

2D 觀察的根本問題
機器人做操作任務,真正需要判斷的是三維關系。
杯子在哪里,離夾爪多遠,開口朝哪個方向;毛巾邊緣是否被捏住,桌上雜物有沒有擋住目標;倒水時,容器、杯口和機械臂姿態之間是什么關系。這些都發生在三維空間里。
2D 圖像的問題,是它把三維世界壓成了一張平面圖。
一個杯子從正面看、側面看、俯視看,像素形狀會變化。相機高一點、低一點、偏一點,物體在畫面中的大小、位置和輪廓都會變。光照變暗,背景變復雜,桌面顏色變了,圖像分布也會變。
對人來說,這些變化不影響判斷。人會自動補出物體的三維形狀和空間位置。
但對 2D 策略模型來說,它看到的是像素。模型必須靠大量數據去學會:這些不同畫面其實是同一個三維場景。
機器人不是在圖片里移動鼠標。它要在三維世界里抓、推、折、倒和接觸。輸入如果只保留 2D 投影,模型就要從數據里重新學三維關系。數據少一點,泛化就崩。
FP3 的出發點,是不要讓模型先從 2D 圖像里猜 3D,而是直接給它 3D。

點云為什么有用
點云是一組三維坐標點。
RGB-D 相機可以同時獲取顏色和深度。把每個像素根據深度投回三維空間,就能得到場景中物體、桌面和障礙物的 3D 點集合。這些點沒有 CAD 模型那么干凈,也沒有網格那么規整,但它直接記錄了物體表面和空間位置。
FP3 用的就是點云。
它的輸入包括三部分:3D 點云、語言指令、本體感受狀態。語言指令告訴機器人要做什么,本體感受告訴機器人自己的關節和狀態,點云告訴它外部世界的三維結構。模型輸出的是未來動作序列。

Uni3D 提取 3D 點云特征,CLIP 編碼語言,DiT 生成未來動作序列。
點云最大的價值,不只是“信息更豐富”。它真正關鍵的地方,是坐標系可以和相機視角解耦。
只要相機標定正確,不同角度看到同一個場景,最后還原到世界坐標系里的點云可以保持一致。換句話說,相機角度變化帶來的不變性,不完全需要模型靠數據學出來,而是可以通過幾何計算直接得到。
這和 2D 圖像完全不同。2D 模型要學會:這個角度下的杯子,和另一個角度下的杯子,是同一個杯子。點云模型則可以直接看到:杯子表面的點在三維空間里大致在哪里,杯口朝向哪里,離夾爪有多遠。
這就是結構性優勢。
FP3 不是從零訓練一個小型點云編碼器。它用了 Uni3D ViT。
Uni3D 是一個預訓練 3D 點云編碼器,可以理解成 3D 世界里的視覺骨干網絡。它的參數量約 300M,作用是把點云里的幾何形狀、空間位置和語義信息,編碼成策略模型能理解的特征。相比小型 3D 編碼器,它的表達能力更強,也已經具備一定 3D-語言對齊能力。
FP3 的主干架構是 DiT。DiT 是 Diffusion Transformer,也就是擴散 Transformer。它不是一步預測下一個動作,而是從一段噪聲動作開始,在點云、語言和機器人狀態的約束下逐步去噪,生成未來一串動作。
這適合機器人操作。折疊毛巾、清理桌面、扶起杯子、倒水,都不是單步動作,而是一段連續動作。

預訓練讓 80 條示范就夠了
FP3 走的是預訓練加后訓練路線。
預訓練,是先讓模型在大規模、多任務數據上學習通用表示。后訓練,是再用少量高質量數據適配具體任務。
它先在 DROID 數據集上預訓練。DROID 是一個大規模真實機器人操作數據集,可以理解成機器人領域的“預訓練語料庫”。它收集了大量真實機器人在不同場景、不同任務下的操作軌跡。FP3 使用約 6 萬條軌跡進行預訓練,覆蓋 86 個任務和 564 個場景。論文摘要也寫到,FP3 是首個大規模 3D foundation policy model,并預訓練于 60k 條點云觀測軌跡。
這一步的意義,是讓模型先學到通用操作共性。
比如機械臂怎么接近物體,夾爪怎么閉合,物體被推、拿、放時空間關系怎么變化,倒水時容器姿態和任務目標如何對應。這些不是某一個單獨任務的技巧,而是跨任務存在的操作規律。
有了預訓練,后訓練就不需要從零學。
FP3 后訓練只需要 80 條示范。具體是每個任務 8 個場景,每個場景 10 條。它使用 LoRA 微調,單卡約 2 小時完成。
LoRA 是一種低成本微調方法。它不重訓整個大模型,只更新少量新增參數,所以顯存和時間成本更低,工程上更容易落地。
傳統機器人模仿學習,新任務經常需要 200 條左右示范,甚至更多。采機器人數據不是寫文本,也不是爬網頁。它要人操作、設備運行、失敗重置、數據清洗和質量檢查。每多采一條,都是現實成本。
FP3 能用 80 條示范跑起來,說明預訓練表示確實遷移了。它不是把新任務完全從零學一遍,而是在已有 3D 操作表示上做適配。

實驗結果
FP3 測了 4 個下游任務:折疊毛巾、清理桌面、扶起杯子、倒水。
這些任務不是簡單抓取。折疊毛巾涉及柔性物體,清理桌面涉及多物體和空間整理,扶起杯子需要判斷物體姿態,倒水需要連續控制容器角度。它們都要求模型理解三維幾何和動作之間的關系。
先看域內結果。域內指的是模型見過的場景和見過的物體。只用 80 條示范后訓練,FP3 平均成功率達到 95%。
同樣條件下,DP 是 36.25%,DP3 是 22.5%,OpenVLA 是 7.5%。

展示 FP3 在未見場景、未見物體、不同視角和干擾條件下的泛化結果。
DP 是經典擴散策略,主要基于 2D 觀察。DP3 是小型 3D 策略。OpenVLA 是大規模 2D VLA。這個對比說明一個問題:大模型如果只看 2D,不一定比更合適的 3D 策略更強;小型 3D 策略有 3D 輸入,但模型規模和預訓練不足,也撐不起基礎模型式泛化。
真正重要的是野外零樣本。
野外零樣本指的是:測試場景從沒見過,測試物體也從沒見過,部署時不再給新場景數據繼續訓練。這個設置更接近真實客戶現場。
在這個設置下,FP3 平均成功率是 82.5%。
DP 是 1.25%,DP3 是 2.5%,OpenVLA 是 3.75%。FP3 如果從零訓練、沒有預訓練,成功率也是 1.25%。
這組結果說明兩件事。
第一,2D 方法在野外場景幾乎全崩。它們在訓練環境里可能學到了有用的動作模式,但一換新場景、新物體和新背景,像素分布變了,模型就不知道該怎么泛化。
第二,3D 輸入本身還不夠。FP3 從零訓練只有 1.25%,說明只給點云、不給大規模預訓練,模型也學不到足夠通用的操作表示。
消融實驗也指向同一個結論。
去掉 3D、換成 2D 圖像,野外性能從 95% 跌到 55%。去掉預訓練,野外性能跌到 0%。3D 點云提供了更合適的空間輸入,大規模預訓練提供了可遷移的操作表示。兩者缺一項,泛化都會崩。

80 條示范后,FP3 域內成功率 95%,野外零樣本成功率 82.5%,顯著高于 DP、DP3、OpenVLA。

產業意義
FP3 的產業意義,第一層是降低部署門檻。
機器人公司最怕的不是模型在實驗室做不出 demo,而是每到一個新現場都要重新采大量數據。現在很多策略模型學習新任務,往往需要 200 條示范起步。復雜一點的任務,還要更多。
FP3 把這個數字壓到 80 條,并且用 LoRA 單卡約 2 小時完成后訓練。
這意味著新任務適配不再一定是重訓練工程。新物品、新桌面、新工位,只要數據采集和標定流程穩定,就有可能用少量示范快速適配。
第二層是解決換場景掉成功率的問題。
這是機器人落地最真實的障礙之一。實驗室里光線、相機、桌面、物體都可控。客戶現場不一樣。光照亂,背景亂,物體型號變化,擺放方式變化,遮擋和干擾物更多。2D 模型在這些變化面前很脆弱,因為它嚴重依賴圖像外觀。
FP3 的零樣本泛化結果,直接對應這個痛點。
第三層是國產開源 3D 基礎模型的起點。
現在機器人基礎模型的敘事,主要被 π0、OpenVLA、GR00T 這些海外路線占據。FP3 的位置不同。它從 3D 點云基礎策略切入,做的是大規模 3D 操作模型。
不是每家公司都有資源從頭訓練一個 1B 級機器人基礎策略模型,也不是每家公司都能組織大規模多任務數據預訓練。如果 FP3 的代碼、權重和訓練方案能夠持續開源和維護,它可以成為國內團隊做 3D 策略微調、任務適配和場景泛化的底座。

判斷
FP3 最重要的判斷,是把視角不變性從“需要學”變成了“可以算”。
2D 模型面對相機角度變化,只能靠數據學不變性。它需要看過足夠多角度、足夠多背景、足夠多物體,才可能知道這些視覺變化背后是同一個三維結構。
點云不一樣。只要相機標定正確,同一個物體在世界坐標里的形狀和位置可以直接算出來。模型少學一層不必要的視覺變化,就能把能力用在真正的操作關系上。
第二,80 條示范的數據效率說明預訓練遷移是真實有效的。
機器人數據稀缺不是口號,而是每個真實項目都會遇到的成本問題。FP3 如果沒有預訓練,野外性能直接跌到接近不可用;有了 DROID 上的大規模 3D 預訓練,再用 80 條示范微調,就能達到可用成功率。
第三,FP3 的限制也很清楚。
它當前語言側主要依賴 CLIP,語言理解能力有限。CLIP 可以把圖像和文本對齊,但它不是為復雜機器人指令推理設計的。點云提供了幾何,但語義理解還不夠強。
復雜指令、隱含目標、長程任務分解、多物體關系推理,都不是單靠點云就能解決的。
下一個問題已經擺在這里:把 VLM 的語義理解和 3D 點云的幾何理解真正融合起來。
2D VLA 強在語義和常識,3D 策略強在空間和操作。如果能把兩者合在同一個策略系統里,機器人基礎模型才更接近真實部署需要的形態。
FP3 的意義,不是證明 3D 可以替代一切。
它證明的是:機器人基礎模型不能永遠只看 2D 圖像。
世界是三維的,機器人也必須從三維開始學習。
? 論文:https://arxiv.org/abs/2503.08950