高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文：機器人基模從 2D 圖像走向 3D 操作空間

本文作者：陳淑瑜

2026-06-11 14:12

專題：ICRA 國際機器人與自動化會議

導語：用 3D 點云提升機器人跨視角、跨物體泛化，80 條示范即可完成新任務微調。

來源：公眾號“INFINITY”

原文鏈接：https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文：機器人基模從 2D 圖像走向 3D 操作空間

用 3D 點云提升機器人跨視角、跨物體泛化，80 條示范即可完成新任務微調。

機器人基礎模型為什么泛化差？很多時候不是模型不夠大，而是它看世界的方式不對。

現在主流機器人基礎模型大多依賴 2D 圖像。圖像能提供外觀，但它本質上是三維世界壓扁后的投影。相機角度一變，背景一換，物體型號稍有不同，像素分布就變了。實驗室里跑得好，到了客戶現場就開始掉成功率。

FP3 要處理的就是這個輸入模態缺陷。

它提出了首個面向機器人操作的 3D 基礎策略模型，也就是 3D Foundation Policy。簡單說，FP3 不再只讓機器人從 2D 圖像里學動作，而是把策略建立在 3D 點云空間里，讓模型直接理解物體、機械臂和環境之間的空間關系。

這也是當前 VLA 路線向 3D 空間延伸的代表性工作。FP3把視覺輸入從二維圖像推進到三維空間。

這篇工作由清華大學 IIIS 聯合上海 AI Lab、上海期智研究院發布，通訊作者為高陽，獲 ICRA 2026 Robot Learning 方向最佳論文提名；它也是本屆 ICRA 入圍中的國產具身基礎模型成果。

高陽是清華大學交叉信息研究院助理教授、上海期智研究院 PI，同時也是具身智能公司千尋智能聯合創始人、首席科學家。他的研究方向包括計算機視覺、機器人學習和具身智能。其本科畢業于清華大學計算機系，博士畢業于 UC Berkeley，師從 Trevor Darrell。高陽團隊長期關注機器人如何真正理解三維世界，近期代表工作包括 FP3、ATM、CoPa 等。

它的產業價值很直接：80 條示范學會新任務，單卡約 2 小時微調；在從未見過的場景和物體上，零樣本成功率達到 82.5%。這兩件事對應機器人落地最真實的兩個障礙：數據采集貴，換場景就廢。

FP3 給出的不只是好看的數字，更是一個國產開源 3D 基礎策略模型的起點。

1.3B 參數 3D 點云基礎策略模型，基于 DROID 60k 軌跡預訓練，支持少量數據微調和未見場景泛化。

2D 觀察的根本問題

機器人做操作任務，真正需要判斷的是三維關系。

杯子在哪里，離夾爪多遠，開口朝哪個方向；毛巾邊緣是否被捏住，桌上雜物有沒有擋住目標；倒水時，容器、杯口和機械臂姿態之間是什么關系。這些都發生在三維空間里。

2D 圖像的問題，是它把三維世界壓成了一張平面圖。

一個杯子從正面看、側面看、俯視看，像素形狀會變化。相機高一點、低一點、偏一點，物體在畫面中的大小、位置和輪廓都會變。光照變暗，背景變復雜，桌面顏色變了，圖像分布也會變。

對人來說，這些變化不影響判斷。人會自動補出物體的三維形狀和空間位置。

但對 2D 策略模型來說，它看到的是像素。模型必須靠大量數據去學會：這些不同畫面其實是同一個三維場景。

機器人不是在圖片里移動鼠標。它要在三維世界里抓、推、折、倒和接觸。輸入如果只保留 2D 投影，模型就要從數據里重新學三維關系。數據少一點，泛化就崩。

FP3 的出發點，是不要讓模型先從 2D 圖像里猜 3D，而是直接給它 3D。

點云為什么有用

點云是一組三維坐標點。

RGB-D 相機可以同時獲取顏色和深度。把每個像素根據深度投回三維空間，就能得到場景中物體、桌面和障礙物的 3D 點集合。這些點沒有 CAD 模型那么干凈，也沒有網格那么規整，但它直接記錄了物體表面和空間位置。

FP3 用的就是點云。

它的輸入包括三部分：3D 點云、語言指令、本體感受狀態。語言指令告訴機器人要做什么，本體感受告訴機器人自己的關節和狀態，點云告訴它外部世界的三維結構。模型輸出的是未來動作序列。

Uni3D 提取 3D 點云特征，CLIP 編碼語言，DiT 生成未來動作序列。

點云最大的價值，不只是“信息更豐富”。它真正關鍵的地方，是坐標系可以和相機視角解耦。

只要相機標定正確，不同角度看到同一個場景，最后還原到世界坐標系里的點云可以保持一致。換句話說，相機角度變化帶來的不變性，不完全需要模型靠數據學出來，而是可以通過幾何計算直接得到。

這和 2D 圖像完全不同。2D 模型要學會：這個角度下的杯子，和另一個角度下的杯子，是同一個杯子。點云模型則可以直接看到：杯子表面的點在三維空間里大致在哪里，杯口朝向哪里，離夾爪有多遠。

這就是結構性優勢。

FP3 不是從零訓練一個小型點云編碼器。它用了 Uni3D ViT。

Uni3D 是一個預訓練 3D 點云編碼器，可以理解成 3D 世界里的視覺骨干網絡。它的參數量約 300M，作用是把點云里的幾何形狀、空間位置和語義信息，編碼成策略模型能理解的特征。相比小型 3D 編碼器，它的表達能力更強，也已經具備一定 3D-語言對齊能力。

FP3 的主干架構是 DiT。DiT 是 Diffusion Transformer，也就是擴散 Transformer。它不是一步預測下一個動作，而是從一段噪聲動作開始，在點云、語言和機器人狀態的約束下逐步去噪，生成未來一串動作。

這適合機器人操作。折疊毛巾、清理桌面、扶起杯子、倒水，都不是單步動作，而是一段連續動作。

預訓練讓 80 條示范就夠了

FP3 走的是預訓練加后訓練路線。

預訓練，是先讓模型在大規模、多任務數據上學習通用表示。后訓練，是再用少量高質量數據適配具體任務。

它先在 DROID 數據集上預訓練。DROID 是一個大規模真實機器人操作數據集，可以理解成機器人領域的“預訓練語料庫”。它收集了大量真實機器人在不同場景、不同任務下的操作軌跡。FP3 使用約 6 萬條軌跡進行預訓練，覆蓋 86 個任務和 564 個場景。論文摘要也寫到，FP3 是首個大規模 3D foundation policy model，并預訓練于 60k 條點云觀測軌跡。

這一步的意義，是讓模型先學到通用操作共性。

比如機械臂怎么接近物體，夾爪怎么閉合，物體被推、拿、放時空間關系怎么變化，倒水時容器姿態和任務目標如何對應。這些不是某一個單獨任務的技巧，而是跨任務存在的操作規律。

有了預訓練，后訓練就不需要從零學。

FP3 后訓練只需要 80 條示范。具體是每個任務 8 個場景，每個場景 10 條。它使用 LoRA 微調，單卡約 2 小時完成。

LoRA 是一種低成本微調方法。它不重訓整個大模型，只更新少量新增參數，所以顯存和時間成本更低，工程上更容易落地。

傳統機器人模仿學習，新任務經常需要 200 條左右示范，甚至更多。采機器人數據不是寫文本，也不是爬網頁。它要人操作、設備運行、失敗重置、數據清洗和質量檢查。每多采一條，都是現實成本。

FP3 能用 80 條示范跑起來，說明預訓練表示確實遷移了。它不是把新任務完全從零學一遍，而是在已有 3D 操作表示上做適配。

實驗結果

FP3 測了 4 個下游任務：折疊毛巾、清理桌面、扶起杯子、倒水。

這些任務不是簡單抓取。折疊毛巾涉及柔性物體，清理桌面涉及多物體和空間整理，扶起杯子需要判斷物體姿態，倒水需要連續控制容器角度。它們都要求模型理解三維幾何和動作之間的關系。

先看域內結果。域內指的是模型見過的場景和見過的物體。只用 80 條示范后訓練，FP3 平均成功率達到 95%。

同樣條件下，DP 是 36.25%，DP3 是 22.5%，OpenVLA 是 7.5%。

展示 FP3 在未見場景、未見物體、不同視角和干擾條件下的泛化結果。

DP 是經典擴散策略，主要基于 2D 觀察。DP3 是小型 3D 策略。OpenVLA 是大規模 2D VLA。這個對比說明一個問題：大模型如果只看 2D，不一定比更合適的 3D 策略更強；小型 3D 策略有 3D 輸入，但模型規模和預訓練不足，也撐不起基礎模型式泛化。

真正重要的是野外零樣本。

野外零樣本指的是：測試場景從沒見過，測試物體也從沒見過，部署時不再給新場景數據繼續訓練。這個設置更接近真實客戶現場。

在這個設置下，FP3 平均成功率是 82.5%。

DP 是 1.25%，DP3 是 2.5%，OpenVLA 是 3.75%。FP3 如果從零訓練、沒有預訓練，成功率也是 1.25%。

這組結果說明兩件事。

第一，2D 方法在野外場景幾乎全崩。它們在訓練環境里可能學到了有用的動作模式，但一換新場景、新物體和新背景，像素分布變了，模型就不知道該怎么泛化。

第二，3D 輸入本身還不夠。FP3 從零訓練只有 1.25%，說明只給點云、不給大規模預訓練，模型也學不到足夠通用的操作表示。

消融實驗也指向同一個結論。

去掉 3D、換成 2D 圖像，野外性能從 95% 跌到 55%。去掉預訓練，野外性能跌到 0%。3D 點云提供了更合適的空間輸入，大規模預訓練提供了可遷移的操作表示。兩者缺一項，泛化都會崩。

80 條示范后，FP3 域內成功率 95%，野外零樣本成功率 82.5%，顯著高于 DP、DP3、OpenVLA。

產業意義

FP3 的產業意義，第一層是降低部署門檻。

機器人公司最怕的不是模型在實驗室做不出 demo，而是每到一個新現場都要重新采大量數據。現在很多策略模型學習新任務，往往需要 200 條示范起步。復雜一點的任務，還要更多。

FP3 把這個數字壓到 80 條，并且用 LoRA 單卡約 2 小時完成后訓練。

這意味著新任務適配不再一定是重訓練工程。新物品、新桌面、新工位，只要數據采集和標定流程穩定，就有可能用少量示范快速適配。

第二層是解決換場景掉成功率的問題。

這是機器人落地最真實的障礙之一。實驗室里光線、相機、桌面、物體都可控。客戶現場不一樣。光照亂，背景亂，物體型號變化，擺放方式變化，遮擋和干擾物更多。2D 模型在這些變化面前很脆弱，因為它嚴重依賴圖像外觀。

FP3 的零樣本泛化結果，直接對應這個痛點。

第三層是國產開源 3D 基礎模型的起點。

現在機器人基礎模型的敘事，主要被 π0、OpenVLA、GR00T 這些海外路線占據。FP3 的位置不同。它從 3D 點云基礎策略切入，做的是大規模 3D 操作模型。

不是每家公司都有資源從頭訓練一個 1B 級機器人基礎策略模型，也不是每家公司都能組織大規模多任務數據預訓練。如果 FP3 的代碼、權重和訓練方案能夠持續開源和維護，它可以成為國內團隊做 3D 策略微調、任務適配和場景泛化的底座。

判斷

FP3 最重要的判斷，是把視角不變性從“需要學”變成了“可以算”。

2D 模型面對相機角度變化，只能靠數據學不變性。它需要看過足夠多角度、足夠多背景、足夠多物體，才可能知道這些視覺變化背后是同一個三維結構。

點云不一樣。只要相機標定正確，同一個物體在世界坐標里的形狀和位置可以直接算出來。模型少學一層不必要的視覺變化，就能把能力用在真正的操作關系上。

第二，80 條示范的數據效率說明預訓練遷移是真實有效的。

機器人數據稀缺不是口號，而是每個真實項目都會遇到的成本問題。FP3 如果沒有預訓練，野外性能直接跌到接近不可用；有了 DROID 上的大規模 3D 預訓練，再用 80 條示范微調，就能達到可用成功率。

第三，FP3 的限制也很清楚。

它當前語言側主要依賴 CLIP，語言理解能力有限。CLIP 可以把圖像和文本對齊，但它不是為復雜機器人指令推理設計的。點云提供了幾何，但語義理解還不夠強。

復雜指令、隱含目標、長程任務分解、多物體關系推理，都不是單靠點云就能解決的。

下一個問題已經擺在這里：把 VLM 的語義理解和 3D 點云的幾何理解真正融合起來。

2D VLA 強在語義和常識，3D 策略強在空間和操作。如果能把兩者合在同一個策略系統里，機器人基礎模型才更接近真實部署需要的形態。

FP3 的意義，不是證明 3D 可以替代一切。

它證明的是：機器人基礎模型不能永遠只看 2D 圖像。

世界是三維的，機器人也必須從三維開始學習。

? 論文：https://arxiv.org/abs/2503.08950

0人收藏

專題

ICRA 國際機器人與自動化會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章