• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    本文作者: 陳淑瑜   2026-06-11 14:12 專題:ICRA 國際機器人與自動化會議
    導語:用 3D 點云提升機器人跨視角、跨物體泛化,80 條示范即可完成新任務微調。

    來源:公眾號“INFINITY”

    原文鏈接:https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    用 3D 點云提升機器人跨視角、跨物體泛化,80 條示范即可完成新任務微調。


    機器人基礎模型為什么泛化差?很多時候不是模型不夠大,而是它看世界的方式不對。


    現在主流機器人基礎模型大多依賴 2D 圖像。圖像能提供外觀,但它本質上是三維世界壓扁后的投影。相機角度一變,背景一換,物體型號稍有不同,像素分布就變了。實驗室里跑得好,到了客戶現場就開始掉成功率。


    FP3 要處理的就是這個輸入模態缺陷。


    它提出了首個面向機器人操作的 3D 基礎策略模型,也就是 3D Foundation Policy。簡單說,FP3 不再只讓機器人從 2D 圖像里學動作,而是把策略建立在 3D 點云空間里,讓模型直接理解物體、機械臂和環境之間的空間關系


    這也是當前 VLA 路線向 3D 空間延伸的代表性工作。FP3把視覺輸入從二維圖像推進到三維空間。


    這篇工作由清華大學 IIIS 聯合上海 AI Lab、上海期智研究院發布,通訊作者為高陽獲 ICRA 2026 Robot Learning 方向最佳論文提名;它也是本屆 ICRA 入圍中的國產具身基礎模型成果。

    高陽是清華大學交叉信息研究院助理教授、上海期智研究院 PI,同時也是具身智能公司千尋智能聯合創始人、首席科學家。他的研究方向包括計算機視覺、機器人學習和具身智能。其本科畢業于清華大學計算機系,博士畢業于 UC Berkeley,師從 Trevor Darrell。高陽團隊長期關注機器人如何真正理解三維世界,近期代表工作包括 FP3、ATM、CoPa 等。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間


    它的產業價值很直接:80 條示范學會新任務,單卡約 2 小時微調;在從未見過的場景和物體上,零樣本成功率達到 82.5%。這兩件事對應機器人落地最真實的兩個障礙:數據采集貴,換場景就廢。


    FP3 給出的不只是好看的數字,更是一個國產開源 3D 基礎策略模型的起點。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    1.3B 參數 3D 點云基礎策略模型,基于 DROID 60k 軌跡預訓練,支持少量數據微調和未見場景泛化。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    2D 觀察的根本問題


    機器人做操作任務,真正需要判斷的是三維關系。


    杯子在哪里,離夾爪多遠,開口朝哪個方向;毛巾邊緣是否被捏住,桌上雜物有沒有擋住目標;倒水時,容器、杯口和機械臂姿態之間是什么關系。這些都發生在三維空間里。


    2D 圖像的問題,是它把三維世界壓成了一張平面圖。


    一個杯子從正面看、側面看、俯視看,像素形狀會變化。相機高一點、低一點、偏一點,物體在畫面中的大小、位置和輪廓都會變。光照變暗,背景變復雜,桌面顏色變了,圖像分布也會變。


    對人來說,這些變化不影響判斷。人會自動補出物體的三維形狀和空間位置。


    但對 2D 策略模型來說,它看到的是像素。模型必須靠大量數據去學會:這些不同畫面其實是同一個三維場景。


    機器人不是在圖片里移動鼠標。它要在三維世界里抓、推、折、倒和接觸。輸入如果只保留 2D 投影,模型就要從數據里重新學三維關系。數據少一點,泛化就崩。

    FP3 的出發點,是不要讓模型先從 2D 圖像里猜 3D,而是直接給它 3D。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    點云為什么有用


    點云是一組三維坐標點。


    RGB-D 相機可以同時獲取顏色和深度。把每個像素根據深度投回三維空間,就能得到場景中物體、桌面和障礙物的 3D 點集合。這些點沒有 CAD 模型那么干凈,也沒有網格那么規整,但它直接記錄了物體表面和空間位置。


    FP3 用的就是點云。


    它的輸入包括三部分:3D 點云、語言指令、本體感受狀態。語言指令告訴機器人要做什么,本體感受告訴機器人自己的關節和狀態,點云告訴它外部世界的三維結構。模型輸出的是未來動作序列。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    Uni3D 提取 3D 點云特征,CLIP 編碼語言,DiT 生成未來動作序列。


    點云最大的價值,不只是“信息更豐富”。它真正關鍵的地方,是坐標系可以和相機視角解耦。


    只要相機標定正確,不同角度看到同一個場景,最后還原到世界坐標系里的點云可以保持一致。換句話說,相機角度變化帶來的不變性,不完全需要模型靠數據學出來,而是可以通過幾何計算直接得到。


    這和 2D 圖像完全不同。2D 模型要學會:這個角度下的杯子,和另一個角度下的杯子,是同一個杯子。點云模型則可以直接看到:杯子表面的點在三維空間里大致在哪里,杯口朝向哪里,離夾爪有多遠。


    這就是結構性優勢。


    FP3 不是從零訓練一個小型點云編碼器。它用了 Uni3D ViT。


    Uni3D 是一個預訓練 3D 點云編碼器,可以理解成 3D 世界里的視覺骨干網絡。它的參數量約 300M,作用是把點云里的幾何形狀、空間位置和語義信息,編碼成策略模型能理解的特征。相比小型 3D 編碼器,它的表達能力更強,也已經具備一定 3D-語言對齊能力。


    FP3 的主干架構是 DiT。DiT 是 Diffusion Transformer,也就是擴散 Transformer。它不是一步預測下一個動作,而是從一段噪聲動作開始,在點云、語言和機器人狀態的約束下逐步去噪,生成未來一串動作。


    這適合機器人操作。折疊毛巾、清理桌面、扶起杯子、倒水,都不是單步動作,而是一段連續動作。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    預訓練讓 80 條示范就夠了


    FP3 走的是預訓練加后訓練路線。


    預訓練,是先讓模型在大規模、多任務數據上學習通用表示。后訓練,是再用少量高質量數據適配具體任務。


    它先在 DROID 數據集上預訓練。DROID 是一個大規模真實機器人操作數據集,可以理解成機器人領域的“預訓練語料庫”。它收集了大量真實機器人在不同場景、不同任務下的操作軌跡。FP3 使用約 6 萬條軌跡進行預訓練,覆蓋 86 個任務和 564 個場景。論文摘要也寫到,FP3 是首個大規模 3D foundation policy model,并預訓練于 60k 條點云觀測軌跡。


    這一步的意義,是讓模型先學到通用操作共性。


    比如機械臂怎么接近物體,夾爪怎么閉合,物體被推、拿、放時空間關系怎么變化,倒水時容器姿態和任務目標如何對應。這些不是某一個單獨任務的技巧,而是跨任務存在的操作規律。


    有了預訓練,后訓練就不需要從零學。


    FP3 后訓練只需要 80 條示范。具體是每個任務 8 個場景,每個場景 10 條。它使用 LoRA 微調,單卡約 2 小時完成。


    LoRA 是一種低成本微調方法。它不重訓整個大模型,只更新少量新增參數,所以顯存和時間成本更低,工程上更容易落地。


    傳統機器人模仿學習,新任務經常需要 200 條左右示范,甚至更多。采機器人數據不是寫文本,也不是爬網頁。它要人操作、設備運行、失敗重置、數據清洗和質量檢查。每多采一條,都是現實成本。


    FP3 能用 80 條示范跑起來,說明預訓練表示確實遷移了。它不是把新任務完全從零學一遍,而是在已有 3D 操作表示上做適配。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    實驗結果


    FP3 測了 4 個下游任務:折疊毛巾、清理桌面、扶起杯子、倒水。


    這些任務不是簡單抓取。折疊毛巾涉及柔性物體,清理桌面涉及多物體和空間整理,扶起杯子需要判斷物體姿態,倒水需要連續控制容器角度。它們都要求模型理解三維幾何和動作之間的關系。


    先看域內結果。域內指的是模型見過的場景和見過的物體。只用 80 條示范后訓練,FP3 平均成功率達到 95%。


    同樣條件下,DP 是 36.25%,DP3 是 22.5%,OpenVLA 是 7.5%。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    展示 FP3 在未見場景、未見物體、不同視角和干擾條件下的泛化結果。


    DP 是經典擴散策略,主要基于 2D 觀察。DP3 是小型 3D 策略。OpenVLA 是大規模 2D VLA。這個對比說明一個問題:大模型如果只看 2D,不一定比更合適的 3D 策略更強;小型 3D 策略有 3D 輸入,但模型規模和預訓練不足,也撐不起基礎模型式泛化。


    真正重要的是野外零樣本。


    野外零樣本指的是:測試場景從沒見過,測試物體也從沒見過,部署時不再給新場景數據繼續訓練。這個設置更接近真實客戶現場。


    在這個設置下,FP3 平均成功率是 82.5%。


    DP 是 1.25%,DP3 是 2.5%,OpenVLA 是 3.75%。FP3 如果從零訓練、沒有預訓練,成功率也是 1.25%。


    這組結果說明兩件事。


    第一,2D 方法在野外場景幾乎全崩。它們在訓練環境里可能學到了有用的動作模式,但一換新場景、新物體和新背景,像素分布變了,模型就不知道該怎么泛化。


    第二,3D 輸入本身還不夠。FP3 從零訓練只有 1.25%,說明只給點云、不給大規模預訓練,模型也學不到足夠通用的操作表示。


    消融實驗也指向同一個結論。


    去掉 3D、換成 2D 圖像,野外性能從 95% 跌到 55%。去掉預訓練,野外性能跌到 0%。3D 點云提供了更合適的空間輸入,大規模預訓練提供了可遷移的操作表示。兩者缺一項,泛化都會崩。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    80 條示范后,FP3 域內成功率 95%,野外零樣本成功率 82.5%,顯著高于 DP、DP3、OpenVLA。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    產業意義


    FP3 的產業意義,第一層是降低部署門檻。


    機器人公司最怕的不是模型在實驗室做不出 demo,而是每到一個新現場都要重新采大量數據。現在很多策略模型學習新任務,往往需要 200 條示范起步。復雜一點的任務,還要更多。


    FP3 把這個數字壓到 80 條,并且用 LoRA 單卡約 2 小時完成后訓練。


    這意味著新任務適配不再一定是重訓練工程。新物品、新桌面、新工位,只要數據采集和標定流程穩定,就有可能用少量示范快速適配。


    第二層是解決換場景掉成功率的問題。


    這是機器人落地最真實的障礙之一。實驗室里光線、相機、桌面、物體都可控。客戶現場不一樣。光照亂,背景亂,物體型號變化,擺放方式變化,遮擋和干擾物更多。2D 模型在這些變化面前很脆弱,因為它嚴重依賴圖像外觀。


    FP3 的零樣本泛化結果,直接對應這個痛點。


    第三層是國產開源 3D 基礎模型的起點。


    現在機器人基礎模型的敘事,主要被 π0、OpenVLA、GR00T 這些海外路線占據。FP3 的位置不同。它從 3D 點云基礎策略切入,做的是大規模 3D 操作模型。


    不是每家公司都有資源從頭訓練一個 1B 級機器人基礎策略模型,也不是每家公司都能組織大規模多任務數據預訓練。如果 FP3 的代碼、權重和訓練方案能夠持續開源和維護,它可以成為國內團隊做 3D 策略微調、任務適配和場景泛化的底座。


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    判斷


    FP3 最重要的判斷,是把視角不變性從“需要學”變成了“可以算”。


    2D 模型面對相機角度變化,只能靠數據學不變性。它需要看過足夠多角度、足夠多背景、足夠多物體,才可能知道這些視覺變化背后是同一個三維結構。


    點云不一樣。只要相機標定正確,同一個物體在世界坐標里的形狀和位置可以直接算出來。模型少學一層不必要的視覺變化,就能把能力用在真正的操作關系上。


    第二,80 條示范的數據效率說明預訓練遷移是真實有效的。


    機器人數據稀缺不是口號,而是每個真實項目都會遇到的成本問題。FP3 如果沒有預訓練,野外性能直接跌到接近不可用;有了 DROID 上的大規模 3D 預訓練,再用 80 條示范微調,就能達到可用成功率。


    第三,FP3 的限制也很清楚


    它當前語言側主要依賴 CLIP,語言理解能力有限。CLIP 可以把圖像和文本對齊,但它不是為復雜機器人指令推理設計的。點云提供了幾何,但語義理解還不夠強。


    復雜指令、隱含目標、長程任務分解、多物體關系推理,都不是單靠點云就能解決的。


    下一個問題已經擺在這里:把 VLM 的語義理解和 3D 點云的幾何理解真正融合起來。


    2D VLA 強在語義和常識,3D 策略強在空間和操作。如果能把兩者合在同一個策略系統里,機器人基礎模型才更接近真實部署需要的形態。


    FP3 的意義,不是證明 3D 可以替代一切。


    它證明的是:機器人基礎模型不能永遠只看 2D 圖像。


    世界是三維的,機器人也必須從三維開始學習。


    ? 論文:https://arxiv.org/abs/2503.08950


    高陽團隊 FP3 入圍 ICRA 2026 機器人學習最佳論文:機器人基模從 2D 圖像走向 3D 操作空間

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 岛国av无码免费无禁网站| 亚洲色大成网站WWW永久麻豆| 中国国产xxxx免费视频| 亚洲狠狠婷婷综合久久久| 久久人人爽人人爽人人av| 亚洲精品国产高清一线久久| 亚洲中文字幕无码中字| 河北真实伦对白精彩脏话| 18禁免费观看网站| 日韩av日韩av在线| 8av国产精品爽爽ⅴa在线观看| 美女黄av| 国产一级av在线播放| 日韩成人综合| 国产女做a精品视频免费| 色亚洲天堂| 97欧美精品系列一区二区| 在线观看1024精品国产| 2020国产激情视频在线观看| 欧美成人午夜在线观看视频| 三级国产在线观看| 无码人妻aⅴ一区二区三区蜜桃 | 国产对白老熟女正在播放| 亚洲www永久成人网站| 欧美、另类亚洲日本一区二区| 一区二区三区无码视频免费福利 | 人妻另类 专区 欧美 制服| 91在线公开视频| 久久久久成人精品免费播放网站| 二区中文字幕在线观看| 国产精品调教| 九九国产在线| 精品丰满人妻无套内射| 伊人久久大香线蕉成人综合网| 亚洲精品国产一二三区| caoporn免费视频公开| 亚洲欧美小说区图片另类| 句容市| 日韩欧美综合在线制服| 国产成人一区二区三区小说| 91精品蜜臀国产综合久久|