• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給鄭佳美
    發送

    0

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    本文作者: 鄭佳美   2026-05-25 15:49 專題:CVPR 計算機視覺與模式識別會議
    導語:MindVLA-U1:統一視覺語言動作架構,實現理解后規劃。
    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策
    MindVLA-U1:統一視覺語言動作架構,實現理解后規劃。

        作者丨鄭佳美

        編輯丨馬曉寧

                                                                                                                   

    在自動駕駛進入大模型時代之后,行業正在從傳統的“感知、預測、規劃、控制”模塊化流水線,逐步轉向端到端智能系統。

    過去,VA 模型能夠直接從視覺輸入生成駕駛軌跡,在規劃精度和實時性上表現突出,但它們更多依賴隱式視覺特征,很難清楚解釋“為什么這樣開”,也難以處理那些需要語義理解和常識推理的長尾場景。

    比如車輛行駛在狹窄居民區道路上,兩側停滿車輛,前方可能有行人突然從車縫中出現;又比如在無保護左轉路口,系統不僅要判斷對向來車速度,還要理解讓行關系和潛在風險;再比如施工區域、臨停車輛、單純依靠視覺到軌跡的映射往往不夠,自動駕駛系統還需要像人類司機一樣理解場景含義,再把理解轉化為可執行的連續控制動作。

    在這種背景下,VLA 被認為是更接近“會理解、會解釋、會行動”的自動駕駛方向,但此前很多 VLA 方法又面臨一個現實問題:語言能力引入后,規劃精度、動作連續性和推理速度往往難以同時保證。

    正是在這種行業矛盾下,香港中文大學 MMLab、理想汽車和清華大學的聯合研究團隊提出了《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》這項研究。

    研究試圖回答一個關鍵問題:自動駕駛中的語言理解,究竟能不能真正幫助動作規劃,而不是只作為解釋文本存在。圍繞這一問題,研究團隊沒有簡單地擴大模型規模,而是從架構接口入手,把視覺、語言、車輛狀態、歷史記憶和動作生成統一到同一個 VLM backbone 中,讓模型既能理解道路場景,也能直接生成連續駕駛軌跡。

    更重要的是,研究通過 Intent-CFG 讓語言側預測出的駕駛意圖參與軌跡生成,通過 streaming memory 讓模型像真實車輛一樣逐幀處理連續視頻流,并通過快 / 慢推理路徑在實時控制和語義推理之間切換。

    也就是說,當道路場景簡單時,系統可以快速給出動作;當場景復雜、風險較高或需要解釋時,系統可以保留語言推理能力,再生成更有語義依據的駕駛軌跡。這使得研究不只是一次模型指標提升,更是在探索自動駕駛從“看見后執行”走向“理解后行動”的一種新架構路線。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    論文地址:https://arxiv.org/pdf/2605.12624

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    01


    當 VLA 開始超過 VA

    實驗結果顯示,MindVLA-U1 在 WOD-E2E 自動駕駛 benchmark 上取得了較強的整體規劃效果,尤其是在加入 RL 后,驗證集 RFS 達到 8.20,而人類駕駛參考軌跡的 RFS 是 8.13,說明模型在開放環評測中生成的軌跡質量已經超過人類駕駛參考,體現出研究團隊提出的統一 VLA 架構在軌跡規劃上的優勢。雷峰網

    在官方測試集中,MindVLA-U1 + RL 的 RFS 達到 7.87,取得最高表現,同時 RFS-GT ADE 達到 1.09 / 2.66 m,軌跡誤差低于多數已有 VA 和 VLA 方法,說明這種方法并不是只在驗證集上有效,在隱藏測試集上也具有較好的泛化能力。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    語言對動作的影響也得到了實驗驗證,普通 MindVLA-U1 的 RFS 是 7.83,加入 NTP 預測 intent 后,RFS 提升到 7.92,說明語言側預測出的駕駛意圖可以通過 Intent-CFG 引導連續軌跡生成,使語言信息真正進入動作生成過程,而不是只作為解釋或附加輸出存在。雷峰網(公眾號:雷峰網)

    流式記憶模塊同樣表現出明顯作用,chunk-wise 單幀訓練的 RFS 是 7.69,streaming training 提升到 7.73,streaming + memory 進一步提升到 7.83,說明僅僅按幀進行流式訓練還不夠,加入歷史記憶后,模型能夠更好利用時間上下文,從而改善連續駕駛場景中的長期規劃效果,同時長時間軌跡預測中的 ADE 也整體下降,例如 25 s 序列 ADE 從 1.54 降到 1.50。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    快 / 慢路徑實驗說明,慢路徑可以保留語言推理能力,更適合復雜場景或安全敏感場景,快路徑則跳過語言生成,直接進行動作規劃,在保持較好規劃質量的同時讓推理速度接近 VA 方法,表明 VLA 模型不一定只能“慢而重”,也可以通過不同推理模式在語義理解和實時控制之間切換。

    模型規模實驗進一步說明,性能提升并不只依賴更大的 VLM backbone,不同尺寸下結果并不是越大越好,其中 2B 左右表現較好,9B 模型在默認訓練設置下沒有明顯優勢,延長訓練后 9B 有一定恢復,說明當前瓶頸不只是模型大小,還包括訓練數據規模、訓練時長、動作接口設計和任務適配方式等因素。

    總體來看,研究結果表明,MindVLA-U1 的優勢來自多個部分共同作用,包括統一的視覺語言動作 backbone、連續動作生成方式、Intent-CFG 語言到動作橋接、流式記憶機制、快 / 慢推理路徑以及 RL 后訓練,這些設計共同改善了 VLA 在自動駕駛軌跡規劃中的精度、泛化能力、實時性和語義可控性。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策
    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    02


    讓模型像真實車輛一樣連續感知

    實驗經過方面,研究基于 WOD-E2E 數據集展開,數據來自真實自動駕駛場景,每段駕駛片段約 20 秒,并且包含多攝像頭 360° 視覺輸入,因此能夠覆蓋車輛周圍不同方向的環境信息。

    由于數據集中包含較多長尾場景,研究團隊可以用它測試模型在復雜駕駛情況中的軌跡規劃能力,而不是只驗證模型在普通、規則、容易預測場景中的表現。

    主要評測內容集中在兩個方面,一方面評測模型預測軌跡的質量,使用 RFS 衡量預測軌跡是否符合人類評審偏好,使用 ADE 衡量預測軌跡和參考軌跡之間的距離誤差,另一方面也評估語言輸出質量,例如 VQA 的 BLEU 和 ROUGE,用來判斷模型在保留駕駛規劃能力的同時,是否還能維持語言理解和回答能力。

    模型輸入包括當前多視角圖像、車輛自身歷史狀態、文本問題或語言提示、歷史 streaming memory,以及帶噪聲的動作 token,這些信息共同進入模型,使模型既能看到當前道路環境,又能利用車輛歷史運動狀態和之前幀中保留下來的時序信息。

    模型輸出包括語言回答和連續駕駛軌跡,二者由同一個共享 backbone 完成,不是先用一個模塊做語言理解,再交給另一個獨立模塊規劃動作,也不是把動作表示成離散坐標 token,而是直接生成連續軌跡,這樣可以減少離散化帶來的精度損失。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    統一 backbone 設計中,視覺、語言、車輛狀態、記憶、動作 token 會一起進入 VLM backbone,語言通過自回歸方式生成,動作通過 flow-matching 方式生成,兩類任務共享模型表示,使語義理解和動作規劃能在同一模型內部結合。

    流式記憶設計中,模型不是一次性輸入固定長度視頻片段,而是每次只處理當前幀,歷史信息通過 FIFO memory 保存,memory 會隨著車輛運動進行對齊,每一幀處理后,模型還會寫入新的 memory,從而讓歷史上下文在連續駕駛過程中不斷傳遞,這種方式更接近真實自動駕駛中的連續視頻流,也減少了重復處理多幀視頻帶來的計算負擔。

    Intent-CFG 設計中,模型先預測當前駕駛意圖,例如直行、左轉、右轉等,再把這個 intent 作為條件,引導動作擴散過程,并通過 CFG 讓 intent 對軌跡生成產生影響。

    實驗還對比了無 intent、軌跡派生 intent、GT intent 和模型預測 intent,結果顯示模型預測 intent 的效果最好,說明由語言側預測出的駕駛意圖更能幫助模型生成合理軌跡。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    快/慢推理設計中,vqa_first 表示先語言推理再動作規劃,action_first 表示先動作規劃再生成語言解釋,action_only 表示只生成動作不生成語言,不同模式共享同一套模型權重,因此部署時可以根據場景復雜度選擇推理方式,簡單場景中使用更快的動作路徑,復雜或安全敏感場景中保留語言推理能力。

    最后,在監督訓練后,研究人員進一步使用 RL 優化模型,獎勵信號主要來自 RFS,使模型生成的軌跡更符合人類評審偏好,并最終取得驗證集和測試集上的最好結果。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策
    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    03


    自動駕駛 VLA 接口的重構

    實驗意義在于重新解釋 VLA 過去落后 VA 的原因,研究團隊認為,VLA 過去規劃效果差,并不是因為語言天然會傷害控制能力,而是因為接口設計不合理,例如一些方法把本來需要保持高精度的連續軌跡離散成語言 token,導致動作表達受到 token 精度限制,也有一些方法把語言模塊和動作模塊分離得太遠,使語言理解結果難以真正影響軌跡規劃,還有一些方法在時間建模上依賴固定視頻 chunk,容易造成計算冗余和片段邊界不連續。

    基于這種判斷,MindVLA-U1 證明 VLA 可以同時兼顧理解和控制,模型既保留語言理解能力,又保留連續動作生成能力,不需要為了獲得語言接口而犧牲軌跡精度,也不需要在推理時把語言模塊完全丟掉。

    更重要的是,研究讓語言真正進入駕駛決策過程,過去很多 VLA 雖然擁有語言頭,但語言并沒有明確影響動作,更多只是作為解釋或輔助輸出存在,而 MindVLA-U1 通過 Intent-CFG 建立了語言到動作的可測量路徑,使駕駛意圖不只是對結果的說明,而是能夠改變軌跡生成方向,從而讓語言側理解對連續控制產生實際作用。

    研究也更適合真實自動駕駛部署,因為真實駕駛是連續視頻流,而不是固定長度片段,streaming memory 能讓模型按幀處理場景,同時保留歷史上下文,并減少重復處理多幀視頻帶來的計算浪費,使模型更接近真實車輛持續感知和持續規劃的工作方式。

    快/慢系統統一方案也是重要意義之一,簡單場景可以走 action_only 快路徑,直接生成動作以滿足實時控制需求,復雜場景可以走帶語言推理的慢路徑,讓模型在安全敏感或語義復雜情境中進行更充分分析,一個模型即可覆蓋不同計算需求,有助于實際部署中平衡實時性和安全性。

    整體來看,研究推動了自動駕駛 VLA 架構發展,其重點不是單個模塊改進,而是統一語言、視覺、記憶、動作的整體接口,為后續自動駕駛模型設計提供了參考價值。

    同時,研究也留下進一步探索空間,當前主要是開放環評測,還沒有充分驗證閉環駕駛表現,目前只使用了較簡單的 3 類 intent,MindLabel 中更豐富的 20 類 intent、軌跡評價 QA、CoT rationale 還沒有充分利用,后續仍可以繼續提升長尾場景處理能力、多模態動作選擇能力和閉環安全性。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    04


    MindVLA-U1 背后的研究者

    這篇論文的通訊作者為李鴻升,香港中文大學電子工程系 Multimedia Laboratory 副教授,同時兼任香港中文大學計算機科學與工程系副教授,并將于 2026 年 8 月 1 日起晉升為正教授。

    他于 2006 年獲得華東理工大學自動化專業工學學士學位,2006 年至 2007 年在上海交通大學模式識別與智能系統方向學習,隨后進入美國 Lehigh University 攻讀博士,并于 2012 年獲得計算機科學博士學位。

    職業經歷上,他曾在電子科技大學電子科學學院擔任副教授,之后在香港中文大學電子工程系先后擔任博士后、研究助理教授和助理教授,并自 2022 年 7 月起擔任副教授。研究方向上,他長期關注計算機視覺、醫學影像、深度學習、多模態學習、生成模型、具身智能和機器人操作等領域。

    學術成果方面,他在 CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI 等頂級會議持續發表成果,2025 年有 13 篇成果被 NeurIPS 接收、3 篇被 EMNLP 主會接收、7 篇被 ICCV 接收、4 篇被 ACL 接收、3 篇被 ICML 接收、11 篇被 CVPR 接收,2026 年有 3 篇成果被 ACL 接收,并有 27 篇成果被 ICML、CVPR、ICLR、AAAI 接收。

    他還曾獲得過 2025 年香港中文大學 Research Excellence Award、2021 年香港中文大學 Young Researcher Award、2020 年 IEEE Circuits and System Society Outstanding Young Author Award,并在 2022 年、2023 年、2024 年獲得 AI 2000 計算機視覺領域最具影響力學者榮譽提名,2022 年至 2025 年入選斯坦福大學全球前 2% 頂尖科學家榜單。

    除此之外,他的團隊曾獲得 ActivityNet Challenge 2020 時空動作定位 AVA 賽道冠軍、ImageNet Video Object Detection Challenge 2015 冠軍,以及 ImageNet Video Object Detection / Tracking Challenge 2016 冠軍,近年研究覆蓋網頁生成評測、移動 GUI 智能體、多模態數學推理、圖像生成、視覺生成編輯、自動駕駛場景生成和具身智能等方向。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    參考鏈接 :https://www.ee.cuhk.edu.hk/~hsli/

    另一位通訊作者為朱本金(Benjin Zhu),目前是理想汽車的研究科學家,同時在清華大學從事博士后研究,合作導師為代季峰教授。

    他于 2025 年在香港中文大學電子工程系獲得博士學位,博士期間隸屬于 Multimedia Lab,導師為李鴻升教授和王曉剛教授,并于 2018 年在華南理工大學獲得軟件工程學士學位。

    職業經歷方面,他曾于 2019 年 1 月至 2021 年 5 月在曠視研究院擔任研究員,研究方向包括端到端目標檢測、無監督 / 自監督學習和研究基礎設施,2025 年 5 月起在理想汽車擔任高級研究工程師,主要關注世界模型、視覺語言動作模型和強化學習。

    他聚焦視覺語言動作模型、擴散模型、世界模型和 AI 基礎設施。學術成果方面,他參與了多項計算機視覺、三維感知和自動駕駛相關研究,成果曾被 ICCV、ECCV、CVPR 等國際頂級會議接收。

    除此之外,他還曾獲得 WAD CVPR 2019 首屆 nuScenes 3D 目標檢測挑戰賽冠軍,并對多個開源計算機視覺框架作出重要貢獻,相關框架覆蓋三維檢測、視覺任務實驗管理和通用深度學習研究基礎設施。

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    參考鏈接:https://benjin.me/

    這次去 CVPR 現場,一定不要錯過

    【認識大牛+賺外快】的機會

    需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

    你能獲得什么?

    認識大牛:你將可以進入CVPR名師博士社群;

    錢多活少:提供豐厚獎金,任務量精簡;

    聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

    如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

    限額5位,先到先得

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 免费一区二区无码东京热| 久久精品波多野结衣| 国产精品丝袜老师剧情演绎| 影音先锋成人网站| 欧美又粗又大又爽| 9191精品国产免费久久国语| 国产成人高清亚洲综合| 色偷偷免费视频| 91爱爱网| 岛国一级| 亚洲一区二区三区96| 性中国videossexo另类| 中文字幕精品亚洲字幕成| 看亚洲一级黄色片啪啪啪| 影音先锋午夜成人AV在线| 99久久无色码中文字幕人妻| 日本一区二区国产在线| 在线播放国产高潮流白浆视频| 亚洲欧美日韩综合在线一区二区三区 | 久艹AV| 在线AA不卡| 免费观看av在线播放| 中文字幕热久久久久久久| 国产精品小视频一区二页| 夜色资源站www国产在线观看| 一本无码中文字幕| 精品素人AV无码不卡在线观看 | 一本色道久久综合亚洲精品按摩 | 一区二区三区四区黄色片| 午夜av一区二区三区| 国产精品久久午夜夜伦鲁鲁 | 性爱免费视频| 久热大香蕉| 国产蜜臀视频一区二区三区| 色偷偷亚洲精品一区二区| 少妇bbwbbw高潮| 99久久婷婷国产综合精| 亚洲av无码之国产精品网址蜜芽| 自拍av一区| 日韩 欧美 国产 精品 综合| 亚洲嫩模一区二区三区|