滴滴多篇論文入選 ICML2026，值得一讀！

本文作者：吳思夢

2026-06-16 11:07

導語：滴滴共有五篇高質量學術成果被大會收錄

原文作者：公眾號“滴滴技術”

原文鏈接：https://mp.weixin.qq.com/s/cBQnS-ThQgLLc12flLW8ug

近日，機器學習與人工智能領域國際頂會 ICML 2026 錄用結果正式揭曉，滴滴共有五篇高質量學術成果被大會收錄。本次中稿論文分別來自滴滴L Lab團隊、滴滴網約車交易市場技術團隊，與中山大學、香港科技大學（廣州）、北京大學、上海財經大學等高校聯合研發完成。未來，滴滴將繼續深耕業務場景，讓前沿探索與產業需求相互激發，與學界攜手推動更多技術成果落地。

國際機器學習大會（International Conference on Machine Learning，簡稱 ICML）是機器學習領域最具影響力的頂級學術會議之一，同時也是中國計算機學會（CCF）推薦的 A 類國際學術會議。第 43 屆 ICML 會議將于 2026 年 7 月 6 日-11 日在韓國首爾舉行。本屆 ICML 會議共收到 23918 份提交論文，其中 6352 篇論文被錄用，526 篇被選為 Spotlight Paper。

中稿論文如下

（*排名不分先后）：

論文一：

UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios

作者： Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, WenJie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen

研究團隊：滴滴 L-Lab × 中山大學

研究方向：大模型智能體評估基準 / 長周期（Long-Horizon）任務推理、規劃與工具使用

論文下載鏈接：https://arxiv.org/pdf/2509.21766

論文介紹：現有的自主智能體評估未能涵蓋現實世界中那些需要持續推理、記憶管理和工具調用的長周期且部分可觀察的復雜任務。為了填補這一空白，我們提出了一個全新的跨環境探索基準測試，其特點是具有極長的智能體交互軌跡、極高的Token消耗量和頻繁的工具調用。

廣泛的實驗表明，當前最先進的智能體在這些任務中表現遠不如人類，且無法通過簡單的擴大規模來提升，其失敗的主要原因在于上下文鎖定（in-context locking）和基礎能力的缺失。

滴滴多篇論文入選 ICML2026，值得一讀！

論文二：Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

作者：Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan

研究團隊：滴滴 L-Lab

研究方向：多模態大模型（MLLM）智能體 / GUI 自動化 / 自進化記憶系統

論文下載鏈接：https://arxiv.org/pdf/2601.22528

論文介紹：為了克服多模態大語言模型（MLLM）在復雜GUI自動化中的記憶與上下文限制，我們提出了達爾文記憶系統（DMS），該自進化架構利用效用驅動的“自然選擇”機制來動態分解任務并淘汰次優策略。

通過將記憶構建為一個不斷進化的生態系統，DMS在無需任何額外訓練的情況下，顯著提升了MLLM智能體的任務成功率、執行穩定性與效率。

滴滴多篇論文入選 ICML2026，值得一讀！

論文三：HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning

作者：Qiyang Zhou，Ruihang Xu，Peng Wang，Wenjie Lu，Xiaochun Cao，Naiqiang Tan，Li Shen

研究團隊：滴滴 L-Lab × 中山大學

研究方向：持續離線強化學習（Continual Offline RL） / 跨任務知識遷移與隔離 / 層次化任務表示

論文介紹：為了克服持續離線強化學習（CORL）在任務異質性下的知識復用與隔離難題，我們提出了層次化任務感知組合方法（HTAC），該方法通過雙層任務編碼與軟組合機制，將任務解耦為域級與任務級嵌入，并借助按需創建的專家網絡與注意力式知識整合實現參數高效的知識隔離與復用。在離線持續世界基準上，HTAC兼顧了可塑性與穩定性，顯著提升了智能體的跨任務泛化與知識遷移能力。

滴滴多篇論文入選 ICML2026，值得一讀！

論文四：Agent-Omit: Adaptive Context Omission for Efficient LLM Agents

作者：Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

研究團隊：滴滴 L-Lab × 香港科技大學（廣州）

研究方向：大語言模型智能體

論文下載鏈接：https://arxiv.org/pdf/2602.04284v2

論文介紹：本文提出Agent-Omit框架，用于提升大語言模型智能體在多輪交互中的執行效率?，F有方法通常對思考過程與環境觀察進行統一壓縮，未考慮不同交互輪次的效用差異。

本文通過定量分析證實，智能體在交互中間輪次產生的思考與觀察信息存在大量冗余，可在不降低任務效果的前提下安全省略。Agent-Omit 采用兩階段訓練：先基于冷啟動數據微調，讓模型掌握省略行為規范；再通過省略感知的智能體強化學習，結合雙采樣機制與專屬獎勵，實現自適應省略冗余內容。

理論分析表明，該省略策略的偏差受 KL 散度上界約束。在五大智能體基準測試中，Agent-Omit-8B 性能比肩前沿大模型，且顯著降低 token 開銷，實現效果與效率的最優平衡。

滴滴多篇論文入選 ICML2026，值得一讀！

論文五：Feasible Fusion: Constrained Joint Estimation under Structural Non-Overlap（結構性重疊缺失下帶約束的聯合估計范式）

作者：Yuxi Du, Zhiheng Zhang, Haoxuan Li, Cong Fang, Jixing Xu, Zhen Peng, Jiecheng Guo

研究團隊：滴滴網約車交易市場技術 × 北京大學、上海財經大學

研究方向：因果推斷

論文下載鏈接：https://arxiv.org/pdf/2602.22612

論文介紹：現代大規模營銷場景中因果推斷正面臨日益嚴峻的挑戰，這些挑戰包括高維協變量（high-dimensional covariates）、多值處理（multi-valued）、大規模觀察性數據，以及由于成本約束而數量有限的隨機對照試驗樣本。

本文對由處理機制誘發的結構性非重疊進行了形式化刻畫，并證明：在這一情形下，常用的加權融合方法在理論上無法滿足隨機化識別約束。為應對這一問題，本文提出了一種受約束的聯合估計框架：在最小化觀察數據風險的同時，通過正交的實驗矩條件來保證因果有效性。進一步地，我們表明，結構性非重疊會在原始協變量空間中對矩約束的施加構成一種可行性障礙。在方法上，本文推導出一種帶懲罰項的原始—對偶算法，用于聯合學習表征與預測器，并將誤差分解為重疊恢復誤差、矩違背誤差以及統計誤差三部分。

大量合成實驗表明，該方法在不同程度的非重疊情形下均表現出穩健性能。與此同時，在一個滴滴大規模網約車應用場景中的實驗進一步顯示，本文方法相較于現有基線方法取得了顯著提升，其效果可與使用顯著更多 RCT 數據訓練得到的模型相仿。

滴滴多篇論文入選 ICML2026，值得一讀！