深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

2026-06-16 15:08

導(dǎo)語：公開數(shù)據(jù)顯示，ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿，錄用率約為26.6%。

原文作者：公眾號(hào)“深圳市大數(shù)據(jù)研究院”

原文鏈接：https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA

近日，深圳市大數(shù)據(jù)研究院四項(xiàng)科研成果同時(shí)發(fā)表于第43屆國際機(jī)器學(xué)習(xí)大會(huì)（International Conference on Machine Learning, ICML）。

會(huì)議介紹

國際機(jī)器學(xué)習(xí)大會(huì)（International Conference on Machine Learning, ICML）是人工智能領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議，為中國計(jì)算機(jī)學(xué)會(huì)（CCF）推薦的A類國際學(xué)術(shù)會(huì)議，與NeurIPS、ICLR通常并稱為機(jī)器學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議。ICML長(zhǎng)期關(guān)注機(jī)器學(xué)習(xí)基礎(chǔ)理論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、優(yōu)化方法、概率建模、可信機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)系統(tǒng)，以及機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺、計(jì)算生物學(xué)、語音識(shí)別和機(jī)器人等領(lǐng)域的應(yīng)用。公開數(shù)據(jù)顯示，ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿，錄用率約為26.6%。

論文簡(jiǎn)介

深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments

AdaMeZO：無需保存動(dòng)量矩的 Adam 風(fēng)格零階大語言模型微調(diào)優(yōu)化器

關(guān)鍵詞

大語言模型微調(diào)、零階優(yōu)化、優(yōu)化器、內(nèi)存效率

摘要：大語言模型微調(diào)是提升模型在特定下游任務(wù)中表現(xiàn)的重要手段，但傳統(tǒng)基于反向傳播的一階優(yōu)化方法需要計(jì)算并存儲(chǔ)梯度，顯著增加顯存開銷，限制了大模型在資源受限設(shè)備上的部署與應(yīng)用。已有零階優(yōu)化方法 MeZO 僅依賴前向傳播即可完成微調(diào)，大幅降低了顯存需求，但其更新方式類似隨機(jī)梯度下降，難以感知不同參數(shù)維度上的損失曲率差異，導(dǎo)致收斂速度較慢。與此同時(shí)，直接引入Adam 等自適應(yīng)優(yōu)化器雖然能夠利用一階與二階矩估計(jì)提升收斂效率，但直接引入會(huì)額外存儲(chǔ)與模型參數(shù)同規(guī)模的動(dòng)量信息，從而削弱零階優(yōu)化的內(nèi)存優(yōu)勢(shì)。

針對(duì)上述問題，論文提出 Adam 風(fēng)格零階優(yōu)化器 AdaMeZO。該方法通過截?cái)鄽v史梯度構(gòu)造近似的一階與二階矩估計(jì)，并結(jié)合更細(xì)粒度的偽隨機(jī)數(shù)生成器狀態(tài)緩存機(jī)制，在需要更新參數(shù)時(shí)按塊原地重建歷史隨機(jī)方向，而無需在顯存中長(zhǎng)期維護(hù)完整動(dòng)量向量。由此，AdaMeZO 在保留 MeZO 低顯存優(yōu)勢(shì)的同時(shí)，引入類似 Adam 的自適應(yīng)預(yù)條件更新能力，使模型能夠更有效地適應(yīng)復(fù)雜損失函數(shù)景觀中的不同曲率區(qū)域。

理論分析表明，在非凸優(yōu)化假設(shè)下，AdaMeZO 能夠以O(shè)(1/√T)的速度收斂到平穩(wěn)點(diǎn)附近。實(shí)驗(yàn)在 RoBERTa、OPT、LLaMA 等模型及多類自然語言處理任務(wù)上驗(yàn)證了方法有效性。結(jié)果顯示，AdaMeZO 在多個(gè)任務(wù)中優(yōu)于 MeZO 和相關(guān)強(qiáng)基線，并在達(dá)到相同終止損失時(shí)最多減少約 70% 的前向傳播次數(shù)；實(shí)測(cè)額外顯存僅約 7%，顯著低于需要顯式存儲(chǔ)矩估計(jì)的方法（額外顯存約50-100%）。該工作為低顯存開銷大語言模型高效微調(diào)提供了一種新的優(yōu)化方法。

圖1：圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí)，分別減少 69.75%、70.48% 和 70.90% 的前向傳播。

圖2：AdaMeZO 的分塊矩估計(jì)機(jī)制。與基于 seed 的整體隨機(jī)流控制相比，基于 PRNG 狀態(tài)緩存的分塊控制可在計(jì)算并釋放一、二階矩后進(jìn)入下一參數(shù)塊，從而減少額外顯存。

論文第一作者蔡智捷與共同第一作者陳浩瀧為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)（深圳）聯(lián)合培養(yǎng)博士生、香港中文大學(xué)（深圳）理工學(xué)院博士生，通訊作者為深圳市大數(shù)據(jù)研究院研究員朱光旭博士。

Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance

Romberg 外推零階梯度估計(jì)器：保留主導(dǎo)方向方差的高階偏差減少

關(guān)鍵詞

零階優(yōu)化、梯度估計(jì)、龍貝格外推

摘要：在現(xiàn)代學(xué)習(xí)與優(yōu)化中，常因梯度計(jì)算昂貴或不可得，需僅通過函數(shù)值查詢估計(jì)梯度。標(biāo)準(zhǔn)梯度估計(jì)存在偏差-方差制約，現(xiàn)有改進(jìn)方法難以兼顧兩者優(yōu)化。為此，本文提出Romberg-ZOGE方法，通過多尺度兩點(diǎn)估計(jì)結(jié)合Romberg外推，在降低偏差的同時(shí)保持方差不增。

理論上，Romberg-ZOGE可實(shí)現(xiàn)高階偏差縮減且不增加主導(dǎo)方差。對(duì)確定性函數(shù)評(píng)估，其在多個(gè)半徑上構(gòu)造兩點(diǎn)估計(jì)并加權(quán)，將偏差從O(r2) 降至 O(r2R+2)，且主導(dǎo)方向方差與標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器一致。針對(duì)ZO-SGD的隨機(jī)函數(shù)查詢，同次梯度估計(jì)的多查詢共享隨機(jī)樣本，噪聲可在差分與外推中抵消，避免額外放大，收斂復(fù)雜度不劣于基線。

實(shí)驗(yàn)覆蓋三類場(chǎng)景：合成函數(shù)實(shí)驗(yàn)中，R=2時(shí)偏差呈接近O(r6)下降，遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器的O(r2)，且主導(dǎo)方差與基線相近；優(yōu)化實(shí)驗(yàn)中，相同查詢預(yù)算下收斂更快更穩(wěn)定；無線網(wǎng)絡(luò)優(yōu)化任務(wù)中，提升了平滑分位數(shù)頻譜效率目標(biāo)值；OPT-1.3B的SST-2黑箱prompt tuning任務(wù)中，取得最低訓(xùn)練損失及最高驗(yàn)證、測(cè)試準(zhǔn)確率。結(jié)果表明，Romberg-ZOGE兼具理論優(yōu)勢(shì)與實(shí)際黑箱優(yōu)化的穩(wěn)定收益。

圖3：圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí)，分別減少 69.75%、70.48% 和 70.90% 的前向傳播。

論文第一作者董洪成為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)（深圳）聯(lián)合培養(yǎng)博士生，通訊作者為深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士，共同作者為深圳市大數(shù)據(jù)研究院副研究員趙立成博士、周睿博士，香港中文大學(xué)（深圳）人工智能學(xué)院尹峰教授。

Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning

云端思考，邊端觀察：面向高效視頻推理的語義驅(qū)動(dòng)查詢分解

關(guān)鍵詞

長(zhǎng)視頻理解、邊云協(xié)同、語義驅(qū)動(dòng)查詢分解、關(guān)鍵幀選擇、多模態(tài)大模型

摘要：長(zhǎng)視頻理解面臨帶寬、時(shí)延與精度矛盾：純?cè)贫朔桨改芰?qiáng)但上傳成本高，純邊緣方案響應(yīng)快但推理能力有限。本文發(fā)現(xiàn)，現(xiàn)有邊云協(xié)同方法常將復(fù)雜問題壓縮為單一語義向量進(jìn)行相似度檢索，容易產(chǎn)生“語義淹沒”，使邏輯上關(guān)鍵但不突出的證據(jù)被顯著視覺線索覆蓋。為此，本文提出 SCOPE 框架，采用“云端思考、邊緣觀察”的范式：云端大模型將用戶問題分解為帶依賴關(guān)系和重要性權(quán)重的 DAG 觀測(cè)計(jì)劃，邊緣側(cè)據(jù)此進(jìn)行預(yù)算分配、并行語義匹配與關(guān)鍵幀選擇，上傳高價(jià)值證據(jù)幀。Video-MME 和 LongVideoBench 實(shí)驗(yàn)表明，SCOPE 在嚴(yán)格幀預(yù)算下穩(wěn)定優(yōu)于 Uniform、Top-K、AKS 等基線；在 16 幀設(shè)置下達(dá)到與純?cè)贫讼嗤?66.04% 準(zhǔn)確率，并將端到端時(shí)延由 154.22 秒降至 23.94 秒，降低約 85%。該研究為資源受限場(chǎng)景中的長(zhǎng)視頻高效推理提供了可部署的邊云協(xié)同新范式。

圖4：SCOPE總體框架。云端大模型先生成結(jié)構(gòu)化觀測(cè)計(jì)劃，邊緣側(cè)依據(jù)計(jì)劃完成預(yù)算感知關(guān)鍵幀選擇，并將證據(jù)幀上傳云端進(jìn)行深度推理。

本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士Jackie Zou，第二作者為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)（深圳）聯(lián)合培養(yǎng)博士生、香港中文大學(xué)（深圳）理工學(xué)院博士生蔡智捷，通訊作者為香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院助理教授余旻晨博士，深圳市大數(shù)據(jù)研究院研究員朱光旭博士。

MIMOMamba: From Scalar Duality to Matrix-Valued Attention

MIMOMamba：從標(biāo)量對(duì)偶到矩陣值注意力

關(guān)鍵詞

狀態(tài)空間模型（SSM）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、結(jié)構(gòu)化矩陣、線性注意力機(jī)制

摘要：現(xiàn)代序列建模需兼顧表達(dá)能力與效率。Transformer自注意力能力強(qiáng)，但復(fù)雜度隨序列長(zhǎng)度二次增長(zhǎng)；Mamba等結(jié)構(gòu)化狀態(tài)空間模型雖具線性效率，卻常將時(shí)序建模與跨通道交互分離，難以刻畫時(shí)變耦合。

本文提出MIMOMamba，通過矩陣多項(xiàng)式參數(shù)化將狀態(tài)空間對(duì)偶性推廣至多輸入多輸出（MIMO）設(shè)置，在單一選擇性遞推中聯(lián)合建模時(shí)間依賴與跨通道交互，并保持線性效率。該方法將注意力元素由標(biāo)量擴(kuò)展為D×D矩陣，實(shí)現(xiàn)矩陣值結(jié)構(gòu)化注意力；同時(shí)借助共享代數(shù)基底保證交換性、降低參數(shù)冗余，使核心參數(shù)復(fù)雜度由Transformer約3D2降至約D2。

實(shí)驗(yàn)表明，MIMOMamba在SSP物理預(yù)測(cè)基準(zhǔn)上以約35k參數(shù)取得最優(yōu)精度（RMSE=0.687），優(yōu)于多種先進(jìn)基線；推理內(nèi)存線性增長(zhǎng)，訓(xùn)練吞吐量較Mamba-2提升1.5–1.6倍，為高效序列建模提供了新的理論與方法支撐。

圖5：MIMOMamba 從遞推狀態(tài)空間模型到矩陣值注意力的對(duì)偶視角

本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士生、香港中文大學(xué)（深圳）博士生李彥伯，第二作者為香港中文大學(xué)（深圳）博士生Richard Cornelius SUWANDI，通訊作者為香港中文大學(xué)（深圳）人工智能學(xué)院尹峰教授，共同作者為香港中文大學(xué)（深圳）博士生孫藝勇、中國海洋大學(xué)黃威教授、深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章

專題

ICML：國際機(jī)器學(xué)習(xí)會(huì)議

本專題其他文章

吳思?jí)?/span>

編輯

發(fā)私信

當(dāng)月熱門文章