• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    內(nèi)部專用 正文
    發(fā)私信給吳思?jí)?/span>
    發(fā)送

    0

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    導(dǎo)語:公開數(shù)據(jù)顯示,ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿,錄用率約為26.6%。


    原文作者:公眾號(hào)“深圳市大數(shù)據(jù)研究院”

    原文鏈接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA



    近日,深圳市大數(shù)據(jù)研究院四項(xiàng)科研成果同時(shí)發(fā)表于第43屆國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning, ICML)。


    會(huì)議介紹


    國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning, ICML)是人工智能領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議,為中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國際學(xué)術(shù)會(huì)議,與NeurIPS、ICLR通常并稱為機(jī)器學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議。ICML長(zhǎng)期關(guān)注機(jī)器學(xué)習(xí)基礎(chǔ)理論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、優(yōu)化方法、概率建模、可信機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)系統(tǒng),以及機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺、計(jì)算生物學(xué)、語音識(shí)別和機(jī)器人等領(lǐng)域的應(yīng)用。公開數(shù)據(jù)顯示,ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿,錄用率約為26.6%。


    論文簡(jiǎn)介

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments


    AdaMeZO:無需保存動(dòng)量矩的 Adam 風(fēng)格零階大語言模型微調(diào)優(yōu)化器

    關(guān)鍵詞

    大語言模型微調(diào)、零階優(yōu)化、優(yōu)化器、內(nèi)存效率


    摘要:大語言模型微調(diào)是提升模型在特定下游任務(wù)中表現(xiàn)的重要手段,但傳統(tǒng)基于反向傳播的一階優(yōu)化方法需要計(jì)算并存儲(chǔ)梯度,顯著增加顯存開銷,限制了大模型在資源受限設(shè)備上的部署與應(yīng)用。已有零階優(yōu)化方法 MeZO 僅依賴前向傳播即可完成微調(diào),大幅降低了顯存需求,但其更新方式類似隨機(jī)梯度下降,難以感知不同參數(shù)維度上的損失曲率差異,導(dǎo)致收斂速度較慢。與此同時(shí),直接引入Adam 等自適應(yīng)優(yōu)化器雖然能夠利用一階與二階矩估計(jì)提升收斂效率,但直接引入會(huì)額外存儲(chǔ)與模型參數(shù)同規(guī)模的動(dòng)量信息,從而削弱零階優(yōu)化的內(nèi)存優(yōu)勢(shì)。


    針對(duì)上述問題,論文提出 Adam 風(fēng)格零階優(yōu)化器 AdaMeZO。該方法通過截?cái)鄽v史梯度構(gòu)造近似的一階與二階矩估計(jì),并結(jié)合更細(xì)粒度的偽隨機(jī)數(shù)生成器狀態(tài)緩存機(jī)制,在需要更新參數(shù)時(shí)按塊原地重建歷史隨機(jī)方向,而無需在顯存中長(zhǎng)期維護(hù)完整動(dòng)量向量。由此,AdaMeZO 在保留 MeZO 低顯存優(yōu)勢(shì)的同時(shí),引入類似 Adam 的自適應(yīng)預(yù)條件更新能力,使模型能夠更有效地適應(yīng)復(fù)雜損失函數(shù)景觀中的不同曲率區(qū)域。


    理論分析表明,在非凸優(yōu)化假設(shè)下,AdaMeZO 能夠以O(shè)(1/√T)的速度收斂到平穩(wěn)點(diǎn)附近。實(shí)驗(yàn)在 RoBERTa、OPT、LLaMA 等模型及多類自然語言處理任務(wù)上驗(yàn)證了方法有效性。結(jié)果顯示,AdaMeZO 在多個(gè)任務(wù)中優(yōu)于 MeZO 和相關(guān)強(qiáng)基線,并在達(dá)到相同終止損失時(shí)最多減少約 70% 的前向傳播次數(shù);實(shí)測(cè)額外顯存僅約 7%,顯著低于需要顯式存儲(chǔ)矩估計(jì)的方法(額外顯存約50-100%)。該工作為低顯存開銷大語言模型高效微調(diào)提供了一種新的優(yōu)化方法。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖1:圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí),分別減少 69.75%、70.48% 和 70.90% 的前向傳播。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖2:AdaMeZO 的分塊矩估計(jì)機(jī)制。與基于 seed 的整體隨機(jī)流控制相比,基于 PRNG 狀態(tài)緩存的分塊控制可在計(jì)算并釋放一、二階矩后進(jìn)入下一參數(shù)塊,從而減少額外顯存。


    論文第一作者蔡智捷與共同第一作者陳浩瀧為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生、香港中文大學(xué)(深圳)理工學(xué)院博士生,通訊作者為深圳市大數(shù)據(jù)研究院研究員朱光旭博士

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance


    Romberg 外推零階梯度估計(jì)器:保留主導(dǎo)方向方差的高階偏差減少

    關(guān)鍵詞

    零階優(yōu)化、梯度估計(jì)、龍貝格外推


    摘要:在現(xiàn)代學(xué)習(xí)與優(yōu)化中,常因梯度計(jì)算昂貴或不可得,需僅通過函數(shù)值查詢估計(jì)梯度。標(biāo)準(zhǔn)梯度估計(jì)存在偏差-方差制約,現(xiàn)有改進(jìn)方法難以兼顧兩者優(yōu)化。為此,本文提出Romberg-ZOGE方法,通過多尺度兩點(diǎn)估計(jì)結(jié)合Romberg外推,在降低偏差的同時(shí)保持方差不增。


    理論上,Romberg-ZOGE可實(shí)現(xiàn)高階偏差縮減且不增加主導(dǎo)方差。對(duì)確定性函數(shù)評(píng)估,其在多個(gè)半徑上構(gòu)造兩點(diǎn)估計(jì)并加權(quán),將偏差從O(r2) 降至 O(r2R+2),且主導(dǎo)方向方差與標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器一致。針對(duì)ZO-SGD的隨機(jī)函數(shù)查詢,同次梯度估計(jì)的多查詢共享隨機(jī)樣本,噪聲可在差分與外推中抵消,避免額外放大,收斂復(fù)雜度不劣于基線。


    實(shí)驗(yàn)覆蓋三類場(chǎng)景:合成函數(shù)實(shí)驗(yàn)中,R=2時(shí)偏差呈接近O(r6)下降,遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器的O(r2),且主導(dǎo)方差與基線相近;優(yōu)化實(shí)驗(yàn)中,相同查詢預(yù)算下收斂更快更穩(wěn)定;無線網(wǎng)絡(luò)優(yōu)化任務(wù)中,提升了平滑分位數(shù)頻譜效率目標(biāo)值;OPT-1.3B的SST-2黑箱prompt tuning任務(wù)中,取得最低訓(xùn)練損失及最高驗(yàn)證、測(cè)試準(zhǔn)確率。結(jié)果表明,Romberg-ZOGE兼具理論優(yōu)勢(shì)與實(shí)際黑箱優(yōu)化的穩(wěn)定收益。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖3:圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí),分別減少 69.75%、70.48% 和 70.90% 的前向傳播。


    論文第一作者董洪成為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生,通訊作者為深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士,共同作者為深圳市大數(shù)據(jù)研究院副研究員趙立成博士、周睿博士,香港中文大學(xué)(深圳)人工智能學(xué)院尹峰教授。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning


    云端思考,邊端觀察:面向高效視頻推理的語義驅(qū)動(dòng)查詢分解

    關(guān)鍵詞

    長(zhǎng)視頻理解、邊云協(xié)同、語義驅(qū)動(dòng)查詢分解、關(guān)鍵幀選擇、多模態(tài)大模型


    摘要:長(zhǎng)視頻理解面臨帶寬、時(shí)延與精度矛盾:純?cè)贫朔桨改芰?qiáng)但上傳成本高,純邊緣方案響應(yīng)快但推理能力有限。本文發(fā)現(xiàn),現(xiàn)有邊云協(xié)同方法常將復(fù)雜問題壓縮為單一語義向量進(jìn)行相似度檢索,容易產(chǎn)生“語義淹沒”,使邏輯上關(guān)鍵但不突出的證據(jù)被顯著視覺線索覆蓋。為此,本文提出 SCOPE 框架,采用“云端思考、邊緣觀察”的范式:云端大模型將用戶問題分解為帶依賴關(guān)系和重要性權(quán)重的 DAG 觀測(cè)計(jì)劃,邊緣側(cè)據(jù)此進(jìn)行預(yù)算分配、并行語義匹配與關(guān)鍵幀選擇,上傳高價(jià)值證據(jù)幀。Video-MME 和 LongVideoBench 實(shí)驗(yàn)表明,SCOPE 在嚴(yán)格幀預(yù)算下穩(wěn)定優(yōu)于 Uniform、Top-K、AKS 等基線;在 16 幀設(shè)置下達(dá)到與純?cè)贫讼嗤?66.04% 準(zhǔn)確率,并將端到端時(shí)延由 154.22 秒降至 23.94 秒,降低約 85%。該研究為資源受限場(chǎng)景中的長(zhǎng)視頻高效推理提供了可部署的邊云協(xié)同新范式。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖4:SCOPE總體框架。云端大模型先生成結(jié)構(gòu)化觀測(cè)計(jì)劃,邊緣側(cè)依據(jù)計(jì)劃完成預(yù)算感知關(guān)鍵幀選擇,并將證據(jù)幀上傳云端進(jìn)行深度推理。


    本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士Jackie Zou,第二作者為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生、香港中文大學(xué)(深圳)理工學(xué)院博士生蔡智捷,通訊作者為香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授余旻晨博士,深圳市大數(shù)據(jù)研究院研究員朱光旭博士。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    MIMOMamba: From Scalar Duality to Matrix-Valued Attention


    MIMOMamba:從標(biāo)量對(duì)偶到矩陣值注意力

    關(guān)鍵詞

    狀態(tài)空間模型(SSM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、結(jié)構(gòu)化矩陣、線性注意力機(jī)制


    摘要:現(xiàn)代序列建模需兼顧表達(dá)能力與效率。Transformer自注意力能力強(qiáng),但復(fù)雜度隨序列長(zhǎng)度二次增長(zhǎng);Mamba等結(jié)構(gòu)化狀態(tài)空間模型雖具線性效率,卻常將時(shí)序建模與跨通道交互分離,難以刻畫時(shí)變耦合。


    本文提出MIMOMamba,通過矩陣多項(xiàng)式參數(shù)化將狀態(tài)空間對(duì)偶性推廣至多輸入多輸出(MIMO)設(shè)置,在單一選擇性遞推中聯(lián)合建模時(shí)間依賴與跨通道交互,并保持線性效率。該方法將注意力元素由標(biāo)量擴(kuò)展為D×D矩陣,實(shí)現(xiàn)矩陣值結(jié)構(gòu)化注意力;同時(shí)借助共享代數(shù)基底保證交換性、降低參數(shù)冗余,使核心參數(shù)復(fù)雜度由Transformer約3D2降至約D2。

    實(shí)驗(yàn)表明,MIMOMamba在SSP物理預(yù)測(cè)基準(zhǔn)上以約35k參數(shù)取得最優(yōu)精度(RMSE=0.687),優(yōu)于多種先進(jìn)基線;推理內(nèi)存線性增長(zhǎng),訓(xùn)練吞吐量較Mamba-2提升1.5–1.6倍,為高效序列建模提供了新的理論與方法支撐。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖5:MIMOMamba 從遞推狀態(tài)空間模型到矩陣值注意力的對(duì)偶視角


    本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士生、香港中文大學(xué)(深圳)博士生李彥伯,第二作者為香港中文大學(xué)(深圳)博士生Richard Cornelius SUWANDI,通訊作者為香港中文大學(xué)(深圳)人工智能學(xué)院尹峰教授,共同作者為香港中文大學(xué)(深圳)博士生孫藝勇、中國海洋大學(xué)黃威教授、深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士。


    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产欧美另类久久久精品丝瓜| 中文字幕乱码一区二区| 国产23区| 亚洲IV视频免费在线光看 | 一区二区三区福利导航| 2020最新国产精品视频| 5566中文字幕一区二区三区 | 久久无码精品精品古装毛片| 国产精品美腿一区在线看| 真实的单亲乱自拍对白免费| 色天堂福利| 国产亚洲高清一区二区三区| 欧美黑人添添高潮a片www| 国产高清一区二区不卡| 欧美激情猛片xxxⅹ大3| 99久久精品国产都在这里| 精品1卡二卡三卡四卡老狼| 娇妻玩4p被三个男人伺候| 精品成人一区二区三区四区| 亚洲欧美在线观看影院 | 亚洲一区二区三区自拍麻豆| 制服丝袜国产日韩酒店大堂经理| 亚洲色鬼| 亚洲情xo亚洲色xo无码| 一区二区视频| 国产午精品午夜福利757视频播放| 亚洲无线一二三四区手机| 日本高清www午色夜免费观看| 丰满岳乱妇一区二区三区| 国产亚洲精品久久久久久久软件| 日本一二三区高清免费播放器| 91草草| 亚洲综合日韩av在线| 好吊视频专区一区二区三区| 黄色不卡| 五十路老熟妇| 久久99精品久久久久久不卡| 成人国产av精品免费网| 韩产日产国产欧产| 老子午夜精品无码| 亚洲中文欧美在线视频|