0
| 本文作者: 徐咪 | 2025-11-28 17:23 |
11月28日消息,人工智能領域頂級會議NeurIPS 2025公布了論文獎,阿里通義千問團隊最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評為最佳論文,是唯一獲得該獎項的中國團隊。該論文首次在業內揭秘了注意力門控機制對大模型性能和訓練的影響,業內人士普遍認為該研究是突破當下大模型訓練瓶頸的重要一步,將有力推動AI大模型技術的發展。

阿里通義千問研究成果被評為NeurIPS 2025最佳論文
NeurIPS是人工智能領域影響力最大的頂會之一,該會議誕生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微軟、OpenAI、阿里巴巴及麻省理工學院等全球頂尖科技公司和機構共有2萬多篇論文投稿,僅有約25%的論文被接收,而最佳論文僅有4篇,入選概率不及萬分之二,代表了目前全球人工智能領域最有價值和影響力的研究。
2017年,谷歌在NeurIPS發表的論文首次提出Transformer模型架構和?自注意力機制,這一研究讓AI像人類一樣具備有選擇性地關注關鍵信息的能力,是當下大模型研究的基礎。盡管現在大模型在很多領域已經取得接近甚至超越人類的表現,但現有注意力機制仍存在諸多局限,例如當下大模型會因為過度關注特定信息而導致對其它重要信息的忽略或處理偏差,這些局限性極大地影響了模型性能和訓練穩定性,為此業界開始探索對注意力進行優化的新方案。
門控機制被認為是模型的“智能閥門”,可以幫助模型過濾無效信息并提升模型性能。近年來,AlphaFold2、Forgetting Transformer等學術界和工業界模型開始嘗試將門控和注意力機制結合。但業界尚未破解門控在注意力中發揮作用的內在原因,也缺少大規模實踐的經驗。
此次,通義千問研究團隊通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進行了數十組實驗,單組實驗訓練最多超過 3.5 萬億 tokens,首次清晰揭秘了門控注意力背后的作用原理,并全面展示使用該方案的最佳方式。
實驗結果顯示,對各注意力頭的輸出進行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數的情況下,可實現0.2以上的困惑度下降、MMLU基準評測2個點的提升。研究還發現,該技術還能在更大規模的模型訓練上實現更好的性能。

使用論文方法,在引入額外1%參數的情況下,可以實現0.2以上的困惑度下降、MMLU基準評測2個點的提升
目前,該研究成果已應用于Qwen3-Next模型,并顯著提升模型的性能與魯棒性,相關技術方案、實驗模型及產品級模型均已開源。NeurIPS評審委員會指出:“這項工作將被廣泛應用,并極大推動AI研究人員對大語言模型中注意力機制的理解。”
通義千問團隊表示:“對門控注意力機制的深入理解,不僅為大語言模型架構設計提供了新思路,也為構建更穩定、更高效、更可控的大模型奠定了基礎。”據悉,目前阿里千問已開源300多款模型,涵蓋全模態、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。