0
| 本文作者: 二維馬曉寧 | 2026-06-04 18:06 | 專(zhuān)題:CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議 |

作者丨馬曉寧
編輯丨岑 峰
這里有一幢大樓,叫做深度學(xué)習(xí)。
過(guò)去幾年,人們不停地給它加蓋、擴(kuò)建,越蓋越高,越蓋越復(fù)雜。這幢大樓叫 Transformer。蓋樓時(shí)用了一大批標(biāo)準(zhǔn)件,浮點(diǎn)精度是它的鋼筋,層歸一化和殘差連接是它的混凝土,因果掩碼是它的承重隔斷。旁邊還有兩棟附樓:一棟是擴(kuò)散模型;另一棟歸一化流。在漫長(zhǎng)的施工期里,人們不斷加裝更粗的鋼筋、更復(fù)雜的控制系統(tǒng),以為這樣做就能讓這幾棟樓更穩(wěn)固高大美觀。但是這樣真的是對(duì)的嗎?
可現(xiàn)在,這些施工的收益越來(lái)越小,而有人在附樓里試出了更好的新零件,量化、去噪、可逆約束都有了更輕便的替代品。于是,一批施工隊(duì)同時(shí)進(jìn)場(chǎng),對(duì)準(zhǔn)這些標(biāo)準(zhǔn)件開(kāi)刀。他們不是來(lái)修修補(bǔ)補(bǔ)的,而是問(wèn)一個(gè)更根本的問(wèn)題:這根柱子、這面墻、這套管道,到底是真承重,還是只因?yàn)橐恢痹谀莾核詻](méi)人動(dòng)?
更有意思的是,五支施工隊(duì)去了不同的樓層。有的在樓體外墻動(dòng)手,拆掉了那些只用來(lái)裝飾的預(yù)制板——那是推理端的精度和定制策略。有的鉆進(jìn)設(shè)備層,重新鋪設(shè)了管線(xiàn)——那是訓(xùn)練目標(biāo)的參數(shù)化方式。還有的直接下到地下室,對(duì)著地基里的鋼筋動(dòng)起了大錘——那是歸一化層和可逆性約束。把它們放在一起看,你會(huì)發(fā)現(xiàn)一條清晰的遞進(jìn)線(xiàn):深度學(xué)習(xí)的"標(biāo)準(zhǔn)件"正在從外圍到核心,被逐個(gè)拆掉。

01
最先被質(zhì)疑的標(biāo)準(zhǔn)件,是那些看起來(lái)最"技術(shù)性"的,比如說(shuō),浮點(diǎn)精度的矩陣乘法,和針對(duì)不同架構(gòu)手工調(diào)參的量化策略。這些因?yàn)椴簧婕啊澳P蜑槭裁茨躻ork”的核心設(shè)計(jì)哲學(xué),看起來(lái)只是優(yōu)化效率、節(jié)省算力,所以最容易被人當(dāng)成“普通的工程優(yōu)化”。
但 CVPR 2026 的這兩篇論文告訴我們,遠(yuǎn)不止"模型可以更省"這么簡(jiǎn)單。
▎BinaryAttention:1-bit 注意力,比全精度還能打
Transformer 的注意力模塊一直是算力黑洞。Query 和 Key 做矩陣乘法,計(jì)算量隨序列長(zhǎng)度平方增長(zhǎng),在高分辨率視覺(jué)任務(wù)和多步擴(kuò)散生成里尤其要命。普通工程優(yōu)化的邏輯:第一步是 FlashAttention,用 IO 優(yōu)化把訪(fǎng)存瓶頸拆掉;第二步是量化,把 FP32 壓成 INT8、INT4,低比特框架內(nèi),精度降了,但總算還能用。
再往下壓,就要把 Q 和 K 壓成只有正負(fù)兩種狀態(tài)的 1-bit。這條路幾乎沒(méi)人敢走。直覺(jué)上太反常識(shí)了:一個(gè)連續(xù)實(shí)數(shù)變成一個(gè)正負(fù)號(hào),信息損失那么大,注意力還能算對(duì)嗎?
BinaryAttention 給出的答案是:不僅算得對(duì),還能算得更快。
這篇來(lái)自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的論文,首先從理論上論證了一個(gè)關(guān)鍵命題——注意力機(jī)制的核心邏輯是計(jì)算 Q 和 K 之間的相似度關(guān)系,而這個(gè)相似度關(guān)系在二值化之后依然能被有效保留。

換句話(huà)說(shuō),"這兩個(gè)位置相關(guān)不相關(guān)"這件事,不需要精確到小數(shù)點(diǎn)后幾位,一個(gè)正負(fù)號(hào)就能捕捉到最核心的信息。基于這個(gè)理論支撐,BinaryAttention 只保留 Q 和 K 的符號(hào),將傳統(tǒng)浮點(diǎn)矩陣乘法替換為 XNOR 加 popcount 的位運(yùn)算,從根本上改變了注意力的計(jì)算方式。
當(dāng)然,1-bit 量化帶來(lái)的信息損失是客觀存在的。為了彌補(bǔ)這一點(diǎn),論文引入了可學(xué)習(xí)的偏置項(xiàng)進(jìn)行補(bǔ)償,同時(shí)采用量化感知訓(xùn)練讓模型學(xué)會(huì)"用 1-bit 思考",并用自蒸餾技術(shù)以全精度模型為教師,確保量化后的符號(hào)相似性與全精度保持一致。
整個(gè)設(shè)計(jì)支持端到端的前向傳播加速,不需要額外的推理步驟。實(shí)驗(yàn)結(jié)果令人意外:在 A100 GPU 上,BinaryAttention 比 FlashAttention2 快 2 倍以上,而在視覺(jué)和擴(kuò)散 Transformer 的廣泛基準(zhǔn)測(cè)試中,1-bit 注意力不僅能維持精度,在部分任務(wù)上甚至超過(guò)了全精度版本。
這篇論文打破了"低比特必然犧牲精度"的行業(yè)常識(shí),把“量化”從一個(gè)工程壓縮問(wèn)題,提升到了“重新發(fā)現(xiàn)計(jì)算本質(zhì)”的理論層面。
arXiv 論文頁(yè)面:https://arxiv.org/abs/2603.09582
項(xiàng)目代碼倉(cāng)庫(kù):EdwardChasel/BinaryAttention
▎SegQuant:量化不需要給每個(gè)模型單獨(dú)開(kāi)藥方
另一篇論文中,SegQuant 挑戰(zhàn)了另一個(gè)標(biāo)準(zhǔn)件:量化策略必須針對(duì)每個(gè)架構(gòu)手工定制。
在深度學(xué)習(xí)領(lǐng)域,如果你要對(duì)一個(gè)模型做量化(比如把32位浮點(diǎn)數(shù)壓縮成8位或4位整數(shù)),那么你幾乎必須針對(duì)這個(gè)模型的具體架構(gòu),手工去調(diào)整量化參數(shù)(比如每一層的縮放因子、零點(diǎn)位置、位寬分配等)。不同架構(gòu)差異越大,手工調(diào)參的工作量就越重。
而擴(kuò)散模型這個(gè)領(lǐng)域,SDXL、DiT、PixArt等模型架構(gòu)變得非常多樣且差異巨大,讓這個(gè)問(wèn)題雪上加霜。給一個(gè)模型調(diào)參之后,換個(gè)模型就得重新來(lái)一遍。更麻煩的是,這些方法通常依賴(lài)大量人工設(shè)定的啟發(fā)式規(guī)則,和主流工業(yè)部署工具也不兼容,想真正把量化塞進(jìn)生產(chǎn)線(xiàn),門(mén)檻極高。
浙大 OptiSys 團(tuán)隊(duì)提出的 SegQuant,核心思路是讓量化策略從模型的計(jì)算圖里自動(dòng)"讀"出來(lái),而不是靠人工拍腦袋。SegQuant 由兩個(gè)組件構(gòu)成:SegLinear 和 DualScale。

SegLinear 是一種基于段的圖量化策略,它分析模型的靜態(tài)計(jì)算圖,自動(dòng)捕獲線(xiàn)性層的語(yǔ)義結(jié)構(gòu),識(shí)別出哪些層功能類(lèi)似、哪些層在空間分布上差異顯著,然后據(jù)此為不同層分配不同的量化配置。整個(gè)過(guò)程不需要手寫(xiě)規(guī)則,完全由圖拓?fù)潋?qū)動(dòng)。
DualScale 則專(zhuān)門(mén)對(duì)付擴(kuò)散模型量化里一個(gè)老大難問(wèn)題:激活分布的極性不對(duì)稱(chēng)。擴(kuò)散模型中很多層的激活值正負(fù)兩側(cè)形狀差異極大,如果用同一套量化尺度去量,必然會(huì)有一側(cè)被嚴(yán)重失真。DualScale 用雙尺度分別校準(zhǔn)正負(fù)兩側(cè),專(zhuān)門(mén)保住視覺(jué)輸出的保真度。
SegLinear 證明了量化配置可以從計(jì)算圖自動(dòng)讀取,無(wú)需人工經(jīng)驗(yàn)。DualScale揭示了傳統(tǒng)量化失效的根本原因是忽略了正負(fù)分布的獨(dú)立性,并提出了一個(gè)更合理的基本形式。
SegQuant 的意義是第一次有人把擴(kuò)散模型量化做成了一個(gè)真正跨架構(gòu)通用的框架,同一套方法適配 UNet 系和 DiT 系,無(wú)需為每個(gè)模型單獨(dú)調(diào)參。同時(shí),論文從一開(kāi)始就按工業(yè)部署的標(biāo)準(zhǔn)設(shè)計(jì),與主流部署工具無(wú)縫兼容。這意味著 SegQuant 不是一篇只活在論文里的方法,而是可以直接推進(jìn)到生產(chǎn)線(xiàn)上的工具。
arXiv 論文頁(yè)面:https://arxiv.org/abs/2507.14811
項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/OptiSys-ZJU/segquant

02
推理端的標(biāo)準(zhǔn)件被拆掉之后,接下來(lái)被質(zhì)疑的,不再是怎么跑模型,而是模型的目標(biāo)本身到底對(duì)不對(duì)。而這一刀,切到了擴(kuò)散模型最根本的訓(xùn)練范式上。
▎JiT:預(yù)測(cè)噪聲還是預(yù)測(cè)干凈圖像?這個(gè)問(wèn)題比你想的更重要
擴(kuò)散模型的名字里有"去噪"兩個(gè)字,但早期研究普遍選擇讓模型預(yù)測(cè)噪聲,而不是干凈圖像。在技術(shù)上,這兩種參數(shù)化是等價(jià)的,可以相互轉(zhuǎn)換,所以一直沒(méi)人深究:選哪個(gè)真的完全一樣嗎?
Kaiming He 和 Tianhong Li 在這篇論文里指出:兩者在實(shí)際效果上并不等價(jià),差異藏在流形幾何里。流形假設(shè)(Manifold Hypothesis)告訴我們,自然圖像分布在高維空間里的一個(gè)低維流形上。干凈圖像住在這個(gè)流形上,而加了噪聲的中間狀態(tài)則偏離了流形,是"飄出去"的。

這意味著,當(dāng)模型的訓(xùn)練目標(biāo)是預(yù)測(cè)帶噪量時(shí),它要在一個(gè)彌散的高維空間里工作,網(wǎng)絡(luò)容量不夠就會(huì)災(zāi)難性失敗;而如果目標(biāo)是預(yù)測(cè)干凈圖像,目標(biāo)始終在流形上,即便網(wǎng)絡(luò)容量有限也能有效建模。這不是工程細(xì)節(jié)的差異,而是數(shù)學(xué)本質(zhì)的差異,因?yàn)轭A(yù)測(cè)噪聲是在流形之外尋找一個(gè)彌散的目標(biāo),預(yù)測(cè)干凈圖像是在流形之上尋找一個(gè)結(jié)構(gòu)化的目標(biāo)。
基于這個(gè)洞察,研究者提出了 JiT(Just image Transformers):直接用大 patch 的 Transformer 處理原始像素,訓(xùn)練目標(biāo)就是預(yù)測(cè)干凈圖像,損失函數(shù)只有簡(jiǎn)單的 MSE。沒(méi)有 VAE 或 Tokenizer 做潛空間壓縮,沒(méi)有預(yù)訓(xùn)練權(quán)重,沒(méi)有額外的正則化損失。這是一種極簡(jiǎn)化的設(shè)計(jì)方式。
在 ImageNet 256 和 512 分辨率上,JiT 都取得了有競(jìng)爭(zhēng)力的結(jié)果,尤其是 32×32 的大 patch 在 512 分辨率下依然表現(xiàn)良好,這打破了"高分辨率必須先壓縮到潛空間"的通行做法。
JiT 的意義遠(yuǎn)不止一組實(shí)驗(yàn)數(shù)據(jù)。它真正動(dòng)搖的是整個(gè)擴(kuò)散模型的訓(xùn)練范式:過(guò)去幾年,從 LDM 到 DiT 到 SDXL,所有人都在沿著"先壓縮、再預(yù)測(cè)噪聲"的路線(xiàn)走,沒(méi)人意識(shí)到它可能是一個(gè)次優(yōu)解。而 JiT 告訴我們,這條路線(xiàn)的自然性是虛假的,雖然它是在數(shù)學(xué)上等價(jià)的,但在幾何上卻不是最優(yōu)的。
更值得注意的是,JiT 的極簡(jiǎn)設(shè)計(jì)本身就是一種論證:當(dāng)去掉 Tokenizer、去掉預(yù)訓(xùn)練、去掉復(fù)雜損失,模型依然能工作得很好,就引發(fā)了越來(lái)越多的質(zhì)疑:那些被加進(jìn)來(lái)的組件,有多少是真正必要的,又有多少只是在為一個(gè)次優(yōu)的訓(xùn)練目標(biāo)做補(bǔ)償?
如果說(shuō) BinaryAttention 和 SegQuant 是在推理端拆掉標(biāo)準(zhǔn)件,那 JiT 就是在訓(xùn)練目標(biāo)上翻案——它質(zhì)疑的不是"怎么做",而是"為什么這么做"。這個(gè)層次的質(zhì)疑,影響要比推理優(yōu)化深遠(yuǎn)得多。而當(dāng)這種質(zhì)疑繼續(xù)往深處推進(jìn),就會(huì)觸及模型架構(gòu)最底層的那些"默認(rèn)設(shè)置"。
arXiv 論文頁(yè)面:https://arxiv.org/abs/2511.13720
項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/LTH14/JiT

03
前面三篇論文說(shuō)的是推理端和訓(xùn)練目標(biāo)的標(biāo)準(zhǔn)件,接下來(lái)要介紹的兩篇論文,則是在探討歸一化層和可逆性約束的標(biāo)準(zhǔn)件。歸一化層在Transformer里已存在近十年,被視為“必需品”;可逆性約束是歸一化流這個(gè)方向自始至終的核心約束。拆除歸一化層和可逆性約束,相當(dāng)于修改模型最底層的核心組件。
▎BiFlow:精確可逆這個(gè)數(shù)學(xué)潔癖,可以扔了
歸一化流(Normalizing Flow)生成模型中對(duì)數(shù)學(xué)性質(zhì)要求最嚴(yán)格的一類(lèi)。
它通過(guò)可逆變換在數(shù)據(jù)分布和先驗(yàn)分布之間建立雙向映射,支持精確的對(duì)數(shù)似然估計(jì),理論上非常漂亮。但這種優(yōu)雅是有代價(jià)的:嚴(yán)格的可逆性約束把網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)空間框死了,能用的變換類(lèi)型極其有限。
近年來(lái) TARFlow 把 Transformer 和自回歸流結(jié)合,性能大幅提升,但自回歸的因果解碼天生是串行的,就造成了生成一張圖的情況下,token 一個(gè)一個(gè)出的局面。速度成了自回歸繞不開(kāi)的硬傷。
來(lái)自 Yiyang Lu、Qiao Sun 等人與 Kaiming He 合作的 BiFlow,提出了一個(gè)思路:逆函數(shù)不一定需要是精確的解析解。傳統(tǒng)歸一化流要求前向變換嚴(yán)格可逆,反向過(guò)程直接采用解析方法求逆。這一要求由“可逆性”這一名稱(chēng)所定義,看起來(lái)是合理的。然而 BiFlow 指出,這一要求帶來(lái)的實(shí)際代價(jià)超過(guò)了其理論收益:它限制了架構(gòu)選擇,強(qiáng)制了因果解碼的串行推理,并使采樣速度成為性能的主要制約因素。


該團(tuán)隊(duì)的做法是同時(shí)學(xué)習(xí)兩個(gè)方向:前向模型將數(shù)據(jù)映射到噪聲,反向模型獨(dú)立學(xué)習(xí)一個(gè)近似逆映射。反向模型不再是前向變換的解析逆,而是一個(gè)自由參數(shù)化的神經(jīng)網(wǎng)絡(luò)——這意味著它可以使用雙向注意力而非因果注意力,實(shí)現(xiàn)完全并行的解碼。兩個(gè)方向獨(dú)立訓(xùn)練,反向模型不受可逆性約束,架構(gòu)選擇完全自由。
BiFlow在 ImageNet 上的實(shí)驗(yàn)結(jié)果是:生成質(zhì)量顯著提升,采樣速度比因果解碼方法快了兩個(gè)數(shù)量級(jí),在歸一化流類(lèi)方法中達(dá)到最優(yōu),與單次前向評(píng)估的方法相比也具有競(jìng)爭(zhēng)力。
這項(xiàng)研究重新定義了生成模型中“可逆”的含義:精確可逆是強(qiáng)約束,近似可逆是工程可行的折衷。放棄精確可逆,可提升架構(gòu)靈活性和計(jì)算效率。這與 JiT 的邏輯一致。JiT 表明預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖像數(shù)學(xué)等價(jià)但幾何不等價(jià);BiFlow 表明精確可逆與近似可逆數(shù)學(xué)不等價(jià)但效果接近。兩者都以實(shí)際有效性而非理論優(yōu)雅作為評(píng)價(jià)標(biāo)準(zhǔn)。
arXiv 論文頁(yè)面:https://arxiv.org/abs/2512.10953
項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/Lyy-iiis/BiFlow
▎Derf:歸一化層不僅能替代,還能被打敗
BiFlow 嘗試去除可逆性約束,而 Derf 則嘗試去除 Transformer 中最為基礎(chǔ)的歸一化層。LayerNorm 與 RMSNorm 在 Transformer 中被普遍視為必要組件,研究者主要關(guān)注參數(shù)調(diào)節(jié)而非是否使用。DyT(Dynamic Tanh)出現(xiàn),證明可以用一個(gè)簡(jiǎn)單的逐點(diǎn)非線(xiàn)性函數(shù)替代歸一化層,訓(xùn)練同樣穩(wěn)定,性能持平,但 DyT 僅持平而未超越。
Mingzhi Chen、Taiming Lu 等人的這篇論文,問(wèn)的是更進(jìn)一步的問(wèn)題:既然可以用逐點(diǎn)函數(shù)替代歸一化層,那最優(yōu)的逐點(diǎn)函數(shù)是什么?作者首先從理論上研究了逐點(diǎn)函數(shù)的內(nèi)在特性如何影響訓(xùn)練動(dòng)態(tài)和最終性能,然后基于理論發(fā)現(xiàn)開(kāi)展了大規(guī)模的函數(shù)形式搜索。最終找到的答案是 Derf——一個(gè)基于誤差函數(shù)的極簡(jiǎn)設(shè)計(jì):Derf(x) = erf(αx + s),其中 erf 是高斯累積分布函數(shù),α 和 s 是可學(xué)習(xí)參數(shù)。這個(gè)設(shè)計(jì)形式極其簡(jiǎn)潔,但效果驚人:在視覺(jué)識(shí)別、視覺(jué)生成、語(yǔ)音表示學(xué)習(xí)、DNA 序列建模等多個(gè)領(lǐng)域,Derf 全面優(yōu)于 LayerNorm、RMSNorm 和 DyT。

更值得注意的是論文對(duì) Derf 性能來(lái)源的分析。通常人們會(huì)認(rèn)為,一個(gè)更好的替代方案一定是因?yàn)閿M合能力更強(qiáng)。但作者通過(guò)深入實(shí)驗(yàn)發(fā)現(xiàn),Derf 的優(yōu)勢(shì)主要來(lái)自泛化能力的提升,而非擬合能力的增強(qiáng)。這個(gè)發(fā)現(xiàn)可能帶來(lái)一種暗示,即歸一化層之所以長(zhǎng)期以來(lái)"不可替代",可能并不是因?yàn)樗峁┝四撤N不可取代的計(jì)算功能,而是因?yàn)樗『锰峁┝艘环N泛化性尚可的穩(wěn)定化手段。而當(dāng) Derf 用一種更簡(jiǎn)潔的方式提供了更好的泛化性時(shí),歸一化層的"不可替代性"就站不住腳了。
Derf 的意義不只是一次函數(shù)替換。它真正觸及的問(wèn)題是:歸一化層在 Transformer 里到底在干什么?多年來(lái),人們用"穩(wěn)定訓(xùn)練"來(lái)解釋它的存在,但"穩(wěn)定訓(xùn)練"這個(gè)說(shuō)法本身就含糊。Derf 可能給出了這樣的方向,至少在泛化性這個(gè)維度上,歸一化層并不是最優(yōu)答案。一個(gè)形式更簡(jiǎn)潔、參數(shù)更少的逐點(diǎn)函數(shù),可以做得更好。
arXiv 論文頁(yè)面:https://arxiv.org/abs/2512.10938
項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/zlab-pku/Derf

04
BinaryAttention 證明了注意力的浮點(diǎn)精度不是必須的,1-bit 符號(hào)就夠了;SegQuant 證明了量化策略不需要給每個(gè)架構(gòu)單獨(dú)開(kāi)藥方,計(jì)算圖自己就能推斷;JiT 證明了擴(kuò)散模型"預(yù)測(cè)噪聲"的訓(xùn)練目標(biāo)不是最優(yōu)的,直接預(yù)測(cè)干凈圖像在幾何上更合理;BiFlow 證明了歸一化流的"精確可逆"是一種可以放手的奢侈品;Derf 證明了歸一化層不僅能被替代,還能被打敗。
而且它們不是在同一層拆。從推理端的精度和定制化,到訓(xùn)練目標(biāo)的參數(shù)化方式,再到架構(gòu)層最底層的歸一化層和可逆約束,全部有所涉及。過(guò)去幾年的深度學(xué)習(xí)都是在追求規(guī)模化,要有更大的模型、更多的數(shù)據(jù)、更精細(xì)的調(diào)參,那么 CVPR 2026 的這一批工作,則是在探討一些根源問(wèn)題:哪些墻是承重墻,哪些只是隔斷?哪些是必須的,哪些只是"一直都在所以以為必須"?
答案正在變得越來(lái)越清晰:那些我們以為的承重墻,有不少只是隔斷。而拆掉它們之后,房子不但沒(méi)有塌,反而透進(jìn)了更多的光。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章