CVPR 2026：深度學習的「標準件」，正在被逐個拆掉

本文作者：陳淑瑜

2026-05-29 17:39

專題：CVPR 計算機視覺與模式識別會議

導語：注意力的浮點精度不是必須的，歸一化流的"精確可逆"是可以放棄的……

注意力的浮點精度不是必須的，歸一化流的"精確可逆"是可以放棄的……

作者丨馬曉寧

編輯丨岑峰

這里有一幢大樓，叫做深度學習。

過去幾年，人們不停地給它加蓋、擴建，越蓋越高，越蓋越復雜。這幢大樓叫 Transformer。蓋樓時用了一大批標準件，浮點精度是它的鋼筋，層歸一化和殘差連接是它的混凝土，因果掩碼是它的承重隔斷。旁邊還有兩棟附樓：一棟是擴散模型；另一棟歸一化流。在漫長的施工期里，人們不斷加裝更粗的鋼筋、更復雜的控制系統，以為這樣做就能讓這幾棟樓更穩固高大美觀。但是這樣真的是對的嗎？

可現在，這些施工的收益越來越小，而有人在附樓里試出了更好的新零件，量化、去噪、可逆約束都有了更輕便的替代品。于是，一批施工隊同時進場，對準這些標準件開刀。他們不是來修修補補的，而是問一個更根本的問題：這根柱子、這面墻、這套管道，到底是真承重，還是只因為一直在那兒所以沒人動？

更有意思的是，五支施工隊去了不同的樓層。有的在樓體外墻動手，拆掉了那些只用來裝飾的預制板——那是推理端的精度和定制策略。有的鉆進設備層，重新鋪設了管線——那是訓練目標的參數化方式。還有的直接下到地下室，對著地基里的鋼筋動起了大錘——那是歸一化層和可逆性約束。把它們放在一起看，你會發現一條清晰的遞進線：深度學習的"標準件"正在從外圍到核心，被逐個拆掉。

從推理端開刀：精度和定制策略，不是必須的

最先被質疑的標準件，是那些看起來最"技術性"的，比如說，浮點精度的矩陣乘法，和針對不同架構手工調參的量化策略。這些因為不涉及“模型為什么能work”的核心設計哲學，看起來只是優化效率、節省算力，所以最容易被人當成“普通的工程優化”。

但 CVPR 2026 的這兩篇論文告訴我們，遠不止"模型可以更省"這么簡單。

▎BinaryAttention：1-bit 注意力，比全精度還能打

Transformer 的注意力模塊一直是算力黑洞。Query 和 Key 做矩陣乘法，計算量隨序列長度平方增長，在高分辨率視覺任務和多步擴散生成里尤其要命。普通工程優化的邏輯：第一步是 FlashAttention，用 IO 優化把訪存瓶頸拆掉；第二步是量化，把 FP32 壓成 INT8、INT4，低比特框架內，精度降了，但總算還能用。

再往下壓，就要把 Q 和 K 壓成只有正負兩種狀態的 1-bit。這條路幾乎沒人敢走。直覺上太反常識了：一個連續實數變成一個正負號，信息損失那么大，注意力還能算對嗎？

BinaryAttention 給出的答案是：不僅算得對，還能算得更快。

這篇來自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的論文，首先從理論上論證了一個關鍵命題——注意力機制的核心邏輯是計算 Q 和 K 之間的相似度關系，而這個相似度關系在二值化之后依然能被有效保留。

換句話說，"這兩個位置相關不相關"這件事，不需要精確到小數點后幾位，一個正負號就能捕捉到最核心的信息。基于這個理論支撐，BinaryAttention 只保留 Q 和 K 的符號，將傳統浮點矩陣乘法替換為 XNOR 加 popcount 的位運算，從根本上改變了注意力的計算方式。

當然，1-bit 量化帶來的信息損失是客觀存在的。為了彌補這一點，論文引入了可學習的偏置項進行補償，同時采用量化感知訓練讓模型學會"用 1-bit 思考"，并用自蒸餾技術以全精度模型為教師，確保量化后的符號相似性與全精度保持一致。

整個設計支持端到端的前向傳播加速，不需要額外的推理步驟。實驗結果令人意外：在 A100 GPU 上，BinaryAttention 比 FlashAttention2 快 2 倍以上，而在視覺和擴散 Transformer 的廣泛基準測試中，1-bit 注意力不僅能維持精度，在部分任務上甚至超過了全精度版本。

這篇論文打破了"低比特必然犧牲精度"的行業常識，把“量化”從一個工程壓縮問題，提升到了“重新發現計算本質”的理論層面。

arXiv 論文頁面：https://arxiv.org/abs/2603.09582
項目代碼倉庫：EdwardChasel/BinaryAttention

▎SegQuant：量化不需要給每個模型單獨開藥方

另一篇論文中，SegQuant 挑戰了另一個標準件：量化策略必須針對每個架構手工定制。

在深度學習領域，如果你要對一個模型做量化（比如把32位浮點數壓縮成8位或4位整數），那么你幾乎必須針對這個模型的具體架構，手工去調整量化參數（比如每一層的縮放因子、零點位置、位寬分配等）。不同架構差異越大，手工調參的工作量就越重。

而擴散模型這個領域，SDXL、DiT、PixArt等模型架構變得非常多樣且差異巨大，讓這個問題雪上加霜。給一個模型調參之后，換個模型就得重新來一遍。更麻煩的是，這些方法通常依賴大量人工設定的啟發式規則，和主流工業部署工具也不兼容，想真正把量化塞進生產線，門檻極高。

浙大 OptiSys 團隊提出的 SegQuant，核心思路是讓量化策略從模型的計算圖里自動"讀"出來，而不是靠人工拍腦袋。SegQuant 由兩個組件構成：SegLinear 和 DualScale。

SegLinear 是一種基于段的圖量化策略，它分析模型的靜態計算圖，自動捕獲線性層的語義結構，識別出哪些層功能類似、哪些層在空間分布上差異顯著，然后據此為不同層分配不同的量化配置。整個過程不需要手寫規則，完全由圖拓撲驅動。

DualScale 則專門對付擴散模型量化里一個老大難問題：激活分布的極性不對稱。擴散模型中很多層的激活值正負兩側形狀差異極大，如果用同一套量化尺度去量，必然會有一側被嚴重失真。DualScale 用雙尺度分別校準正負兩側，專門保住視覺輸出的保真度。

SegLinear 證明了量化配置可以從計算圖自動讀取，無需人工經驗。DualScale揭示了傳統量化失效的根本原因是忽略了正負分布的獨立性，并提出了一個更合理的基本形式。

SegQuant 的意義是第一次有人把擴散模型量化做成了一個真正跨架構通用的框架，同一套方法適配 UNet 系和 DiT 系，無需為每個模型單獨調參。同時，論文從一開始就按工業部署的標準設計，與主流部署工具無縫兼容。這意味著 SegQuant 不是一篇只活在論文里的方法，而是可以直接推進到生產線上的工具。

arXiv 論文頁面：https://arxiv.org/abs/2507.14811
項目代碼倉庫：https://github.com/OptiSys-ZJU/segquant

訓練目標翻案：擴散模型，你根本沒在"去噪"

推理端的標準件被拆掉之后，接下來被質疑的，不再是怎么跑模型，而是模型的目標本身到底對不對。而這一刀，切到了擴散模型最根本的訓練范式上。

▎JiT：預測噪聲還是預測干凈圖像？這個問題比你想的更重要

擴散模型的名字里有"去噪"兩個字，但早期研究普遍選擇讓模型預測噪聲，而不是干凈圖像。在技術上，這兩種參數化是等價的，可以相互轉換，所以一直沒人深究：選哪個真的完全一樣嗎？

Kaiming He 和 Tianhong Li 在這篇論文里指出：兩者在實際效果上并不等價，差異藏在流形幾何里。流形假設（Manifold Hypothesis）告訴我們，自然圖像分布在高維空間里的一個低維流形上。干凈圖像住在這個流形上，而加了噪聲的中間狀態則偏離了流形，是"飄出去"的。

這意味著，當模型的訓練目標是預測帶噪量時，它要在一個彌散的高維空間里工作，網絡容量不夠就會災難性失敗；而如果目標是預測干凈圖像，目標始終在流形上，即便網絡容量有限也能有效建模。這不是工程細節的差異，而是數學本質的差異，因為預測噪聲是在流形之外尋找一個彌散的目標，預測干凈圖像是在流形之上尋找一個結構化的目標。

基于這個洞察，研究者提出了 JiT（Just image Transformers）：直接用大 patch 的 Transformer 處理原始像素，訓練目標就是預測干凈圖像，損失函數只有簡單的 MSE。沒有 VAE 或 Tokenizer 做潛空間壓縮，沒有預訓練權重，沒有額外的正則化損失。這是一種極簡化的設計方式。

在 ImageNet 256 和 512 分辨率上，JiT 都取得了有競爭力的結果，尤其是 32×32 的大 patch 在 512 分辨率下依然表現良好，這打破了"高分辨率必須先壓縮到潛空間"的通行做法。

JiT 的意義遠不止一組實驗數據。它真正動搖的是整個擴散模型的訓練范式：過去幾年，從 LDM 到 DiT 到 SDXL，所有人都在沿著"先壓縮、再預測噪聲"的路線走，沒人意識到它可能是一個次優解。而 JiT 告訴我們，這條路線的自然性是虛假的，雖然它是在數學上等價的，但在幾何上卻不是最優的。

更值得注意的是，JiT 的極簡設計本身就是一種論證：當去掉 Tokenizer、去掉預訓練、去掉復雜損失，模型依然能工作得很好，就引發了越來越多的質疑：那些被加進來的組件，有多少是真正必要的，又有多少只是在為一個次優的訓練目標做補償？

如果說 BinaryAttention 和 SegQuant 是在推理端拆掉標準件，那 JiT 就是在訓練目標上翻案——它質疑的不是"怎么做"，而是"為什么這么做"。這個層次的質疑，影響要比推理優化深遠得多。而當這種質疑繼續往深處推進，就會觸及模型架構最底層的那些"默認設置"。

arXiv 論文頁面：https://arxiv.org/abs/2511.13720
項目代碼倉庫：https://github.com/LTH14/JiT

架構層的地基松動：歸一化層和可逆約束，都可以不要

前面三篇論文說的是推理端和訓練目標的標準件，接下來要介紹的兩篇論文，則是在探討歸一化層和可逆性約束的標準件。歸一化層在Transformer里已存在近十年，被視為“必需品”；可逆性約束是歸一化流這個方向自始至終的核心約束。拆除歸一化層和可逆性約束，相當于修改模型最底層的核心組件。

▎BiFlow：精確可逆這個數學潔癖，可以扔了

歸一化流（Normalizing Flow）生成模型中對數學性質要求最嚴格的一類。

它通過可逆變換在數據分布和先驗分布之間建立雙向映射，支持精確的對數似然估計，理論上非常漂亮。但這種優雅是有代價的：嚴格的可逆性約束把網絡架構的設計空間框死了，能用的變換類型極其有限。

近年來 TARFlow 把 Transformer 和自回歸流結合，性能大幅提升，但自回歸的因果解碼天生是串行的，就造成了生成一張圖的情況下，token 一個一個出的局面。速度成了自回歸繞不開的硬傷。

來自 Yiyang Lu、Qiao Sun 等人與 Kaiming He 合作的 BiFlow，提出了一個思路：逆函數不一定需要是精確的解析解。傳統歸一化流要求前向變換嚴格可逆，反向過程直接采用解析方法求逆。這一要求由“可逆性”這一名稱所定義，看起來是合理的。然而 BiFlow 指出，這一要求帶來的實際代價超過了其理論收益：它限制了架構選擇，強制了因果解碼的串行推理，并使采樣速度成為性能的主要制約因素。

該團隊的做法是同時學習兩個方向：前向模型將數據映射到噪聲，反向模型獨立學習一個近似逆映射。反向模型不再是前向變換的解析逆，而是一個自由參數化的神經網絡——這意味著它可以使用雙向注意力而非因果注意力，實現完全并行的解碼。兩個方向獨立訓練，反向模型不受可逆性約束，架構選擇完全自由。

BiFlow在 ImageNet 上的實驗結果是：生成質量顯著提升，采樣速度比因果解碼方法快了兩個數量級，在歸一化流類方法中達到最優，與單次前向評估的方法相比也具有競爭力。

這項研究重新定義了生成模型中“可逆”的含義：精確可逆是強約束，近似可逆是工程可行的折衷。放棄精確可逆，可提升架構靈活性和計算效率。這與 JiT 的邏輯一致。JiT 表明預測噪聲和預測干凈圖像數學等價但幾何不等價；BiFlow 表明精確可逆與近似可逆數學不等價但效果接近。兩者都以實際有效性而非理論優雅作為評價標準。

arXiv 論文頁面：https://arxiv.org/abs/2512.10953
項目代碼倉庫：https://github.com/Lyy-iiis/BiFlow

▎Derf：歸一化層不僅能替代，還能被打敗

BiFlow 嘗試去除可逆性約束，而 Derf 則嘗試去除 Transformer 中最為基礎的歸一化層。LayerNorm 與 RMSNorm 在 Transformer 中被普遍視為必要組件，研究者主要關注參數調節而非是否使用。DyT（Dynamic Tanh）出現，證明可以用一個簡單的逐點非線性函數替代歸一化層，訓練同樣穩定，性能持平，但 DyT 僅持平而未超越。

Mingzhi Chen、Taiming Lu 等人的這篇論文，問的是更進一步的問題：既然可以用逐點函數替代歸一化層，那最優的逐點函數是什么？作者首先從理論上研究了逐點函數的內在特性如何影響訓練動態和最終性能，然后基于理論發現開展了大規模的函數形式搜索。最終找到的答案是 Derf——一個基于誤差函數的極簡設計：Derf(x) = erf(αx + s)，其中 erf 是高斯累積分布函數，α 和 s 是可學習參數。這個設計形式極其簡潔，但效果驚人：在視覺識別、視覺生成、語音表示學習、DNA 序列建模等多個領域，Derf 全面優于 LayerNorm、RMSNorm 和 DyT。

更值得注意的是論文對 Derf 性能來源的分析。通常人們會認為，一個更好的替代方案一定是因為擬合能力更強。但作者通過深入實驗發現，Derf 的優勢主要來自泛化能力的提升，而非擬合能力的增強。這個發現可能帶來一種暗示，即歸一化層之所以長期以來"不可替代"，可能并不是因為它提供了某種不可取代的計算功能，而是因為它恰好提供了一種泛化性尚可的穩定化手段。而當 Derf 用一種更簡潔的方式提供了更好的泛化性時，歸一化層的"不可替代性"就站不住腳了。

Derf 的意義不只是一次函數替換。它真正觸及的問題是：歸一化層在 Transformer 里到底在干什么？多年來，人們用"穩定訓練"來解釋它的存在，但"穩定訓練"這個說法本身就含糊。Derf 可能給出了這樣的方向，至少在泛化性這個維度上，歸一化層并不是最優答案。一個形式更簡潔、參數更少的逐點函數，可以做得更好。

arXiv 論文頁面：https://arxiv.org/abs/2512.10938
項目代碼倉庫：https://github.com/zlab-pku/Derf

結語

把五篇論文放在一起看，最值得關注的不是它們分別把某個指標提高了多少，而是它們幾乎不約而同地指向同一件事：深度學習中那些被當作"標準件"裝配進去的設計，遠沒有我們以為的那么不可動搖。

BinaryAttention 證明了注意力的浮點精度不是必須的，1-bit 符號就夠了；SegQuant 證明了量化策略不需要給每個架構單獨開藥方，計算圖自己就能推斷；JiT 證明了擴散模型"預測噪聲"的訓練目標不是最優的，直接預測干凈圖像在幾何上更合理；BiFlow 證明了歸一化流的"精確可逆"是一種可以放手的奢侈品；Derf 證明了歸一化層不僅能被替代，還能被打敗。

而且它們不是在同一層拆。從推理端的精度和定制化，到訓練目標的參數化方式，再到架構層最底層的歸一化層和可逆約束，全部有所涉及。過去幾年的深度學習都是在追求規模化，要有更大的模型、更多的數據、更精細的調參，那么 CVPR 2026 的這一批工作，則是在探討一些根源問題：哪些墻是承重墻，哪些只是隔斷？哪些是必須的，哪些只是"一直都在所以以為必須"？

答案正在變得越來越清晰：那些我們以為的承重墻，有不少只是隔斷。而拆掉它們之后，房子不但沒有塌，反而透進了更多的光。雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章