• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    業(yè)界 正文
    發(fā)私信給二維馬曉寧
    發(fā)送

    0

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    導(dǎo)語(yǔ):注意力的浮點(diǎn)精度不是必須的,歸一化流的"精確可逆"是可以放棄的……
    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉
    注意力的浮點(diǎn)精度不是必須的,歸一化流的"精確可逆"是可以放棄的……

        作者丨馬曉寧

        編輯丨岑   峰

                                                                                                                   

    這里有一幢大樓,叫做深度學(xué)習(xí)。

    過(guò)去幾年,人們不停地給它加蓋、擴(kuò)建,越蓋越高,越蓋越復(fù)雜。這幢大樓叫 Transformer。蓋樓時(shí)用了一大批標(biāo)準(zhǔn)件,浮點(diǎn)精度是它的鋼筋,層歸一化和殘差連接是它的混凝土,因果掩碼是它的承重隔斷。旁邊還有兩棟附樓:一棟是擴(kuò)散模型;另一棟歸一化流。在漫長(zhǎng)的施工期里,人們不斷加裝更粗的鋼筋、更復(fù)雜的控制系統(tǒng),以為這樣做就能讓這幾棟樓更穩(wěn)固高大美觀。但是這樣真的是對(duì)的嗎?

    可現(xiàn)在,這些施工的收益越來(lái)越小,而有人在附樓里試出了更好的新零件,量化、去噪、可逆約束都有了更輕便的替代品。于是,一批施工隊(duì)同時(shí)進(jìn)場(chǎng),對(duì)準(zhǔn)這些標(biāo)準(zhǔn)件開(kāi)刀。他們不是來(lái)修修補(bǔ)補(bǔ)的,而是問(wèn)一個(gè)更根本的問(wèn)題:這根柱子、這面墻、這套管道,到底是真承重,還是只因?yàn)橐恢痹谀莾核詻](méi)人動(dòng)?

    更有意思的是,五支施工隊(duì)去了不同的樓層。有的在樓體外墻動(dòng)手,拆掉了那些只用來(lái)裝飾的預(yù)制板——那是推理端的精度和定制策略。有的鉆進(jìn)設(shè)備層,重新鋪設(shè)了管線(xiàn)——那是訓(xùn)練目標(biāo)的參數(shù)化方式。還有的直接下到地下室,對(duì)著地基里的鋼筋動(dòng)起了大錘——那是歸一化層和可逆性約束。把它們放在一起看,你會(huì)發(fā)現(xiàn)一條清晰的遞進(jìn)線(xiàn):深度學(xué)習(xí)的"標(biāo)準(zhǔn)件"正在從外圍到核心,被逐個(gè)拆掉。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    01


    從推理端開(kāi)刀:

    精度和定制策略,不是必須的

    最先被質(zhì)疑的標(biāo)準(zhǔn)件,是那些看起來(lái)最"技術(shù)性"的,比如說(shuō),浮點(diǎn)精度的矩陣乘法,和針對(duì)不同架構(gòu)手工調(diào)參的量化策略。這些因?yàn)椴簧婕啊澳P蜑槭裁茨躻ork”的核心設(shè)計(jì)哲學(xué),看起來(lái)只是優(yōu)化效率、節(jié)省算力,所以最容易被人當(dāng)成“普通的工程優(yōu)化”。

    但 CVPR 2026 的這兩篇論文告訴我們,遠(yuǎn)不止"模型可以更省"這么簡(jiǎn)單。

    BinaryAttention:1-bit 注意力,比全精度還能打

    Transformer 的注意力模塊一直是算力黑洞。Query 和 Key 做矩陣乘法,計(jì)算量隨序列長(zhǎng)度平方增長(zhǎng),在高分辨率視覺(jué)任務(wù)和多步擴(kuò)散生成里尤其要命。普通工程優(yōu)化的邏輯:第一步是 FlashAttention,用 IO 優(yōu)化把訪(fǎng)存瓶頸拆掉;第二步是量化,把 FP32 壓成 INT8、INT4,低比特框架內(nèi),精度降了,但總算還能用。

    再往下壓,就要把 Q 和 K 壓成只有正負(fù)兩種狀態(tài)的 1-bit。這條路幾乎沒(méi)人敢走。直覺(jué)上太反常識(shí)了:一個(gè)連續(xù)實(shí)數(shù)變成一個(gè)正負(fù)號(hào),信息損失那么大,注意力還能算對(duì)嗎?

    BinaryAttention 給出的答案是:不僅算得對(duì),還能算得更快。

    這篇來(lái)自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的論文,首先從理論上論證了一個(gè)關(guān)鍵命題——注意力機(jī)制的核心邏輯是計(jì)算 Q 和 K 之間的相似度關(guān)系,而這個(gè)相似度關(guān)系在二值化之后依然能被有效保留。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    換句話(huà)說(shuō),"這兩個(gè)位置相關(guān)不相關(guān)"這件事,不需要精確到小數(shù)點(diǎn)后幾位,一個(gè)正負(fù)號(hào)就能捕捉到最核心的信息。基于這個(gè)理論支撐,BinaryAttention 只保留 Q 和 K 的符號(hào),將傳統(tǒng)浮點(diǎn)矩陣乘法替換為 XNOR 加 popcount 的位運(yùn)算,從根本上改變了注意力的計(jì)算方式。

    當(dāng)然,1-bit 量化帶來(lái)的信息損失是客觀存在的。為了彌補(bǔ)這一點(diǎn),論文引入了可學(xué)習(xí)的偏置項(xiàng)進(jìn)行補(bǔ)償,同時(shí)采用量化感知訓(xùn)練讓模型學(xué)會(huì)"用 1-bit 思考",并用自蒸餾技術(shù)以全精度模型為教師,確保量化后的符號(hào)相似性與全精度保持一致。

    整個(gè)設(shè)計(jì)支持端到端的前向傳播加速,不需要額外的推理步驟。實(shí)驗(yàn)結(jié)果令人意外:在 A100 GPU 上,BinaryAttention 比 FlashAttention2 快 2 倍以上,而在視覺(jué)和擴(kuò)散 Transformer 的廣泛基準(zhǔn)測(cè)試中,1-bit 注意力不僅能維持精度,在部分任務(wù)上甚至超過(guò)了全精度版本。

    這篇論文打破了"低比特必然犧牲精度"的行業(yè)常識(shí),把“量化”從一個(gè)工程壓縮問(wèn)題,提升到了“重新發(fā)現(xiàn)計(jì)算本質(zhì)”的理論層面。

      • arXiv 論文頁(yè)面:https://arxiv.org/abs/2603.09582

      • 項(xiàng)目代碼倉(cāng)庫(kù):EdwardChasel/BinaryAttention

    SegQuant:量化不需要給每個(gè)模型單獨(dú)開(kāi)藥方

    另一篇論文中,SegQuant 挑戰(zhàn)了另一個(gè)標(biāo)準(zhǔn)件:量化策略必須針對(duì)每個(gè)架構(gòu)手工定制。

    在深度學(xué)習(xí)領(lǐng)域,如果你要對(duì)一個(gè)模型做量化(比如把32位浮點(diǎn)數(shù)壓縮成8位或4位整數(shù)),那么你幾乎必須針對(duì)這個(gè)模型的具體架構(gòu),手工去調(diào)整量化參數(shù)(比如每一層的縮放因子、零點(diǎn)位置、位寬分配等)。不同架構(gòu)差異越大,手工調(diào)參的工作量就越重。

    而擴(kuò)散模型這個(gè)領(lǐng)域,SDXL、DiT、PixArt等模型架構(gòu)變得非常多樣且差異巨大,讓這個(gè)問(wèn)題雪上加霜。給一個(gè)模型調(diào)參之后,換個(gè)模型就得重新來(lái)一遍。更麻煩的是,這些方法通常依賴(lài)大量人工設(shè)定的啟發(fā)式規(guī)則,和主流工業(yè)部署工具也不兼容,想真正把量化塞進(jìn)生產(chǎn)線(xiàn),門(mén)檻極高。

    浙大 OptiSys 團(tuán)隊(duì)提出的 SegQuant,核心思路是讓量化策略從模型的計(jì)算圖里自動(dòng)"讀"出來(lái),而不是靠人工拍腦袋。SegQuant 由兩個(gè)組件構(gòu)成:SegLinear 和 DualScale。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    SegLinear 是一種基于段的圖量化策略,它分析模型的靜態(tài)計(jì)算圖,自動(dòng)捕獲線(xiàn)性層的語(yǔ)義結(jié)構(gòu),識(shí)別出哪些層功能類(lèi)似、哪些層在空間分布上差異顯著,然后據(jù)此為不同層分配不同的量化配置。整個(gè)過(guò)程不需要手寫(xiě)規(guī)則,完全由圖拓?fù)潋?qū)動(dòng)。

    DualScale 則專(zhuān)門(mén)對(duì)付擴(kuò)散模型量化里一個(gè)老大難問(wèn)題:激活分布的極性不對(duì)稱(chēng)。擴(kuò)散模型中很多層的激活值正負(fù)兩側(cè)形狀差異極大,如果用同一套量化尺度去量,必然會(huì)有一側(cè)被嚴(yán)重失真。DualScale 用雙尺度分別校準(zhǔn)正負(fù)兩側(cè),專(zhuān)門(mén)保住視覺(jué)輸出的保真度。

    SegLinear 證明了量化配置可以從計(jì)算圖自動(dòng)讀取,無(wú)需人工經(jīng)驗(yàn)。DualScale揭示了傳統(tǒng)量化失效的根本原因是忽略了正負(fù)分布的獨(dú)立性,并提出了一個(gè)更合理的基本形式。

    SegQuant 的意義是第一次有人把擴(kuò)散模型量化做成了一個(gè)真正跨架構(gòu)通用的框架,同一套方法適配 UNet 系和 DiT 系,無(wú)需為每個(gè)模型單獨(dú)調(diào)參。同時(shí),論文從一開(kāi)始就按工業(yè)部署的標(biāo)準(zhǔn)設(shè)計(jì),與主流部署工具無(wú)縫兼容。這意味著 SegQuant 不是一篇只活在論文里的方法,而是可以直接推進(jìn)到生產(chǎn)線(xiàn)上的工具。

      • arXiv 論文頁(yè)面:https://arxiv.org/abs/2507.14811

      • 項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/OptiSys-ZJU/segquant

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    02


    訓(xùn)練目標(biāo)翻案:

    擴(kuò)散模型,你根本沒(méi)在"去噪"

    推理端的標(biāo)準(zhǔn)件被拆掉之后,接下來(lái)被質(zhì)疑的,不再是怎么跑模型,而是模型的目標(biāo)本身到底對(duì)不對(duì)。而這一刀,切到了擴(kuò)散模型最根本的訓(xùn)練范式上。

    JiT:預(yù)測(cè)噪聲還是預(yù)測(cè)干凈圖像?這個(gè)問(wèn)題比你想的更重要

    擴(kuò)散模型的名字里有"去噪"兩個(gè)字,但早期研究普遍選擇讓模型預(yù)測(cè)噪聲,而不是干凈圖像。在技術(shù)上,這兩種參數(shù)化是等價(jià)的,可以相互轉(zhuǎn)換,所以一直沒(méi)人深究:選哪個(gè)真的完全一樣嗎?

    Kaiming He 和 Tianhong Li 在這篇論文里指出:兩者在實(shí)際效果上并不等價(jià),差異藏在流形幾何里。流形假設(shè)(Manifold Hypothesis)告訴我們,自然圖像分布在高維空間里的一個(gè)低維流形上。干凈圖像住在這個(gè)流形上,而加了噪聲的中間狀態(tài)則偏離了流形,是"飄出去"的。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    這意味著,當(dāng)模型的訓(xùn)練目標(biāo)是預(yù)測(cè)帶噪量時(shí),它要在一個(gè)彌散的高維空間里工作,網(wǎng)絡(luò)容量不夠就會(huì)災(zāi)難性失敗;而如果目標(biāo)是預(yù)測(cè)干凈圖像,目標(biāo)始終在流形上,即便網(wǎng)絡(luò)容量有限也能有效建模。這不是工程細(xì)節(jié)的差異,而是數(shù)學(xué)本質(zhì)的差異,因?yàn)轭A(yù)測(cè)噪聲是在流形之外尋找一個(gè)彌散的目標(biāo),預(yù)測(cè)干凈圖像是在流形之上尋找一個(gè)結(jié)構(gòu)化的目標(biāo)。

    基于這個(gè)洞察,研究者提出了 JiT(Just image Transformers):直接用大 patch 的 Transformer 處理原始像素,訓(xùn)練目標(biāo)就是預(yù)測(cè)干凈圖像,損失函數(shù)只有簡(jiǎn)單的 MSE。沒(méi)有 VAE 或 Tokenizer 做潛空間壓縮,沒(méi)有預(yù)訓(xùn)練權(quán)重,沒(méi)有額外的正則化損失。這是一種極簡(jiǎn)化的設(shè)計(jì)方式。

    在 ImageNet 256 和 512 分辨率上,JiT 都取得了有競(jìng)爭(zhēng)力的結(jié)果,尤其是 32×32 的大 patch 在 512 分辨率下依然表現(xiàn)良好,這打破了"高分辨率必須先壓縮到潛空間"的通行做法。

    JiT 的意義遠(yuǎn)不止一組實(shí)驗(yàn)數(shù)據(jù)。它真正動(dòng)搖的是整個(gè)擴(kuò)散模型的訓(xùn)練范式:過(guò)去幾年,從 LDM 到 DiT 到 SDXL,所有人都在沿著"先壓縮、再預(yù)測(cè)噪聲"的路線(xiàn)走,沒(méi)人意識(shí)到它可能是一個(gè)次優(yōu)解。而 JiT 告訴我們,這條路線(xiàn)的自然性是虛假的,雖然它是在數(shù)學(xué)上等價(jià)的,但在幾何上卻不是最優(yōu)的。

    更值得注意的是,JiT 的極簡(jiǎn)設(shè)計(jì)本身就是一種論證:當(dāng)去掉 Tokenizer、去掉預(yù)訓(xùn)練、去掉復(fù)雜損失,模型依然能工作得很好,就引發(fā)了越來(lái)越多的質(zhì)疑:那些被加進(jìn)來(lái)的組件,有多少是真正必要的,又有多少只是在為一個(gè)次優(yōu)的訓(xùn)練目標(biāo)做補(bǔ)償?

    如果說(shuō) BinaryAttention 和 SegQuant 是在推理端拆掉標(biāo)準(zhǔn)件,那 JiT 就是在訓(xùn)練目標(biāo)上翻案——它質(zhì)疑的不是"怎么做",而是"為什么這么做"。這個(gè)層次的質(zhì)疑,影響要比推理優(yōu)化深遠(yuǎn)得多。而當(dāng)這種質(zhì)疑繼續(xù)往深處推進(jìn),就會(huì)觸及模型架構(gòu)最底層的那些"默認(rèn)設(shè)置"。

      • arXiv 論文頁(yè)面:https://arxiv.org/abs/2511.13720

      • 項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/LTH14/JiT

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    03


    架構(gòu)層的地基松動(dòng):

    歸一化層和可逆約束,都可以不要

    前面三篇論文說(shuō)的是推理端和訓(xùn)練目標(biāo)的標(biāo)準(zhǔn)件,接下來(lái)要介紹的兩篇論文,則是在探討歸一化層和可逆性約束的標(biāo)準(zhǔn)件。歸一化層在Transformer里已存在近十年,被視為“必需品”;可逆性約束是歸一化流這個(gè)方向自始至終的核心約束。拆除歸一化層和可逆性約束,相當(dāng)于修改模型最底層的核心組件。

    BiFlow:精確可逆這個(gè)數(shù)學(xué)潔癖,可以扔了

    歸一化流(Normalizing Flow)生成模型中對(duì)數(shù)學(xué)性質(zhì)要求最嚴(yán)格的一類(lèi)。

    它通過(guò)可逆變換在數(shù)據(jù)分布和先驗(yàn)分布之間建立雙向映射,支持精確的對(duì)數(shù)似然估計(jì),理論上非常漂亮。但這種優(yōu)雅是有代價(jià)的:嚴(yán)格的可逆性約束把網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)空間框死了,能用的變換類(lèi)型極其有限。

    近年來(lái) TARFlow 把 Transformer 和自回歸流結(jié)合,性能大幅提升,但自回歸的因果解碼天生是串行的,就造成了生成一張圖的情況下,token 一個(gè)一個(gè)出的局面。速度成了自回歸繞不開(kāi)的硬傷。

    來(lái)自 Yiyang Lu、Qiao Sun 等人與 Kaiming He 合作的 BiFlow,提出了一個(gè)思路:逆函數(shù)不一定需要是精確的解析解。傳統(tǒng)歸一化流要求前向變換嚴(yán)格可逆,反向過(guò)程直接采用解析方法求逆。這一要求由“可逆性”這一名稱(chēng)所定義,看起來(lái)是合理的。然而 BiFlow 指出,這一要求帶來(lái)的實(shí)際代價(jià)超過(guò)了其理論收益:它限制了架構(gòu)選擇,強(qiáng)制了因果解碼的串行推理,并使采樣速度成為性能的主要制約因素。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉
    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    該團(tuán)隊(duì)的做法是同時(shí)學(xué)習(xí)兩個(gè)方向:前向模型將數(shù)據(jù)映射到噪聲,反向模型獨(dú)立學(xué)習(xí)一個(gè)近似逆映射。反向模型不再是前向變換的解析逆,而是一個(gè)自由參數(shù)化的神經(jīng)網(wǎng)絡(luò)——這意味著它可以使用雙向注意力而非因果注意力,實(shí)現(xiàn)完全并行的解碼。兩個(gè)方向獨(dú)立訓(xùn)練,反向模型不受可逆性約束,架構(gòu)選擇完全自由。

    BiFlow在 ImageNet 上的實(shí)驗(yàn)結(jié)果是:生成質(zhì)量顯著提升,采樣速度比因果解碼方法快了兩個(gè)數(shù)量級(jí),在歸一化流類(lèi)方法中達(dá)到最優(yōu),與單次前向評(píng)估的方法相比也具有競(jìng)爭(zhēng)力。

    這項(xiàng)研究重新定義了生成模型中“可逆”的含義:精確可逆是強(qiáng)約束,近似可逆是工程可行的折衷。放棄精確可逆,可提升架構(gòu)靈活性和計(jì)算效率。這與 JiT 的邏輯一致。JiT 表明預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖像數(shù)學(xué)等價(jià)但幾何不等價(jià);BiFlow 表明精確可逆與近似可逆數(shù)學(xué)不等價(jià)但效果接近。兩者都以實(shí)際有效性而非理論優(yōu)雅作為評(píng)價(jià)標(biāo)準(zhǔn)。

      • arXiv 論文頁(yè)面:https://arxiv.org/abs/2512.10953

      • 項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/Lyy-iiis/BiFlow

    Derf:歸一化層不僅能替代,還能被打敗

    BiFlow 嘗試去除可逆性約束,而 Derf 則嘗試去除 Transformer 中最為基礎(chǔ)的歸一化層。LayerNorm 與 RMSNorm 在 Transformer 中被普遍視為必要組件,研究者主要關(guān)注參數(shù)調(diào)節(jié)而非是否使用。DyT(Dynamic Tanh)出現(xiàn),證明可以用一個(gè)簡(jiǎn)單的逐點(diǎn)非線(xiàn)性函數(shù)替代歸一化層,訓(xùn)練同樣穩(wěn)定,性能持平,但 DyT 僅持平而未超越。

    Mingzhi Chen、Taiming Lu 等人的這篇論文,問(wèn)的是更進(jìn)一步的問(wèn)題:既然可以用逐點(diǎn)函數(shù)替代歸一化層,那最優(yōu)的逐點(diǎn)函數(shù)是什么?作者首先從理論上研究了逐點(diǎn)函數(shù)的內(nèi)在特性如何影響訓(xùn)練動(dòng)態(tài)和最終性能,然后基于理論發(fā)現(xiàn)開(kāi)展了大規(guī)模的函數(shù)形式搜索。最終找到的答案是 Derf——一個(gè)基于誤差函數(shù)的極簡(jiǎn)設(shè)計(jì):Derf(x) = erf(αx + s),其中 erf 是高斯累積分布函數(shù),α 和 s 是可學(xué)習(xí)參數(shù)。這個(gè)設(shè)計(jì)形式極其簡(jiǎn)潔,但效果驚人:在視覺(jué)識(shí)別、視覺(jué)生成、語(yǔ)音表示學(xué)習(xí)、DNA 序列建模等多個(gè)領(lǐng)域,Derf 全面優(yōu)于 LayerNorm、RMSNorm 和 DyT。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    更值得注意的是論文對(duì) Derf 性能來(lái)源的分析。通常人們會(huì)認(rèn)為,一個(gè)更好的替代方案一定是因?yàn)閿M合能力更強(qiáng)。但作者通過(guò)深入實(shí)驗(yàn)發(fā)現(xiàn),Derf 的優(yōu)勢(shì)主要來(lái)自泛化能力的提升,而非擬合能力的增強(qiáng)。這個(gè)發(fā)現(xiàn)可能帶來(lái)一種暗示,即歸一化層之所以長(zhǎng)期以來(lái)"不可替代",可能并不是因?yàn)樗峁┝四撤N不可取代的計(jì)算功能,而是因?yàn)樗『锰峁┝艘环N泛化性尚可的穩(wěn)定化手段。而當(dāng) Derf 用一種更簡(jiǎn)潔的方式提供了更好的泛化性時(shí),歸一化層的"不可替代性"就站不住腳了。

    Derf 的意義不只是一次函數(shù)替換。它真正觸及的問(wèn)題是:歸一化層在 Transformer 里到底在干什么?多年來(lái),人們用"穩(wěn)定訓(xùn)練"來(lái)解釋它的存在,但"穩(wěn)定訓(xùn)練"這個(gè)說(shuō)法本身就含糊。Derf 可能給出了這樣的方向,至少在泛化性這個(gè)維度上,歸一化層并不是最優(yōu)答案。一個(gè)形式更簡(jiǎn)潔、參數(shù)更少的逐點(diǎn)函數(shù),可以做得更好。

      • arXiv 論文頁(yè)面:https://arxiv.org/abs/2512.10938

      • 項(xiàng)目代碼倉(cāng)庫(kù):https://github.com/zlab-pku/Derf

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個(gè)拆掉

    04


    結(jié)語(yǔ)

    把五篇論文放在一起看,最值得關(guān)注的不是它們分別把某個(gè)指標(biāo)提高了多少,而是它們幾乎不約而同地指向同一件事:深度學(xué)習(xí)中那些被當(dāng)作"標(biāo)準(zhǔn)件"裝配進(jìn)去的設(shè)計(jì),遠(yuǎn)沒(méi)有我們以為的那么不可動(dòng)搖。

    BinaryAttention 證明了注意力的浮點(diǎn)精度不是必須的,1-bit 符號(hào)就夠了;SegQuant 證明了量化策略不需要給每個(gè)架構(gòu)單獨(dú)開(kāi)藥方,計(jì)算圖自己就能推斷;JiT 證明了擴(kuò)散模型"預(yù)測(cè)噪聲"的訓(xùn)練目標(biāo)不是最優(yōu)的,直接預(yù)測(cè)干凈圖像在幾何上更合理;BiFlow 證明了歸一化流的"精確可逆"是一種可以放手的奢侈品;Derf 證明了歸一化層不僅能被替代,還能被打敗。

    而且它們不是在同一層拆。從推理端的精度和定制化,到訓(xùn)練目標(biāo)的參數(shù)化方式,再到架構(gòu)層最底層的歸一化層和可逆約束,全部有所涉及。過(guò)去幾年的深度學(xué)習(xí)都是在追求規(guī)模化,要有更大的模型、更多的數(shù)據(jù)、更精細(xì)的調(diào)參,那么 CVPR 2026 的這一批工作,則是在探討一些根源問(wèn)題:哪些墻是承重墻,哪些只是隔斷?哪些是必須的,哪些只是"一直都在所以以為必須"?

    答案正在變得越來(lái)越清晰:那些我們以為的承重墻,有不少只是隔斷。而拆掉它們之后,房子不但沒(méi)有塌,反而透進(jìn)了更多的光。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話(huà)
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 欧美亚韩国产| 天码毛片一区二区三区入口| 中文字幕久久波多野结衣AV| 中日韩精品视频一区二区三区| 亚洲老女人区一区二视频| 黄总av| 精品人妻一区二区三区浪潮在线 | 成人精品自拍视频免费看| 欧美人妻少妇| 久激情内射婷内射蜜桃| 日韩aV无码午夜| 亚洲成A人片在线观看中文| 精品国产日本| 亚洲自拍色综合| 非产精品二区| 亚洲视频在线观看第一页| 成人免费无遮挡在线播放| 狠狠亚洲色一日本高清色| 老鸭窝在线视频| 国产一级特黄aa大片在线观看 | 亚洲精品午夜aaa级久久久久 | 狠狠躁夜夜躁人人爽天天5| 日韩av区| 四虎永久地址www成人| 简阳市| 欧美日韩综合精品一区二区| 日本一道一区二区视频| 亚洲AV天天做在线观看| 无码三级av电影在线观看| 人人肏屄| 色综合久久久久综合体桃花网| 图片区偷拍区小说区五月| 精品人妻无码专区在线无广告视频视频在线 | 亚洲综合精品第一页| 国产亚洲一区二区三区在线| 一本一道人妻久久综合无码| 四虎海外在线永久免费看| 欧美v国产v亚洲v日韩九九| 女人裸体性做爰视频| 亚洲中文字幕精品第三区| 亚洲精品一区二区妖精|