0
| 本文作者: 陳淑瑜 | 2026-05-29 16:23 | 專題:CVPR 計(jì)算機(jī)視覺與模式識別會議 |
來源:公眾號“CV實(shí)驗(yàn)室”
原文鏈接:https://mp.weixin.qq.com/s/65JSJhgEB_O_2epsG0pfIw?scene=1&click_id=51
在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)追蹤(Visual Tracking)一直需要在“高精度”和“低功耗”之間尋找平衡。SNN(脈沖神經(jīng)網(wǎng)絡(luò))因其生物仿真特性和極高的能源效率被寄予厚望,但在處理復(fù)雜的RGB視覺追蹤任務(wù)時(shí),往往難以兼顧精度。
今天介紹的這篇 CVPR 2026 論文 SpikeTrack,提出了一種全新的全脈沖驅(qū)動框架。它不僅在SNN追蹤器中達(dá)到了SOTA(目前最佳)水平,更在保證精度的前提下,將能耗降低至傳統(tǒng)ANN追蹤器的幾十分之一。

論文標(biāo)題: SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking
論文鏈接: https://arxiv.org/pdf/2602.23963
代碼倉庫: https://github.com/faicaiwawa/SpikeTrack (已開源)
現(xiàn)有的SNN追蹤框架主要面臨兩個問題:
SpikeTrack 的解決方案:非對稱孿生架構(gòu)
作者沒有照搬ANN的交互模式,而是設(shè)計(jì)了一種非對稱(Asymmetric)的設(shè)計(jì):

SpikeTrack 的架構(gòu)主要由三個部分組成:共享權(quán)重的脈沖主干網(wǎng)絡(luò)(Backbone)、用于信息交互的記憶檢索模塊(MRM)、以及預(yù)測頭。

為了保證真正的脈沖驅(qū)動,論文采用了 NI-LIF (Normalized Integer Leaky Integrate-and-Fire) 神經(jīng)元。它在推理時(shí)將膜電位轉(zhuǎn)換為整數(shù)脈沖,實(shí)現(xiàn)了稀疏的加法計(jì)算,替代了高能耗的浮點(diǎn)乘法。
其動力學(xué)方程如下:
其中, 是膜電位, 是輸出脈沖, 是可學(xué)習(xí)的衰減因子。可學(xué)習(xí)的衰減因子允許網(wǎng)絡(luò)自適應(yīng)地調(diào)節(jié)對歷史信息的遺忘程度。
這是SpikeTrack最核心的創(chuàng)新點(diǎn)。為了實(shí)現(xiàn)“模板”到“搜索”的高效信息傳遞,作者借鑒了大腦皮層(V1 L2/3區(qū)域)的神經(jīng)推理機(jī)制:通過循環(huán)連接(Recurrent Connectivity)來完善感知。
在SpikeTrack中,模板特征被初始化為“記憶庫(Memory Bank)”。搜索分支在推理時(shí),并不直接與模板拼接,而是通過MRM模塊去“查詢”記憶庫,逐步提取目標(biāo)線索。
MRM 的工作流程包含三個階段的循環(huán)(Recurrent Process):

最終,通過多次循環(huán)檢索(實(shí)驗(yàn)中1次循環(huán)效果最佳),搜索分支能精準(zhǔn)地“想起來”目標(biāo)長什么樣,并定位目標(biāo)。
在LaSOT數(shù)據(jù)集上,SpikeTrack展現(xiàn)了驚人的能效比。

MRM模塊到底學(xué)到了什么?可視化結(jié)果顯示,隨著層級加深,網(wǎng)絡(luò)能夠從通過檢索記憶庫,在復(fù)雜的遮擋、背景干擾下,逐漸聚焦于目標(biāo)物體。

SpikeTrack 的成功證明了 SNN 在復(fù)雜視覺任務(wù)中的潛力。其核心貢獻(xiàn)在于跳出了“一味模仿 ANN 架構(gòu)”的誤區(qū),結(jié)合了 SNN 特有的時(shí)空計(jì)算特性:
這項(xiàng)工作不僅刷新了 SNN 追蹤的 SOTA,也為在極低功耗設(shè)備(如微型無人機(jī)、邊緣計(jì)算芯片)上部署高精度視覺追蹤算法提供了切實(shí)可行的方案。
本專題其他文章