CVPR 2026 | 同濟(jì)大學(xué)破解SNN追蹤難題：SpikeTrack實(shí)現(xiàn)精度與能效雙SOTA！

本文作者：陳淑瑜

2026-05-29 16:23

導(dǎo)語：SpikeTrack不僅在SNN追蹤器中達(dá)到了SOTA（目前最佳）水平，更在保證精度的前提下，將能耗降低至傳統(tǒng)ANN追蹤器的幾十分之一。

來源：公眾號“CV實(shí)驗(yàn)室”

原文鏈接：https://mp.weixin.qq.com/s/65JSJhgEB_O_2epsG0pfIw?scene=1&click_id=51

在計(jì)算機(jī)視覺領(lǐng)域，目標(biāo)追蹤（Visual Tracking）一直需要在“高精度”和“低功耗”之間尋找平衡。SNN（脈沖神經(jīng)網(wǎng)絡(luò)）因其生物仿真特性和極高的能源效率被寄予厚望，但在處理復(fù)雜的RGB視覺追蹤任務(wù)時(shí)，往往難以兼顧精度。

今天介紹的這篇 CVPR 2026 論文 SpikeTrack，提出了一種全新的全脈沖驅(qū)動框架。它不僅在SNN追蹤器中達(dá)到了SOTA（目前最佳）水平，更在保證精度的前提下，將能耗降低至傳統(tǒng)ANN追蹤器的幾十分之一。

CVPR 2026 | 同濟(jì)大學(xué)破解SNN追蹤難題：SpikeTrack實(shí)現(xiàn)精度與能效雙SOTA！

論文標(biāo)題： SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

論文鏈接： https://arxiv.org/pdf/2602.23963

代碼倉庫： https://github.com/faicaiwawa/SpikeTrack (已開源)

01. 核心痛點(diǎn)與解決思路

現(xiàn)有的SNN追蹤框架主要面臨兩個問題：

偽脈沖驅(qū)動：部分方法（如SiamSNN）雖然使用了脈沖神經(jīng)元，但在計(jì)算過程中仍將脈沖解碼為連續(xù)值，沒有真正發(fā)揮SNN“稀疏計(jì)算”的低功耗優(yōu)勢。
時(shí)空動力學(xué)利用不足：部分基于事件相機(jī)的方法沿用了ANN的“單流（One-stream）”架構(gòu)，強(qiáng)行拼接模板與搜索區(qū)域，導(dǎo)致計(jì)算量巨大且忽略了SNN在時(shí)間維度上的記憶特性。

SpikeTrack 的解決方案：非對稱孿生架構(gòu)

作者沒有照搬ANN的交互模式，而是設(shè)計(jì)了一種非對稱（Asymmetric）的設(shè)計(jì)：

模板分支（Template Branch）：利用多個時(shí)間步（Timesteps）擴(kuò)展，充分利用神經(jīng)元的時(shí)空動力學(xué)特性，提取高質(zhì)量的目標(biāo)特征。但這部分計(jì)算量大，因此只在初始化或模板更新時(shí)運(yùn)行一次。
搜索分支（Search Branch）：處理每一幀的實(shí)時(shí)畫面，保持高效的單時(shí)間步（Single-timestep）推理。
單向信息流：信息只從“模板”流向“搜索”，搜索分支通過特定的模塊“讀取”模板信息，而不需要像傳統(tǒng)Transformer那樣進(jìn)行復(fù)雜的雙向注意力計(jì)算。

02. 核心組件解析

SpikeTrack 的架構(gòu)主要由三個部分組成：共享權(quán)重的脈沖主干網(wǎng)絡(luò)（Backbone）、用于信息交互的記憶檢索模塊（MRM）、以及預(yù)測頭。

1. 基礎(chǔ)神經(jīng)元模型 (NI-LIF)

為了保證真正的脈沖驅(qū)動，論文采用了 NI-LIF (Normalized Integer Leaky Integrate-and-Fire) 神經(jīng)元。它在推理時(shí)將膜電位轉(zhuǎn)換為整數(shù)脈沖，實(shí)現(xiàn)了稀疏的加法計(jì)算，替代了高能耗的浮點(diǎn)乘法。

其動力學(xué)方程如下：

其中，是膜電位，是輸出脈沖，是可學(xué)習(xí)的衰減因子。可學(xué)習(xí)的衰減因子允許網(wǎng)絡(luò)自適應(yīng)地調(diào)節(jié)對歷史信息的遺忘程度。

2. 記憶檢索模塊 (Memory Retrieval Module, MRM)

這是SpikeTrack最核心的創(chuàng)新點(diǎn)。為了實(shí)現(xiàn)“模板”到“搜索”的高效信息傳遞，作者借鑒了大腦皮層（V1 L2/3區(qū)域）的神經(jīng)推理機(jī)制：通過循環(huán)連接（Recurrent Connectivity）來完善感知。

在SpikeTrack中，模板特征被初始化為“記憶庫（Memory Bank）”。搜索分支在推理時(shí)，并不直接與模板拼接，而是通過MRM模塊去“查詢”記憶庫，逐步提取目標(biāo)線索。

MRM 的工作流程包含三個階段的循環(huán)（Recurrent Process）：

全局輪廓編碼：通過脈沖二值張量進(jìn)行高效的點(diǎn)積運(yùn)算，初步檢索目標(biāo)。
細(xì)節(jié)構(gòu)建：利用特定的脈沖可分離卷積（SSConv）在時(shí)間維度上增強(qiáng)對細(xì)節(jié)的感知。
反饋細(xì)化：通過殘差連接模擬大腦向高級視覺區(qū)域的反饋，更新查詢請求。

最終，通過多次循環(huán)檢索（實(shí)驗(yàn)中1次循環(huán)效果最佳），搜索分支能精準(zhǔn)地“想起來”目標(biāo)長什么樣，并定位目標(biāo)。

03. 實(shí)驗(yàn)結(jié)果：能效與精度的雙重突破

1. 精度與能耗的權(quán)衡

在LaSOT數(shù)據(jù)集上，SpikeTrack展現(xiàn)了驚人的能效比。

對比 ANN：SpikeTrack-B（基礎(chǔ)版）在精度上超過了基于Transformer的 TransT（AUC 66.7% vs 64.9%），但能耗僅為 TransT 的 1/26。
對比 SNN：相比之前的 SpikeSiamFC++ 等SNN追蹤器，SpikeTrack在各項(xiàng)指標(biāo)上均大幅領(lǐng)先。