來源:公眾號“機器之心”
原文鏈接:https://mp.weixin.qq.com/s/rht6QRWh3JtuGnG7tYsoGQ
視覺腦機接口的終極目標,是建立大腦神經皮層與外部視覺感知的雙向交互通道,從“單向理解”走向“雙向交互”,既能從大腦神經活動中重建出視覺信息(讀腦),也能把視覺信息自然寫入神經皮層(寫腦),同時保證“讀腦”與“寫腦”過程的可交互性與雙向一致性。
來自上海人工智能實驗室、香港大學、香港中文大學等機構的研究團隊,提出首個基于統一神經流模型的視覺-神經雙向建模框架NeuroFlow,相關成果入選 CVPR 2026。它首次將視覺編碼(寫腦)與解碼(讀腦)整合到同一可逆流結構中,打通視覺感知與神經活動之間的雙向通路,為理解人類視覺認知機制、構建下一代通用視覺假體與雙向腦機接口提供了全新范式。
論文標題:
NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity
論文地址:
https://arxiv.org/abs/2604.09817
主頁地址:
https://michaelmaiii.github.io/NeuroFlow-S
本文第一作者為香港大學PhD麥偉健,相關研究工作于上海人工智能實驗室科研實習期間完成;共同通訊作者分別為伍佳敏,Andrew F. Luo 和宋純鋒。該工作已經被 CVPR 2026 會議接收。
視覺神經建模困境:
從“割裂單向”到“統一雙向”的范式轉變需求
在人類視覺感知系統中,外界視覺刺激可激活大腦產生神經響應(編碼),同時大腦神經響應能夠用于重建相應的感知內容(解碼),二者形成互補的信息處理通路。但長期以來,視覺神經建模面臨難以突破的瓶頸:
1)編碼與解碼長期割裂:兩類任務被視為獨立問題,需分別訓練模型、使用不同潛空間,缺乏交互,難以保證雙向一致性;
2)雙向跨模態對齊困難:當前方法多依賴簡單線性或擴散范式下的單向映射,難以保證建模視覺-神經模態間的雙向對齊。
3)神經模式解釋性不足:生成的神經信號易陷入體素級噪聲,與大腦真實皮層激活模式存在偏差,缺乏生物學可解釋性。這種 “單向割裂” 的范式,限制了我們對視覺神經機制的深層理解,也阻礙了雙向腦機技術的進一步發展。
統一建模突破:
NeuroFlow 構建視覺-神經可逆映射新架構
為破解上述難題,NeuroFlow 首次在單一模型內實現視覺編碼+神經解碼的統一建模,用一套架構完成雙向任務,核心包含兩大創新模塊:
1、NeuroVAE 概率變分主干
人類神經響應天然存在一對多的隨機特性:大腦在感知同一個視覺刺激時,受生理噪聲、腦狀態波動、采集試次差異影響,多次記錄得到的 fMRI 腦活動分布各不相同。針對該視覺-神經活動之間的“一對多”變異性,NeuroVAE 引入變分概率建模范式,不再將腦信號映射為單點固定特征,而是輸出概率分布表征,把高維雜亂的原始 fMRI 體素數據壓縮至維度緊湊、語義結構化的統一隱空間。模型在保留關鍵神經信息的同時過濾冗余噪聲,并通過對比學習與循環一致性約束,實現神經表征與視覺語義的深度對齊,為跨模態統一建模奠定基礎。
2、XFM 跨模態流匹配
當前跨模態生成方案普遍采用條件擴散范式,依賴單一模態信息作為條件引導、從純高斯噪聲迭代生成另一模態數據,訓練與推理邏輯單向固化,很難自然實現正向、反向雙向轉換。 XFM 跨模態流匹配跳出 “噪聲生成數據 + 單模態條件引導” 的固有框架,直接基于常微分方程連續演化思想,在共享隱空間中學習視覺表征分布與NeuroVAE神經表征分布之間的連續可逆變換流場,無需條件引導便可直接構建從源分布平滑過渡至目標分布的完整演化路徑。
模型定義隨時間 [0, 1] 變化的矢量場,采用余弦插值構建從源分布到目標分布的平滑過渡軌跡。其中,1)正向演化對應編碼任務,時間由0 → 1推進,視覺特征沿流場連續變換生成對應神經表征,完成圖像到腦信號的編碼,再通過NeuroVAE生成真實的神經信號;2)反向演化對應解碼任務:時間由1 → 0推進、沿時間逆向求解 ODE,由神經表征回溯還原原始視覺特征,再通過視覺生成器實現從腦信號中重建圖像。僅通過時間方向區分兩種過程,從機理上保證編碼與解碼的強語義一致性。這一架構讓視覺與神經在共享潛空間內形成穩定、可逆、可解釋的映射關系,實現真正意義上的雙向互通。
實驗亮點與結果:
全面領先,信號真實,一致性突出
研究團隊在大規模自然場景 fMRI 數據集(NSD)上進行全面驗證,與 MindEye2、BrainDiffuser、SynBrain 等主流模型對比,NeuroFlow 展現出全方位優勢:
1)視覺解碼性能:從神經信號重建的圖像與原視覺刺激的語義/輪廓一致性更高,且性能超越現有視覺解碼基線;
2)編碼-解碼一致性:圖像→神經→重建圖像的雙向一致性高度穩定;
3)神經信號真實性:合成神經信號可抑制早期視覺區的跨試次隨機噪聲,更關注于 FFA(臉部)、EBA(身體)、PPA(場景)等高級語義功能區,與真實視覺皮層激活模式高度吻合;
4)高效輕量性:無需預訓練,僅需當前最優解碼模型的25%訓練參數便可在編碼與解碼任務中都達到更優性能,訓練高效、易于部署與拓展。這些實驗證明,NeuroFlow 不僅性能領先,更能生成大腦可理解、語義可對齊、生理可解釋的神經表征,為視覺認知研究提供可信工具。
可解釋性分析:拆解雙向建模的關鍵內在機制
該工作依托多維度可視化實驗,從模塊消融、流演化軌跡、腦功能特征三個維度剖析模型內在機理:
A)消融實驗:逐項移除關鍵損失與模塊后,圖像重建保真度、語義完整性顯著劣化,證明各項約束與 XFM 流結構是實現高質量跨模態重建的必要條件;
B)流采樣軌跡:編碼演化過程中,模型會自發抑制早期初級視覺區噪聲響應,表征逐步向 FFA、EBA 等高級功能腦區收斂;解碼則從初始輪廓草圖平滑迭代為高清完整圖像,區別于擴散模型由純噪聲起步的生成邏輯,直觀體現流匹配的演化規律;
C)類別激活對比:選取人臉類視覺刺激,對照實測 fMRI 激活與模型合成神經激活圖譜,模型生成的激活區位、強弱分布和人腦真實響應高度匹配,驗證框架可精準復現特定語義類別對應的腦區激活模式;
D)量化驗證:依托 NSD 測試集,結合方差解釋度(EV)與斯皮爾曼相關系數做全腦量化分析,量化結果可見模型在 FFA、EBA、PPA 等高級視覺功能腦區呈現更高的解釋度與相關系數,說明 NeuroFlow 建模時更側重學習人腦高級語義加工相關的神經活動。
實驗證明 NeuroFlow 架構在保障高精度圖像重建的同時,生成的神經表征貼合人腦視覺加工的生理規律,從機理上驗證了視覺與神經雙向映射的科學性。
價值與展望:
開啟視覺-神經雙向交互新時代
NeuroFlow 的意義不止于模型性能提升,更在于為腦科學與 AI 交叉領域打開全新可能:
1)認知研究層面,提供了可計算、可驗證的視覺神經建模工具,助力揭示人類視覺感知、語義加工、高級認知的底層機理;
2)腦機接口層面:構建穩定、高效、可逆的視覺-神經雙向通道,為視覺假體與雙向腦機接口等前沿方向提供核心算法底座;
3)技術范式層面:證明單一統一模型可勝任雙向跨模態任務,為多模態神經建模提供可復用的設計思路。
未來,NeuroFlow 將進一步走向更通用、更魯棒、更貼近真實大腦機制的視覺-神經建模體系,加速腦科學與人工智能深度融合,推動雙向腦機接口從實驗室走向更廣闊的現實應用。