英韌科技董事長吳子寧：從空轉到滿載，AI SSD如何把閑置算力變成「有效算力」？丨存儲芯片十人談

本文作者：楊依婷

2026-04-30 09:51

導語：“AI SSD的關鍵不僅在更快的硬件，更在能否根據不同負載重構數據的組織與調度方式。 ”

2025年，AI算力進入深水區。

一邊是需求持續外溢：大模型訓練規模仍在擴張，推理請求呈指數級增長，數據中心的投資未見降溫；另一邊，是一系列隱性的制約正逐漸浮出水面——算力利用率始終在低處徘徊，系統抖動頻發，集群效率難以維持穩定。

行業逐漸意識到，瓶頸并不總出現在“算力”本身。很多時候，問題卡在“數據”這一環。

當計算集群規模擴大到萬卡級別，任何一個環節的延遲波動，都會被放大為整體性能問題。一些云服務的宕機事件，表面上是調度算法失效，深層原因卻是數據供給與計算節奏之間的錯位——數據來不及被組織、搬運、分發，算力只能在空轉中等待。

這讓一個長期被視為基礎組件的領域，重新進入核心視野：存儲。

過去，存儲的任務是解決“存得下”；而在AI時代，它開始決定“算得快不快”。

正是在這一背景下，“AI SSD”應運而生，幾乎所有主流存儲廠商，都在嘗試交出自己的答卷。

但問題也隨之而來——當整個行業都在做AI SSD時，什么才是真正有效的改進？存儲，究竟需要為AI改變什么？

帶著這些問題，我們與英韌科技董事長吳子寧博士進行了一次對話。他沒有急于回答，而是先講起了一個二十多年前的故事。

（本文作者長期關注存儲行業，對周期波動與企業分化有持續追蹤，歡迎添加微信 EATINGNTAE 交流探討。）

在技術的交叉口，選對方向很重要

技術史，并不是一條筆直向前的曲線，而更像是一連串不斷被推翻、被修正、再重建的嘗試。吳子寧博士用一個故事，解釋了這種平衡如何被打破、又如何重建。

2001年，蘋果發布iPod，那款音樂播放器采用了一項當時頗具突破性的設計——把機械硬盤縮到火柴盒大小，實現了5GB的存儲容量。而在同一時期，主流MP3播放器普遍僅配備64MB或128MB的閃存。

蘋果首先顛覆了人們對音樂播放器的認知。吳子寧博士回憶道，“用戶不再需要頻繁管理音樂文件，而是可以將整個音樂庫隨身攜帶。”

這一變化迅速在產業鏈中引發連鎖反應。多家硬盤廠商將小尺寸機械硬盤視為新的增長方向，投入大量資源進行研發。然而不久之后，另一項技術路徑開始加速演進——閃存技術快速迭代，容量飛速發展。蘋果隨即推出基于全閃存的iPod，盡管入門容量僅為1GB，但憑借小型化和便利性，很快在市場上超越了機械硬盤版本。

很多存儲公司投入大量資源研發小尺寸機械硬盤，都因為新技術的出現受到了巨大的沖擊。

彼時，吳子寧博士正任職于Marvell，而Marvell正是業界最早全面投入閃存固態硬盤解決方案的公司之一。這一經歷在他心中形成了一個重要判斷：技術持續演進是常態，短周期內會有漸進式創新，而在更長周期內，則可能出現顛覆性變革。能否準確把握技術與市場趨勢，并據此做出前瞻性決策，至關重要。

2016年創辦英韌科技時，他已經觀察到兩個關鍵趨勢的疊加。

“一邊是數據需求在爆發，而且是長期趨勢；另一邊是存儲介質正在從機械硬盤向固態硬盤遷移。”他說，“當需求和技術同時發生變化，就會出現一個很典型的機會窗口。”

而在AI驅動的新一輪數據浪潮之下，這一“判斷能力”的重要性再次被放大——面對全新的計算范式，存儲系統應當如何演進？

為什么需要AI SSD?

據DESIGNRUSH估計，2025年實際數據量約為173.4ZB，而2026年全年數據生成量預計在230ZB至240ZB之間，到了2029年，該數字預計將達到527.5ZB。

作為IT基礎設施三大核心支柱之一，存儲在半導體市場中占比約為20%至30%，但在AI時代，這一“支柱”正承受前所未有的壓力。

這種壓力主要體現在三個方面。

第一，數據形態正在改變。傳統數據通常具備明確的冷熱分層：熱數據駐留內存，溫數據進入SSD，冷數據則歸檔至機械硬盤。然而在AI訓練與推理過程中，數據呈現出高頻交互特征——大模型訓練需要持續吞吐海量數據，推理階段涉及大量中間狀態的頻繁訪問，而向量檢索則帶來高比例的小塊隨機讀寫。數據不再嚴格遵循既有分層結構。

第二，應用場景高度分化，基礎大模型正在向行業大模型演進。銀行的風控數據、車企的自動駕駛數據、醫學影像系統數據，每個場景對存儲的要求都不一樣：有的需要超高吞吐，有的需要極低延遲，有的需要在邊緣節點上實現高密度數據處理。

第三，系統容忍度顯著降低。當計算集群擴展至萬卡級規模時，任一環節的性能波動都可能拖慢整體訓練效率。與此同時，邊緣側原本受限的內存帶寬，還需匹配接近GPU級別的計算能力。存儲不再只是數據的承載介質，而成為影響數據流動效率、進而決定訓練與推理性能的關鍵因素。

在他看來，這種變化的根源，在于計算體系中心的遷移。

“過去是CPU在做調度，GPU只是執行單元；但現在，在AI系統里，GPU本身開始承擔調度角色。”他說，“如果數據還要經過CPU中轉，就相當于在兩條高速公路之間接了一座很窄的橋，這個環節會成為瓶頸。”

吳子寧博士用一個形象的比喻來說明這一變化：“一輛車即使最高速度很高，如果大部分時間處于等待狀態，發動機空轉，那么它的實際效率依然很低。”

在AI計算體系中，“等待”正成為日益突出的瓶頸。計算單元具備極高的算力，但數據往往滯留在存儲側——如果無法被高效調度至計算單元，就會導致算力資源閑置與浪費。

“存儲不僅要完成數據的持久化，還需要具備對數據進行高效組織與調度的能力。”吳子寧博士指出，“我們已經開始探索，在存儲側引入更智能的控制機制，對數據布局與訪問路徑進行優化。”

這一思路指向一個明確方向：存儲系統需要針對AI負載進行系統性優化。

過去幾年，行業已展開多路徑探索。例如，通過優化固件與FTL（Flash Translation Layer）算法，使SSD在高并發場景下保持穩定的延遲分布；通過重構主控架構，提升數據調度效率；以及借助CXL（Compute Express Link）協議擴展內存語義，使閃存在特定場景中承擔部分內存功能。

這些技術路徑最終匯聚為一個共同的產品方向——AI SSD，這是整個行業對同一核心問題的多元回應：當計算范式發生變化，存儲體系如何協同演進？

在吳子寧博士看來，一項技術是否值得投入，可以從三個維度判斷：技術合理性、商業可行性與生態兼容性。

以此衡量AI SSD，其可行性便清晰起來——

技術層面，AI負載對存儲提出了傳統SSD難以滿足的新要求，針對性優化是解決“算力等數據”痛點的必要路徑；

商業層面，AI SSD在成熟閃存與主控技術基礎上演進，能夠復用現有供應鏈，具備大規模部署的成本基礎；

生態層面，它延續PCIe/NVMe等標準接口與協議，與現有計算體系保持兼容，能夠被平滑接納。

從這個角度看，AI SSD的出現具有內在必然性——它并非對現有體系的顛覆，而是在既有架構基礎上，針對新型負載特征進行的系統性優化。

正如當年閃存逐步取代小尺寸機械硬盤——技術進步提供了替代能力，而應用需求則明確了替代方向。

在這一過程中，能夠深入理解AI負載特征，并據此構建差異化存儲方案的廠商，將更有可能在下一輪系統級重構中占據有利位置。

先理解負載特征，再定義產品形態

2025年，這場“系統重排”已經拉開序幕。

從鎧俠公布AI SSD中長期路線圖，到三星、海力士、美光陸續推出針對AI場景優化的超高速顆粒產品；從FMS存儲峰會上多家廠商的同臺競技，到華為在上海發布“AI SSD，加速智能經濟涌現”——幾乎在同一時間點上，全球主要存儲廠商都在朝同一個方向發力。

當“AI SSD”成為行業共識，英韌必須回答一個更具體的問題：差異化路徑何在？

在英韌內部，對這個問題的思考始于對AI負載的拆解。AI并非單一應用，而是一組差異顯著的計算任務，大致可以歸納為三類典型負載形態。

第一種是訓練。大模型訓練的特征是持續、穩定且高帶寬的數據流動，樣本被反復讀取、重排與迭代，這個場景對順序吞吐能力高度敏感，但對極端微秒級延遲的要求相對次要。穩定的大規模供給，比瞬時極限性能更重要。

第二種是推理，這是變化最劇烈的部分。推理階段的數據訪問呈現高度碎片化特征，包括大量小塊隨機讀寫、KV Cache頻繁交換以及向量索引調用。此時，存儲從“批量搬運”轉變為“實時響應”，系統性能對尾延遲高度敏感，一旦尾延遲失控，將直接影響整體服務質量。

第三種是數據歸集與管理。隨著模型規模擴大，數據留存、分層與生命周期管理成為剛性需求。該場景對延遲的要求相對寬松，但對容量密度與單位成本極為敏感，需要在規模與成本之間取得平衡。

這三類負載之間，并不存在一個能夠同時最優覆蓋的統一設計方案。

因此，英韌的策略是針對不同負載特征，設計具備差異化能力的主控架構與產品組合。

在通用訓練場景中，采用TLC NAND的“洞庭-N3”更強調帶寬與穩定性的平衡，順序讀取帶寬在14.5GB/s以上，隨機讀取能力約3.4M IOPS，適合作為訓練集群中的常規數據層。

針對容量敏感型場景，則引入基于QLC NAND的“洞庭-N3Q”。在更高存儲密度的前提下，通過控制器與糾錯機制優化，將單盤容量提升至64TB，同時維持超過14GB/s的順序讀取水平，用于降低單位容量成本。

而在對響應時間更敏感的推理側，則采用“洞庭-N3X”這一低時延方案。該產品結合XL-Flash與SLC NAND，在隨機訪問下可實現約13微秒讀取延遲、4微秒寫入延遲，隨機讀取性能超過3.5M IOPS，隨機寫入性能可達1.6M IOPS，且具備最高100 DWPD的耐用性，更適合高并發、小請求場景。

該產品的實際表現，近期已獲得第三方測試驗證。

英韌的洞庭-N3X參加了ODCC AI存儲實驗室“面向AI推理場景KV Cache的數據存儲測試項目”，SSD能支持GPU Direct Storage (GDS)，采用GPU直接調度的方式，構建“以存代算”的第三級緩存。

實測數據顯示：采用英韌科技AI SSD(洞庭-N3X)后，能夠有效打破“內存墻”，讓數據更快供給 GPU，H20平臺的系統吞吐量提升約12倍，RTX 6000D平臺的系統吞吐量提升約20倍。在10K輸入長度下，原生架構由于需要重新計算或處理顯存溢出，存在一定延遲，但采用N3X后，首Token延遲可從數秒級縮短至毫秒級。隨著輸入長度從100 tokens增加到100K tokens，存儲壓力呈線性甚至指數級增長，而輸入文本越長，N3X對系統換入換出效率的提升效果越明顯。

這一結果表明：當AI負載規模跨越特定閾值后，存儲將從輔助角色轉變為關鍵性能變量；而針對推理場景深度優化的AI SSD，可以顯著改變系統整體效率。

在英韌看來，這三類產品的劃分并非傳統意義上的“高、中、低端”區隔，而是對不同數據訪問模式的針對性響應，是基于負載模型推導的工程結果，而非簡單的參數堆疊。

真正的挑戰，在于如何在系統層面實現這些差異化能力的協同。

隨著接口標準持續演進——從PCIe 4.0到5.0，并邁向即將到來的6.0——SSD不僅需要提升物理帶寬能力，更需要同步增強主控的并發調度與隊列管理能力。否則，底層介質性能的提升將難以轉化為系統級收益。

“必須抓住每一代接口升級的窗口期。”吳子寧博士也強調，更具挑戰性的部分在于內部架構的重構：在高并發場景下如何避免隊列阻塞？如何有效控制尾延遲？如何在不同介質特性之間實現負載均衡？

這些問題，最終都指向一個具體的性能目標。

“要把吞吐量從現在的300萬IOPS，在兩年后提升至1億IOPS，這相當于接近兩個數量級的躍升。”吳子寧博士進一步闡釋道，“單靠更先進的芯片制程，無法支撐這一量級的性能跨越，關鍵在于架構層面的重構。我們需要在數據調度路徑上實現更精細的優化與更高的效率，推動介質層與接口層之間的深度協同，將數據從存儲介質到主機接口的整條通路壓縮至最短，從而在根本上降低訪問延遲。”

這些問題，構成了AI SSD主控芯片的研發關鍵。