0
| 本文作者: 楊依婷 | 2026-04-30 09:51 |
2025年,AI算力進入深水區。
一邊是需求持續外溢:大模型訓練規模仍在擴張,推理請求呈指數級增長,數據中心的投資未見降溫;另一邊,是一系列隱性的制約正逐漸浮出水面——算力利用率始終在低處徘徊,系統抖動頻發,集群效率難以維持穩定。
行業逐漸意識到,瓶頸并不總出現在“算力”本身。很多時候,問題卡在“數據”這一環。
當計算集群規模擴大到萬卡級別,任何一個環節的延遲波動,都會被放大為整體性能問題。一些云服務的宕機事件,表面上是調度算法失效,深層原因卻是數據供給與計算節奏之間的錯位——數據來不及被組織、搬運、分發,算力只能在空轉中等待。
這讓一個長期被視為基礎組件的領域,重新進入核心視野:存儲。
過去,存儲的任務是解決“存得下”;而在AI時代,它開始決定“算得快不快”。
正是在這一背景下,“AI SSD”應運而生,幾乎所有主流存儲廠商,都在嘗試交出自己的答卷。
但問題也隨之而來——當整個行業都在做AI SSD時,什么才是真正有效的改進?存儲,究竟需要為AI改變什么?
帶著這些問題,我們與英韌科技董事長吳子寧博士進行了一次對話。他沒有急于回答,而是先講起了一個二十多年前的故事。
(本文作者長期關注存儲行業,對周期波動與企業分化有持續追蹤,歡迎添加微信 EATINGNTAE 交流探討。)
技術史,并不是一條筆直向前的曲線,而更像是一連串不斷被推翻、被修正、再重建的嘗試。吳子寧博士用一個故事,解釋了這種平衡如何被打破、又如何重建。
2001年,蘋果發布iPod,那款音樂播放器采用了一項當時頗具突破性的設計——把機械硬盤縮到火柴盒大小,實現了5GB的存儲容量。而在同一時期,主流MP3播放器普遍僅配備64MB或128MB的閃存。
蘋果首先顛覆了人們對音樂播放器的認知。吳子寧博士回憶道,“用戶不再需要頻繁管理音樂文件,而是可以將整個音樂庫隨身攜帶。”
這一變化迅速在產業鏈中引發連鎖反應。多家硬盤廠商將小尺寸機械硬盤視為新的增長方向,投入大量資源進行研發。然而不久之后,另一項技術路徑開始加速演進——閃存技術快速迭代,容量飛速發展。蘋果隨即推出基于全閃存的iPod,盡管入門容量僅為1GB,但憑借小型化和便利性,很快在市場上超越了機械硬盤版本。
很多存儲公司投入大量資源研發小尺寸機械硬盤,都因為新技術的出現受到了巨大的沖擊。
彼時,吳子寧博士正任職于Marvell,而Marvell正是業界最早全面投入閃存固態硬盤解決方案的公司之一。這一經歷在他心中形成了一個重要判斷:技術持續演進是常態,短周期內會有漸進式創新,而在更長周期內,則可能出現顛覆性變革。能否準確把握技術與市場趨勢,并據此做出前瞻性決策,至關重要。
2016年創辦英韌科技時,他已經觀察到兩個關鍵趨勢的疊加。
“一邊是數據需求在爆發,而且是長期趨勢;另一邊是存儲介質正在從機械硬盤向固態硬盤遷移。”他說,“當需求和技術同時發生變化,就會出現一個很典型的機會窗口。”
而在AI驅動的新一輪數據浪潮之下,這一“判斷能力”的重要性再次被放大——面對全新的計算范式,存儲系統應當如何演進?
據DESIGNRUSH估計,2025年實際數據量約為173.4ZB,而2026年全年數據生成量預計在230ZB至240ZB之間,到了2029年,該數字預計將達到527.5ZB。
作為IT基礎設施三大核心支柱之一,存儲在半導體市場中占比約為20%至30%,但在AI時代,這一“支柱”正承受前所未有的壓力。
這種壓力主要體現在三個方面。
第一,數據形態正在改變。傳統數據通常具備明確的冷熱分層:熱數據駐留內存,溫數據進入SSD,冷數據則歸檔至機械硬盤。然而在AI訓練與推理過程中,數據呈現出高頻交互特征——大模型訓練需要持續吞吐海量數據,推理階段涉及大量中間狀態的頻繁訪問,而向量檢索則帶來高比例的小塊隨機讀寫。數據不再嚴格遵循既有分層結構。
第二,應用場景高度分化,基礎大模型正在向行業大模型演進。銀行的風控數據、車企的自動駕駛數據、醫學影像系統數據,每個場景對存儲的要求都不一樣:有的需要超高吞吐,有的需要極低延遲,有的需要在邊緣節點上實現高密度數據處理。
第三,系統容忍度顯著降低。當計算集群擴展至萬卡級規模時,任一環節的性能波動都可能拖慢整體訓練效率。與此同時,邊緣側原本受限的內存帶寬,還需匹配接近GPU級別的計算能力。存儲不再只是數據的承載介質,而成為影響數據流動效率、進而決定訓練與推理性能的關鍵因素。
在他看來,這種變化的根源,在于計算體系中心的遷移。
“過去是CPU在做調度,GPU只是執行單元;但現在,在AI系統里,GPU本身開始承擔調度角色。”他說,“如果數據還要經過CPU中轉,就相當于在兩條高速公路之間接了一座很窄的橋,這個環節會成為瓶頸。”
吳子寧博士用一個形象的比喻來說明這一變化:“一輛車即使最高速度很高,如果大部分時間處于等待狀態,發動機空轉,那么它的實際效率依然很低。”
在AI計算體系中,“等待”正成為日益突出的瓶頸。計算單元具備極高的算力,但數據往往滯留在存儲側——如果無法被高效調度至計算單元,就會導致算力資源閑置與浪費。
“存儲不僅要完成數據的持久化,還需要具備對數據進行高效組織與調度的能力。”吳子寧博士指出,“我們已經開始探索,在存儲側引入更智能的控制機制,對數據布局與訪問路徑進行優化。”
這一思路指向一個明確方向:存儲系統需要針對AI負載進行系統性優化。
過去幾年,行業已展開多路徑探索。例如,通過優化固件與FTL(Flash Translation Layer)算法,使SSD在高并發場景下保持穩定的延遲分布;通過重構主控架構,提升數據調度效率;以及借助CXL(Compute Express Link)協議擴展內存語義,使閃存在特定場景中承擔部分內存功能。
這些技術路徑最終匯聚為一個共同的產品方向——AI SSD,這是整個行業對同一核心問題的多元回應:當計算范式發生變化,存儲體系如何協同演進?
在吳子寧博士看來,一項技術是否值得投入,可以從三個維度判斷:技術合理性、商業可行性與生態兼容性。
以此衡量AI SSD,其可行性便清晰起來——
技術層面,AI負載對存儲提出了傳統SSD難以滿足的新要求,針對性優化是解決“算力等數據”痛點的必要路徑;
商業層面,AI SSD在成熟閃存與主控技術基礎上演進,能夠復用現有供應鏈,具備大規模部署的成本基礎;
生態層面,它延續PCIe/NVMe等標準接口與協議,與現有計算體系保持兼容,能夠被平滑接納。
從這個角度看,AI SSD的出現具有內在必然性——它并非對現有體系的顛覆,而是在既有架構基礎上,針對新型負載特征進行的系統性優化。
正如當年閃存逐步取代小尺寸機械硬盤——技術進步提供了替代能力,而應用需求則明確了替代方向。
在這一過程中,能夠深入理解AI負載特征,并據此構建差異化存儲方案的廠商,將更有可能在下一輪系統級重構中占據有利位置。
2025年,這場“系統重排”已經拉開序幕。
從鎧俠公布AI SSD中長期路線圖,到三星、海力士、美光陸續推出針對AI場景優化的超高速顆粒產品;從FMS存儲峰會上多家廠商的同臺競技,到華為在上海發布“AI SSD,加速智能經濟涌現”——幾乎在同一時間點上,全球主要存儲廠商都在朝同一個方向發力。
當“AI SSD”成為行業共識,英韌必須回答一個更具體的問題:差異化路徑何在?
在英韌內部,對這個問題的思考始于對AI負載的拆解。AI并非單一應用,而是一組差異顯著的計算任務,大致可以歸納為三類典型負載形態。
第一種是訓練。大模型訓練的特征是持續、穩定且高帶寬的數據流動,樣本被反復讀取、重排與迭代,這個場景對順序吞吐能力高度敏感,但對極端微秒級延遲的要求相對次要。穩定的大規模供給,比瞬時極限性能更重要。
第二種是推理,這是變化最劇烈的部分。推理階段的數據訪問呈現高度碎片化特征,包括大量小塊隨機讀寫、KV Cache頻繁交換以及向量索引調用。此時,存儲從“批量搬運”轉變為“實時響應”,系統性能對尾延遲高度敏感,一旦尾延遲失控,將直接影響整體服務質量。
第三種是數據歸集與管理。隨著模型規模擴大,數據留存、分層與生命周期管理成為剛性需求。該場景對延遲的要求相對寬松,但對容量密度與單位成本極為敏感,需要在規模與成本之間取得平衡。
這三類負載之間,并不存在一個能夠同時最優覆蓋的統一設計方案。
因此,英韌的策略是針對不同負載特征,設計具備差異化能力的主控架構與產品組合。
在通用訓練場景中,采用TLC NAND的“洞庭-N3”更強調帶寬與穩定性的平衡,順序讀取帶寬在14.5GB/s以上,隨機讀取能力約3.4M IOPS,適合作為訓練集群中的常規數據層。
針對容量敏感型場景,則引入基于QLC NAND的“洞庭-N3Q”。在更高存儲密度的前提下,通過控制器與糾錯機制優化,將單盤容量提升至64TB,同時維持超過14GB/s的順序讀取水平,用于降低單位容量成本。
而在對響應時間更敏感的推理側,則采用“洞庭-N3X”這一低時延方案。該產品結合XL-Flash與SLC NAND,在隨機訪問下可實現約13微秒讀取延遲、4微秒寫入延遲,隨機讀取性能超過3.5M IOPS,隨機寫入性能可達1.6M IOPS,且具備最高100 DWPD的耐用性,更適合高并發、小請求場景。
該產品的實際表現,近期已獲得第三方測試驗證。
英韌的洞庭-N3X參加了ODCC AI存儲實驗室“面向AI推理場景KV Cache的數據存儲測試項目”,SSD能支持GPU Direct Storage (GDS),采用GPU直接調度的方式,構建“以存代算”的第三級緩存。
實測數據顯示:采用英韌科技AI SSD(洞庭-N3X)后,能夠有效打破“內存墻”,讓數據更快供給 GPU,H20平臺的系統吞吐量提升約12倍,RTX 6000D平臺的系統吞吐量提升約20倍。在10K輸入長度下,原生架構由于需要重新計算或處理顯存溢出,存在一定延遲,但采用N3X后,首Token延遲可從數秒級縮短至毫秒級。隨著輸入長度從100 tokens增加到100K tokens,存儲壓力呈線性甚至指數級增長,而輸入文本越長,N3X對系統換入換出效率的提升效果越明顯。
這一結果表明:當AI負載規模跨越特定閾值后,存儲將從輔助角色轉變為關鍵性能變量;而針對推理場景深度優化的AI SSD,可以顯著改變系統整體效率。
在英韌看來,這三類產品的劃分并非傳統意義上的“高、中、低端”區隔,而是對不同數據訪問模式的針對性響應,是基于負載模型推導的工程結果,而非簡單的參數堆疊。
真正的挑戰,在于如何在系統層面實現這些差異化能力的協同。
隨著接口標準持續演進——從PCIe 4.0到5.0,并邁向即將到來的6.0——SSD不僅需要提升物理帶寬能力,更需要同步增強主控的并發調度與隊列管理能力。否則,底層介質性能的提升將難以轉化為系統級收益。
“必須抓住每一代接口升級的窗口期。”吳子寧博士也強調,更具挑戰性的部分在于內部架構的重構:在高并發場景下如何避免隊列阻塞?如何有效控制尾延遲?如何在不同介質特性之間實現負載均衡?
這些問題,最終都指向一個具體的性能目標。
“要把吞吐量從現在的300萬IOPS,在兩年后提升至1億IOPS,這相當于接近兩個數量級的躍升。”吳子寧博士進一步闡釋道,“單靠更先進的芯片制程,無法支撐這一量級的性能跨越,關鍵在于架構層面的重構。我們需要在數據調度路徑上實現更精細的優化與更高的效率,推動介質層與接口層之間的深度協同,將數據從存儲介質到主機接口的整條通路壓縮至最短,從而在根本上降低訪問延遲。”
這些問題,構成了AI SSD主控芯片的研發關鍵。
圍繞“內部架構重排”,英韌的探索正在延伸至下一代產品。
2026年,英韌計劃推出PCIe Gen6的新一代產品,將融合下一代NVMe與CXL雙協議,在帶寬實現翻倍的同時,512B隨機讀取性能有望達到千萬IOPS量級。
其中,CXL(Compute Express Link)尤為關鍵。該協議通過引入內存語義,實現高速互聯,構建更大的存儲池。從更廣義角度看,這一方向正指向“存算一體”的演進路徑——即更高效地將數據從存儲側調度至計算側。
“這不僅是硬件問題,軟件體系同樣在同步演進。”吳子寧博士指出。
與此同時,英韌也在和顆粒原廠開展更深度的合作——因為無論主控多強,沒有好的介質配合,一切都無從談起。
從PCIe 3.0到5.0,再到即將到來的6.0;從TLC到QLC,再到XL-FLASH與SLC的協同;從單一的SSD主控,到NVMe與CXL雙協議的融合——英韌的技術路線,始終圍繞同一個核心問題展開:當數據的調度和使用方式變了,存儲該如何重新設計?
對于英韌當前的產品方向,吳子寧博士在對話中表示:“大方向需要通過經驗與市場反饋來校準,避免戰略性錯誤;而在具體路徑上,則必須持續迭代與修正。”
這個態度,或許比任何產品參數都更能說明問題——在AI帶來的新一輪“系統重排”中,沒有人能預知終點。唯一能做的,是在變化中不斷調整自己的位置。
(本文作者長期關注存儲行業,對周期波動與企業分化有持續追蹤,歡迎添加微信 EATINGNTAE 交流探討。)
雷峰網(公眾號:雷峰網)雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。