0
| 本文作者: 楊依婷 | 2026-05-29 17:31 |
一個算力生態(tài)從“能用”到“好用易用”,中間隔著什么?
過去幾年,國產(chǎn)AI算力行業(yè)長期存在一種割裂:硬件參數(shù)不斷刷新,但是當開發(fā)者真正落地時,大量時間卻依然消耗在環(huán)境配置、異構(gòu)遷移、算子適配和反復(fù)踩坑上。
隨著大模型訓(xùn)練進入千卡級協(xié)同、科學(xué)計算走向長周期穩(wěn)定運行,這種割裂的代價被進一步放大了——開發(fā)效率本身,開始成為衡量算力平臺競爭力的重要指標。
在最近的鯤鵬昇騰開發(fā)者圓桌上,一個很有意思的現(xiàn)象是,無論是做高性能計算的清華團隊和中科大團隊,還是做大模型預(yù)訓(xùn)練的AIGCode,他們談?wù)撟疃嗟模疾皇切酒瑓?shù),而是開發(fā)效率。
有人提到,過去遷移異構(gòu)平臺往往需要幾個月,現(xiàn)在一周就能完成;有人提到,過去大量時間被消耗在硬件適配、環(huán)境配置和反復(fù)踩坑上,現(xiàn)在終于能把精力重新放回算法本身;還有人提到,過去很多問題必須等待廠商排期解決,現(xiàn)在開發(fā)者自己就能在社區(qū)里找到方案,甚至直接參與生態(tài)共建。
這些變化看似零散,但背后其實指向同一件事:鯤鵬昇騰生態(tài),正在從“能用”進入“好用易用”的新階段。
衡量“好用易用”的標準,從來不是發(fā)布會上的參數(shù)表,而是開發(fā)者實際感知到的工程摩擦是否正在減小。也正是在這個意義上,這些開發(fā)者的體驗,成為觀察國產(chǎn)算力生態(tài)演進的一組關(guān)鍵樣本。
過去幾年,AI行業(yè)出現(xiàn)了一個越來越明顯的變化:模型迭代越來越快,決定落地速度的關(guān)鍵,正從算法轉(zhuǎn)向算力基礎(chǔ)設(shè)施的工程能力。尤其在高性能計算領(lǐng)域,這種變化被進一步放大。
清華大學(xué)地球系統(tǒng)模擬團隊對此深有體會。
他們所做的工作,是用AI替代傳統(tǒng)大氣模擬中的經(jīng)驗估算環(huán)節(jié),把全球大氣模擬分辨率推進至公里級,讓極端天氣的模擬精度真正逼近實用價值。
這個方向的科學(xué)價值毋庸置疑,但問題在于:當分辨率提升一個量級之后,背后對應(yīng)的計算復(fù)雜度,往往會呈指數(shù)級增長。
大氣模擬本質(zhì)上是一個超長時間連續(xù)積分過程,一次完整計算往往持續(xù)數(shù)天甚至更久,中間任何一次軟硬件異常,都可能導(dǎo)致整個任務(wù)重來。相比互聯(lián)網(wǎng)業(yè)務(wù)里常見的“失敗重試”,科學(xué)計算更像是在一根極長的鋼絲上行走——很多任務(wù)沒有“回滾重開”的余地。
更復(fù)雜的問題來自精度。
一個氣候結(jié)果的背后,可能是數(shù)億次浮點運算的累計結(jié)果。單次誤差或許微不足道,但經(jīng)過長時間迭代之后,誤差會像滾雪球一樣被不斷放大。
這也是為什么高性能計算領(lǐng)域始終強調(diào)混合精度、數(shù)值穩(wěn)定性、通信一致性。
但相比計算本身,更隱蔽的消耗,其實來自工程生態(tài)的不成熟
過去很長一段時間里,國內(nèi)算力生態(tài)整體仍處于早期階段,硬件迭代速度遠快于軟件生態(tài)成熟速度。很多平臺雖然已經(jīng)能用,但開發(fā)工具鏈、編譯器、異構(gòu)調(diào)度、通信框架以及社區(qū)經(jīng)驗仍不完善,科研團隊很難從一開始就完成系統(tǒng)級優(yōu)化。
于是,大量團隊只能先讓程序“跑起來”,再進入漫長的適配和調(diào)優(yōu)階段。
這意味著,科學(xué)研發(fā)與工程優(yōu)化長期處于割裂狀態(tài):先解決科學(xué)問題,再回頭填工程的坑。
代價是巨大的:團隊大量精力被消耗在底層環(huán)境適配與反復(fù)踩坑上,真正的算法創(chuàng)新卻始終處于一種“排隊等待”的狀態(tài)。
"鯤鵬讓科研者的精力回到科研本身,不用在硬件適配上反復(fù)踩坑。"這是清華團隊王一鳴對鯤鵬最直接的評價。
這句話背后,其實對應(yīng)著一種開發(fā)理念的轉(zhuǎn)變:團隊不再遵循“先解決科學(xué)問題,再做性能優(yōu)化”的傳統(tǒng)模式,而是在代碼設(shè)計階段就開始將硬件特性、并行方式一并納入考量——科學(xué)研發(fā)與工程優(yōu)化,從“前后接力”變成了“并行推進”。
理念轉(zhuǎn)變的前提,是平臺本身能把“坑”填平。
過去很長時間里,高性能計算平臺最大的難點之一,就是軟件生態(tài)的碎片化。很多科研團隊遷移代碼時,耗時往往不在算法,而在底層依賴適配:編譯鏈重配、通信庫重裝、指令集兼容、框架重寫,一層套一層。
而鯤鵬做了一件很關(guān)鍵的事情——盡可能保持開發(fā)環(huán)境的連續(xù)性。
王一鳴表示,很多主流氣象軟件和依賴庫在鯤鵬平臺上的兼容度已經(jīng)很高,“加載幾個庫基本就能跑”,大量代碼不需要大規(guī)模重構(gòu),就能完成初步遷移。
這種差異,在中科大團隊身上體現(xiàn)得更加明顯。
研究員陳俊仕提到,過去遷移到異構(gòu)平臺,周期往往以月為單位,遷移完成后還要重新做性能優(yōu)化,但遷移到鯤鵬平臺,一周左右就能完成。
遷移效率差異的背后,本質(zhì)上是開發(fā)復(fù)雜度的差異。
目前主流高性能計算系統(tǒng)采用CPU+GPU異構(gòu)模式,多套指令集并存,開發(fā)者往往需要不斷處理CPU與加速器之間的數(shù)據(jù)搬運與協(xié)同問題。很多時候,一個原本只占較少耗時的CPU函數(shù),在應(yīng)用遷移到GPU后,可能會迅速成為新的性能瓶頸,開發(fā)者不得不反復(fù)重構(gòu)并行邏輯。
而鯤鵬選擇了盡可能降低這種異構(gòu)復(fù)雜性,將更多性能釋放建立在通用計算架構(gòu)之上。對于開發(fā)者而言,變化最直接的一點是:大量原有代碼無需重寫就能直接運行,工作的重心開始從“搬運代碼”重新回到“性能調(diào)優(yōu)”。
這種變化,最終轉(zhuǎn)化為了更實際的性能收益。
陳俊仕提到,通過構(gòu)造更大的矩陣塊,并結(jié)合NUMA(非同一內(nèi)存訪問)感知的內(nèi)存分配策略,團隊的新算法相比傳統(tǒng)方法實現(xiàn)平均40多倍加速,部分場景接近200倍。
而對于氣象科學(xué)這類高精度、長周期計算場景,這種“少踩坑”的意義更加明顯。
清華團隊遷移到鯤鵬后,最直觀的感受之一,就是大規(guī)模長周期作業(yè)的穩(wěn)定性顯著提升,斷點續(xù)跑機制也更加成熟。
此外,鯤鵬還提供了適配主流氣象開發(fā)語言的編譯器、數(shù)學(xué)庫和性能調(diào)優(yōu)工具,讓團隊能夠在一個體系完整、反饋高效的平臺上快速調(diào)試參數(shù)、驗證模型。當?shù)讓佑嬎愕目煽啃杂辛吮U希芯咳藛T就不再需要反復(fù)排查計算誤差的來源,而是能夠把更多精力重新放回模型本身。
社區(qū)的成熟度也在同步降低這種開發(fā)的阻力。在鯤鵬生態(tài)中,大部分常見問題都能從社區(qū)資料中找到可復(fù)用的經(jīng)驗;更復(fù)雜的問題,社區(qū)工程師的響應(yīng)速度也足夠快,開發(fā)者終于不用再長期陷在底層工程細節(jié)里。
當開發(fā)者不再被硬件適配消耗,性能優(yōu)化的重心,也開始重新回到算法創(chuàng)新本身。
不過,鯤鵬在做的事情,并不只是解決"當下"的問題。
當AI基礎(chǔ)設(shè)施的戰(zhàn)場從"模型訓(xùn)練"向"Agent規(guī)模化落地"遷移,Token與內(nèi)存消耗、沙箱啟動速度、多Agent協(xié)同時的數(shù)據(jù)安全正在成為Agent進入產(chǎn)業(yè)場景之前的新一道"基礎(chǔ)設(shè)施門檻"。
鯤鵬超節(jié)點架構(gòu)的設(shè)計,恰好為這一趨勢提供了系統(tǒng)級支持。基于靈衢互聯(lián),超節(jié)點通過大帶寬、低時延把分散的服務(wù)器集群組織成統(tǒng)一協(xié)同的計算系統(tǒng)——Token開銷可降低約50%,沙箱百毫秒級啟動,基于CCA架構(gòu)的機密計算則補上安全側(cè)的短板。開發(fā)者不需要切換一套工具鏈,就能從大模型訓(xùn)練直接走到Agent部署。
如果說鯤鵬解決的是“讓開發(fā)者少被遷移與適配消耗”,那么昇騰面對的,則是另一個更復(fù)雜的問題:當大模型訓(xùn)練進入千卡級協(xié)同之后,算力競爭開始從“有沒有卡”,轉(zhuǎn)向“能不能把卡真正跑滿”。
2024年初,AIGCode團隊的陳秋武在昇騰上一代產(chǎn)品上做大模型預(yù)訓(xùn)練時,整個CANN生態(tài)在他眼中還是一片“荒漠”——算子覆蓋率低,自研網(wǎng)絡(luò)結(jié)構(gòu)的適配需要排期三到四個月,團隊不得不投入大量精力去填補生態(tài)的空白。
但這種變化的速度,比他們預(yù)想得更快。
大約8個月后,CANN生態(tài)覆蓋率已經(jīng)從不足三成躍升至80%到90%,“這個迭代速度讓我非常驚訝”,陳秋武直言。
再到現(xiàn)在,問題已經(jīng)變成“第一可解,第二不用排期,自己技術(shù)范圍內(nèi)就能解決”。他給出了一個形象的比喻:“2024年初是嬰兒期,現(xiàn)在有點像青年期。”
如今,AIGCode團隊已經(jīng)在昇騰平臺完成了MoE模型預(yù)訓(xùn)練優(yōu)化,算力利用率達到65%,接近行業(yè)平均水平的兩倍。
用陳秋武的話說,“一張卡可以當兩張卡用”。
而65%這個數(shù)字,是用系統(tǒng)工程優(yōu)化換來的,而非堆卡堆出來的。
陳秋武拆解了這背后的路徑:核心在于通信與計算的協(xié)同調(diào)度。依托昇騰超節(jié)點架構(gòu),團隊能夠?qū)⑶Э壖旱耐ㄐ排c計算指令做到精細的并行掩蓋,最大限度壓縮芯片空閑窗口;同時為實現(xiàn)裝滿瓶子,先遵循“大的塊MHA先裝到瓶子里,再用小的塊GDN填滿”的方法,結(jié)合in_proj、激活函數(shù)等小算子做融合,最后QKV重組零拷貝。進一步提升計算資源利用率。
而這背后,對應(yīng)的正是CANN生態(tài)工程能力的快速成熟:預(yù)置1500余個基礎(chǔ)算子與100余個融合算子,提供Ascend C、PyPTO等多種算子編程范式,并兼容Triton、TileLang等業(yè)界主流編程框架,深度對接90余家主流開源社區(qū),實現(xiàn)70余款國內(nèi)外主流大模型發(fā)布即適配;同時生態(tài)加大對開發(fā)者激勵的投入,設(shè)立2000萬生態(tài)創(chuàng)新激勵基金,扶持算子、加速庫等領(lǐng)域創(chuàng)新探索,投放10000卡算力資源,保障開源社區(qū)開發(fā)者的算力需求,從工具、算力到資金,共同構(gòu)成了一條從“可用”走向“好用易用”的演進路徑。
對此,圓桌主持人石侃表示:"CANN并不只是一個冷冰冰的組件,而是已經(jīng)成為了連接極致硬件和開發(fā)者無窮創(chuàng)造力的紐帶和橋梁。"向上兼容主流計算框架、向下屏蔽硬件復(fù)雜度,讓開發(fā)者用自己最熟悉的方式跑出最極致的性能——這正是CANN迭代至今最核心的設(shè)計哲學(xué)。
更重要的是,當這些技術(shù)能力開始轉(zhuǎn)化為開發(fā)者可感知的體驗時,一個更深層的變化開始出現(xiàn):開發(fā)者不再只是生態(tài)的“使用者”,而是開始成為“共建者”。
當開發(fā)者開始往生態(tài)里寫代碼,而不僅僅是跑代碼時,事情就變了。
清華大學(xué)、AIGCode、中科大——這些團隊不再只是跑模型、調(diào)參數(shù),而是開始往生態(tài)里寫代碼、填坑、修路。
清華團隊將基于鯤鵬平臺的項目經(jīng)驗沉淀為行業(yè)參考,為鯤鵬社區(qū)貢獻了氣象科學(xué)計算領(lǐng)域的最佳實踐;AIGCode則持續(xù)推進國產(chǎn)算力與自研模型之間的深度協(xié)同,希望打通從底層算力到模型訓(xùn)練的完整鏈路。
要知道,氣象模擬與高性能科學(xué)計算,向來是算力平臺能力的壓力測試場——長周期、高精度、對穩(wěn)定性幾乎零容忍,在對芯片的要求上,處于金字塔最靠近塔尖的位置。
這類團隊的選擇,歷來不看發(fā)布會,只看能不能在最苛刻的場景下穩(wěn)定交付。他們現(xiàn)在不僅"用",還開始往生態(tài)里"建",本身就是一種比任何評測數(shù)據(jù)都更有分量的背書。
而這,也正是一個生態(tài)開始自我驅(qū)動的標志。
截至目前,鯤鵬開發(fā)者已超過415萬,合作伙伴超過7000家,解決方案認證超過27000個;昇騰開發(fā)者超過410萬,合作伙伴超過3000家,解決方案認證超過6700個。這些數(shù)字背后,是無數(shù)個"清華團隊"、"中科大團隊"和"AIGCode"們每一次工程經(jīng)驗、優(yōu)化能力與代碼資產(chǎn)的持續(xù)沉淀。
衡量生態(tài)是否真正繁榮的標準,不只是開發(fā)者數(shù)量夠不夠多,更重要的是,是否有越來越多開發(fā)者愿意把自己的工程經(jīng)驗、優(yōu)化能力與代碼資產(chǎn)持續(xù)沉淀進生態(tài)之中。
當生態(tài)的飛輪真正轉(zhuǎn)動起來,開發(fā)者的每一次共建都在反哺生態(tài),降低后來者的門檻,鯤鵬、昇騰的計算產(chǎn)業(yè)生態(tài)也隨之繁榮起來。
在圓桌接近尾聲時,有人提了一個問題:如何用一句話概括你們選擇國產(chǎn)算力平臺的理由?
幾位開發(fā)者給出了各自不同的答案,但有一種共同的底色:不是沒有選擇,而是用過之后發(fā)現(xiàn)值得選。
一個算力生態(tài)真正走向成熟,或許不會在某一次發(fā)布會上被宣告,而是悄悄發(fā)生在開發(fā)者決定下次還選它的那一刻。
當越來越多的清華、中科大、AIGCode們把自己的代碼、經(jīng)驗和判斷押注在同一套生態(tài)之上,這場從"能用"到"好用易用"的轉(zhuǎn)變,或許就已經(jīng)越過了最難的那段坡。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。