不是GPU的IPU，為什么更值得英偉達(dá)警惕？

本文作者：包永剛

2020-08-03 15:30

導(dǎo)語：在超大規(guī)模數(shù)據(jù)中心，Graphcore和英偉達(dá)將會(huì)正面競(jìng)爭(zhēng)。

2020年7月30日，MLPerf組織發(fā)布第三個(gè)版本MLPerf Training v0.7基準(zhǔn)測(cè)試（Benchmark）結(jié)果。英偉達(dá)基于5月最新發(fā)布的A100 Tensor Core GPU構(gòu)建的DGX SuperPOD系統(tǒng)在性能上打破了8個(gè)記錄，這為不少想要打造比英偉達(dá)更好GPU的AI芯片公司增加了難度。

相比而言，7月15日Graphcore發(fā)布的第二代IPU GC200更值得英偉達(dá)警惕。其中的原因，當(dāng)然不是簡(jiǎn)單因?yàn)橥瑸榕_(tái)積電7nm工藝的第二代IPU比英偉達(dá)A100 GPU晶體管密度大10%。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

而是，Graphcore的第二代IPU在多個(gè)主流模型上的表現(xiàn)優(yōu)于A100 GPU，兩者將在超大規(guī)模數(shù)據(jù)中心正面競(jìng)爭(zhēng)。未來，IPU可能在一些新興的AI應(yīng)用中展現(xiàn)出更大的優(yōu)勢(shì)。

多維度對(duì)比GPU，IPU有最高100倍性能提升

目前，AI的應(yīng)用主要還是集中在計(jì)算機(jī)視覺（CV）。就CV而言，以谷歌最新發(fā)布的EfficientNet模型的Benchmarks（基準(zhǔn)測(cè)試）來看，推理性能IPU吞吐量可以達(dá)到GPU的15倍，訓(xùn)練也有7倍的性能提升。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

在ResNet的改進(jìn)模型ResNeXt-101的推理中，IPU可以帶來7倍吞吐量的提升，同時(shí)時(shí)延降低了約24倍。在ResNeXt-50模型的一個(gè)訓(xùn)練中，IPU的吞吐量比GPU提升 30%左右。

另外，在目前最流行的NLP模型BERT-Base中，進(jìn)行推理時(shí)相同時(shí)延IPU可以有2倍的吞吐量，訓(xùn)練時(shí)間減少25%到36.3小時(shí)左右，同時(shí)可以降低20%的功耗。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

在概率模型中，IPU同樣有優(yōu)勢(shì)，在MCMC的一個(gè)訓(xùn)練模型中，IPU比GPU有15倍的性能提升，縮短15倍的訓(xùn)練時(shí)間。在VAE的精度訓(xùn)練模型中，可以達(dá)到4.8倍的性能提升，縮短4.8倍的訓(xùn)練時(shí)間。

還有，目前比較受關(guān)注的銷售預(yù)測(cè)和推薦模型。IPU在用在做銷售數(shù)據(jù)分析的MLP模型訓(xùn)練中相比GPU有最高6倍的性能提升，在用于推薦的Dense Autoencoder模型訓(xùn)練性能有2.5倍提升。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

如果是在IPU更擅長(zhǎng)的分組卷積內(nèi)核中，組維度越少，IPU的性能優(yōu)勢(shì)越明顯，總體而言，有4-100倍的吞吐量提升。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

IPU的三大技術(shù)突破

從IPU與GPU在當(dāng)下AI應(yīng)用的多個(gè)維度對(duì)比中，已經(jīng)可以看到IPU的優(yōu)勢(shì)，這與Graphcore的計(jì)算、數(shù)據(jù)、通信三大關(guān)鍵技術(shù)突破密切相關(guān)。

Graphcore最新發(fā)布的第二代IPU Colossus Mk2 GC200算力核心從1216個(gè)提升到1472個(gè)獨(dú)立的IPU-Tiles的單元，共有8832個(gè)可以并行執(zhí)行的線程。In-Processor-Memory從上一代的300MB提升到900MB。每個(gè)IPU的Memory帶寬為47.5TB/s。

還包含了IPU-Exchange以及PCI Gen4跟主機(jī)交互的一個(gè)接口；以及IPU-Links 320GB/s的一個(gè)芯片到芯片的互聯(lián)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

計(jì)算

選用三個(gè)典型的應(yīng)用場(chǎng)景從計(jì)算層面對(duì)比第二代和第一代IPU，BERT-Large的訓(xùn)練有9.3倍性能的提升，3層BERT推理有8. 5倍的性能提升，EfficientNet-B3有7.4 倍的性能提升。第二代IPU相比第一代IPU有兩倍峰值算力的提升，在典型的CV還有NLP的模型中，第二代IPU相比第一代IPU則展現(xiàn)出了平均8倍的性能提升。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

這樣的性能提升很重要的是處理器內(nèi)部存儲(chǔ)從300MB提升到了900MB。Graphcore中國區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭對(duì)雷鋒網(wǎng)表示，“我們?cè)谒懔诵牡奈⒓軜?gòu)上做了一些調(diào)整，每個(gè)IPU-Tiles的性能本身就會(huì)更強(qiáng)，總體實(shí)現(xiàn)2倍的峰值性能提升。在有效算力方面，處理器內(nèi)存儲(chǔ)從300M提升到900M，可以為性能帶來較大的提升。”

MK2 IPU增加的處理器內(nèi)存儲(chǔ)主要是用于供我們模型的激活、權(quán)重的一些存儲(chǔ)空間。因?yàn)樘幚砥鲀?nèi)存儲(chǔ)的程序所占的空間與第一代IPU基本相同，所以增加的供算法模型可用的權(quán)重和激活的有效存儲(chǔ)容量有6倍以上。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

但是，300M的處理器內(nèi)存儲(chǔ)本身就挑戰(zhàn)很大，提升到900M面臨著怎樣的挑戰(zhàn)？羅旭指出，“要讓MK2支持8000個(gè)超線程并行一起工作，并且保證其線性度和各方面性能都要好，這個(gè)是非常復(fù)雜的一個(gè)技術(shù)，我們是利用BSP這一套軟件+硬件+編譯的機(jī)制，來保障性能能夠提升。軟件層面主要的挑戰(zhàn)是對(duì)新模式的支持，所以我們的軟件Poplar SDK要不斷迭代。“

如果對(duì)比英偉達(dá)基于8個(gè)最新A100 GPU的DGX-A100，Graphcore 8個(gè)M2000組成的系統(tǒng)的FP32算力是DGX-A100的12倍，AI計(jì)算是3倍，AI存儲(chǔ)是10倍。價(jià)格上，IPU-M2000需要花費(fèi)25.96萬美元，DGX-A100需要19.9萬美元。Graphcore有一定的性價(jià)比優(yōu)勢(shì)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

如果從應(yīng)用的角度，在EfficientNet-B4的圖象分類訓(xùn)練中，8個(gè)IPU-M2000（在1U的盒子里集成4個(gè)GC200 IPU）的性能等同于16個(gè)DGX-A100，這時(shí)候就能體現(xiàn)出10倍以上的價(jià)格優(yōu)勢(shì)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

數(shù)據(jù)

數(shù)據(jù)方面，Graphcore提出了IPU Exchange Memory的交換式存儲(chǔ)概念，相比英偉達(dá)當(dāng)前使用的HBM技術(shù)，IPU- M2000每個(gè)IPU-Machine通過IPU-Exchange-Memory技術(shù)，可以提供近100倍的帶寬以及大約10倍的容量，這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

計(jì)算加上數(shù)據(jù)的突破可以讓IPU在原生稀疏計(jì)算中展現(xiàn)出領(lǐng)先IPU 10-50倍的性能優(yōu)勢(shì)。在數(shù)據(jù)以及計(jì)算密集的情況下，GPU表現(xiàn)非常好，但是隨著數(shù)據(jù)稀疏性的增強(qiáng)，到了數(shù)據(jù)稀疏以及動(dòng)態(tài)稀疏時(shí)，IPU就有了比GPU越來越顯著的優(yōu)勢(shì)。

Graphcore高級(jí)副總裁兼中國區(qū)總經(jīng)理盧濤說：“現(xiàn)在一些全球領(lǐng)先的研究，像NLP方面，大家開始來探索一些像sparse NLP的算法模型。我們的技術(shù)對(duì)很多超大規(guī)模的AI模型非常有幫助。”

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

通信

通信也是目前數(shù)據(jù)中心大規(guī)模計(jì)算非常關(guān)鍵的問題。為此，Graphcore專為為AI橫向擴(kuò)展設(shè)計(jì)了IPU-Fabric。IPU-Fabric可以做到2.8Tbps超低延時(shí)的結(jié)構(gòu)，同時(shí)最多可以支持64000個(gè)IPU之間的橫向擴(kuò)展。

盧濤介紹，IPU-Fabric是由三種網(wǎng)絡(luò)一起組成，第一種是IPU-Link，第二種叫IPU Gateway Link，第三種是IPU over Fabric。IPU-Link是在一個(gè)機(jī)架（rack）之內(nèi)提供在IPU之間的一個(gè)通訊的接口。IPU Gateway Link提供了機(jī)架和機(jī)架之間橫向擴(kuò)展之間的網(wǎng)絡(luò)。IPU over Fabric能夠把IPU的集群和x86的集群進(jìn)行非常靈活以及低延時(shí)、高性能組合起來的網(wǎng)絡(luò)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

將計(jì)算、數(shù)據(jù)、通信的突破結(jié)合在一起，就可以用于構(gòu)建大規(guī)模可擴(kuò)展的IPU-POD系統(tǒng)。一個(gè)用于超算規(guī)模的IPU-POD的形態(tài)是一個(gè)IPU-POD₆₄，這是IPU-POD的一個(gè)基本組件，每個(gè)IPU-POD₆₄的機(jī)柜里面總共有64顆IPU，提供16PFlops的算力、58GB的In-Processor-Memory，總共達(dá)到了7個(gè)TB的流存儲(chǔ)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

因此，在IPU-POD中間非常重要的是把AI的計(jì)算跟邏輯的控制進(jìn)行了解耦，讓系統(tǒng)易于部署，網(wǎng)絡(luò)延時(shí)非常低，能夠支持非常大型的一個(gè)算法模型，以及非常安全的多住戶的使用。

盧濤表示，“IPU-Fabric最高支持64000個(gè)IPU-POD組成的集群，總共能提供16 EFlops FP16的算力。日本前一陣發(fā)布的超算是0.5 EFlops算力。而我們基于64000個(gè)IPU總共可以組建16個(gè)EFlops算力，這非常驚人。”

Graphcore為什么值得英偉達(dá)關(guān)注？

“目前超大規(guī)模IPU-POD技術(shù)主要的應(yīng)用場(chǎng)景還是大規(guī)模AI訓(xùn)練，包括自然語言處理以及機(jī)器視覺的應(yīng)用，IPU-POD都有優(yōu)勢(shì)。”盧濤指出，“譬如說做一個(gè)模型的訓(xùn)練， GPU的性能是1，可能一個(gè)單機(jī)有8張卡，性能比0.7高。但如果把場(chǎng)景擴(kuò)展到1000個(gè)GPU或者幾千個(gè)GPU，性能可能會(huì)下降到0.7、0.6，好一點(diǎn)可能到0.8，而超大規(guī)模的IPU-POD很重要的是要幫助大家解決大規(guī)模集群可擴(kuò)展性的問題。

另外，從功耗的角度看，不同的場(chǎng)景會(huì)有一些差別。總體來看，單片 M2000 的整機(jī)系統(tǒng)功耗為 1.1KW，折合到每顆IPU處理器的性能功耗比 0.9TFlops/W，在同類面向數(shù)據(jù)中心高性能AI計(jì)算的產(chǎn)品中，比A100 GPU的0.7TFlops/W，華為Ascend 910的 0.71TFlops/W的能效比都高一些。

也就是說，在大規(guī)模數(shù)據(jù)中心，Graphcore將會(huì)與英偉達(dá)進(jìn)行正面的競(jìng)爭(zhēng)。雷鋒網(wǎng)認(rèn)為，相比于來自類GPU的競(jìng)爭(zhēng)，英偉達(dá)不應(yīng)該忽視Graphcore的IPU，特別是Graphcore一直都在強(qiáng)調(diào)其是為AI而生，面向的應(yīng)用也是CPU、GPU不那么擅長(zhǎng)的AI應(yīng)用。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

這從Graphcore的軟件以及生態(tài)建設(shè)中也能看出。IPU作為一款通用處理器能夠同時(shí)支持訓(xùn)練和推理也提供統(tǒng)一的軟件平臺(tái)。最新的POPLAR SDK1.2有三個(gè)特性：第一，會(huì)與比較先進(jìn)的機(jī)器學(xué)習(xí)框架做好集成。第二，進(jìn)一步開放低級(jí)別的API，讓開發(fā)者針對(duì)網(wǎng)絡(luò)的性能做一些特定的調(diào)優(yōu)。第三，增加框架支持，包括對(duì)PyTorch和Keras的支持，還優(yōu)化了卷積庫和稀疏庫。

另外，通過支持全面的開發(fā)框架的三個(gè)主流操作系統(tǒng)ubuntu、RedHat、CentOS，降低開發(fā)者的使用難度，同時(shí)通過進(jìn)一步開放低級(jí)別API，開源POPLAR PopLibs源代碼。這些工作，正是想要讓開發(fā)者利用IPU去創(chuàng)新，在新的應(yīng)用領(lǐng)域構(gòu)建IPU的競(jìng)爭(zhēng)優(yōu)勢(shì)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

更進(jìn)一步，Graphcore面向商業(yè)用戶、高校及研究機(jī)構(gòu)、個(gè)人開發(fā)者都提供不同時(shí)長(zhǎng)的免費(fèi)IPU使用。在國內(nèi)，Graphcore IPU開發(fā)者云部署在金山云上，這里面使用了三種IPU產(chǎn)品，一種是IPU-POD₆₄，還有浪潮的IPU服務(wù)器（NF5568M5），以及戴爾的IPU服務(wù)器（DSS8440）。

雷鋒網(wǎng)了解到，目前申請(qǐng)使用Graphcore IPU開發(fā)者云的主要是商業(yè)用戶和高校，個(gè)人研究者比較少。

IPU開發(fā)者云支持當(dāng)前一些最先進(jìn)和最復(fù)雜的AI算法模型的訓(xùn)練和推理。比如，高級(jí)計(jì)算機(jī)視覺類主要以分組卷積為代表的一些機(jī)器視覺的應(yīng)用模型，像ResNeXt、EfficientNet等。基于時(shí)序分析類的應(yīng)用，像LSTM、GRU等大量應(yīng)用在自然語音應(yīng)用、廣告推薦、金融算法等方面的模型。排名和推薦類像Deep Autoencoder，在概率模型方面，基于MCMC的一些算法交易的模型方面都有非常好的一些表現(xiàn)。

不是GPU的IPU，為什么更值得英偉達(dá)警惕？

盧濤表示：“Graphcore找到了自己的賽道，我們首要思考的是IPU如何幫助客戶與合作伙伴解決他們目前使用CPU或者GPU上解決不了的問題。從全球看，我們最快落地的應(yīng)用還是在超大規(guī)模數(shù)據(jù)中心，在金融、醫(yī)療健康領(lǐng)域進(jìn)展非常大。”

還有一個(gè)影響IPU大規(guī)模商用非常關(guān)鍵的問題，片內(nèi)存儲(chǔ)高達(dá)900M的第二代IPU良率的成本如何？盧濤對(duì)雷鋒網(wǎng)表示，“成本分為幾個(gè)部分，包括人員、工具、IP、流片成本。所以要考慮兩個(gè)部分。第一部分，芯片生產(chǎn)的BOM成本，這部分基本是固定的。所以，第二部分的良率就是非常重要，我們從第一代產(chǎn)品到第二代產(chǎn)品都采用分布式存儲(chǔ)架構(gòu)，就會(huì)非常好地控制產(chǎn)品的良率，所以即使是900M處理器內(nèi)存儲(chǔ)，也不會(huì)對(duì)成本產(chǎn)生特別大的影響。”

不是GPU的IPU，為什么更值得英偉達(dá)警惕？