• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    芯片 正文
    發(fā)私信給包永剛
    發(fā)送

    0

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    本文作者: 包永剛 2020-08-03 15:30
    導(dǎo)語:在超大規(guī)模數(shù)據(jù)中心,Graphcore和英偉達(dá)將會(huì)正面競(jìng)爭(zhēng)。

    2020年7月30日,MLPerf組織發(fā)布第三個(gè)版本MLPerf Training v0.7基準(zhǔn)測(cè)試(Benchmark)結(jié)果。英偉達(dá)基于5月最新發(fā)布的A100 Tensor Core GPU構(gòu)建的DGX SuperPOD系統(tǒng)在性能上打破了8個(gè)記錄,這為不少想要打造比英偉達(dá)更好GPU的AI芯片公司增加了難度。

    相比而言,7月15日Graphcore發(fā)布的第二代IPU GC200更值得英偉達(dá)警惕。其中的原因,當(dāng)然不是簡(jiǎn)單因?yàn)橥瑸榕_(tái)積電7nm工藝的第二代IPU比英偉達(dá)A100 GPU晶體管密度大10%。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    而是,Graphcore的第二代IPU在多個(gè)主流模型上的表現(xiàn)優(yōu)于A100 GPU,兩者將在超大規(guī)模數(shù)據(jù)中心正面競(jìng)爭(zhēng)。未來,IPU可能在一些新興的AI應(yīng)用中展現(xiàn)出更大的優(yōu)勢(shì)。

    多維度對(duì)比GPU,IPU有最高100倍性能提升

    目前,AI的應(yīng)用主要還是集中在計(jì)算機(jī)視覺(CV)。就CV而言,以谷歌最新發(fā)布的EfficientNet模型的Benchmarks(基準(zhǔn)測(cè)試)來看,推理性能IPU吞吐量可以達(dá)到GPU的15倍,訓(xùn)練也有7倍的性能提升。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    在ResNet的改進(jìn)模型ResNeXt-101的推理中,IPU可以帶來7倍吞吐量的提升,同時(shí)時(shí)延降低了約24倍。在ResNeXt-50模型的一個(gè)訓(xùn)練中,IPU的吞吐量比GPU提升 30%左右。

    另外,在目前最流行的NLP模型BERT-Base中,進(jìn)行推理時(shí)相同時(shí)延IPU可以有2倍的吞吐量,訓(xùn)練時(shí)間減少25%到36.3小時(shí)左右,同時(shí)可以降低20%的功耗。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    在概率模型中,IPU同樣有優(yōu)勢(shì),在MCMC的一個(gè)訓(xùn)練模型中,IPU比GPU有15倍的性能提升,縮短15倍的訓(xùn)練時(shí)間。在VAE的精度訓(xùn)練模型中,可以達(dá)到4.8倍的性能提升,縮短4.8倍的訓(xùn)練時(shí)間。

    還有,目前比較受關(guān)注的銷售預(yù)測(cè)和推薦模型。IPU在用在做銷售數(shù)據(jù)分析的MLP模型訓(xùn)練中相比GPU有最高6倍的性能提升,在用于推薦的Dense Autoencoder模型訓(xùn)練性能有2.5倍提升。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    如果是在IPU更擅長(zhǎng)的分組卷積內(nèi)核中,組維度越少,IPU的性能優(yōu)勢(shì)越明顯,總體而言,有4-100倍的吞吐量提升。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    IPU的三大技術(shù)突破

    從IPU與GPU在當(dāng)下AI應(yīng)用的多個(gè)維度對(duì)比中,已經(jīng)可以看到IPU的優(yōu)勢(shì),這與Graphcore的計(jì)算、數(shù)據(jù)、通信三大關(guān)鍵技術(shù)突破密切相關(guān)。

    Graphcore最新發(fā)布的第二代IPU Colossus Mk2 GC200算力核心從1216個(gè)提升到1472個(gè)獨(dú)立的IPU-Tiles的單元,共有8832個(gè)可以并行執(zhí)行的線程。In-Processor-Memory從上一代的300MB提升到900MB。每個(gè)IPU的Memory帶寬為47.5TB/s。

    還包含了IPU-Exchange以及PCI Gen4跟主機(jī)交互的一個(gè)接口;以及IPU-Links 320GB/s的一個(gè)芯片到芯片的互聯(lián)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    計(jì)算

    選用三個(gè)典型的應(yīng)用場(chǎng)景從計(jì)算層面對(duì)比第二代和第一代IPU,BERT-Large的訓(xùn)練有9.3倍性能的提升,3層BERT推理有8. 5倍的性能提升,EfficientNet-B3有7.4 倍的性能提升。第二代IPU相比第一代IPU有兩倍峰值算力的提升,在典型的CV還有NLP的模型中,第二代IPU相比第一代IPU則展現(xiàn)出了平均8倍的性能提升。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    這樣的性能提升很重要的是處理器內(nèi)部存儲(chǔ)從300MB提升到了900MB。Graphcore中國區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭對(duì)雷鋒網(wǎng)表示,“我們?cè)谒懔诵牡奈⒓軜?gòu)上做了一些調(diào)整,每個(gè)IPU-Tiles的性能本身就會(huì)更強(qiáng),總體實(shí)現(xiàn)2倍的峰值性能提升。在有效算力方面,處理器內(nèi)存儲(chǔ)從300M提升到900M,可以為性能帶來較大的提升。”

    MK2 IPU增加的處理器內(nèi)存儲(chǔ)主要是用于供我們模型的激活、權(quán)重的一些存儲(chǔ)空間。因?yàn)樘幚砥鲀?nèi)存儲(chǔ)的程序所占的空間與第一代IPU基本相同,所以增加的供算法模型可用的權(quán)重和激活的有效存儲(chǔ)容量有6倍以上。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    但是,300M的處理器內(nèi)存儲(chǔ)本身就挑戰(zhàn)很大,提升到900M面臨著怎樣的挑戰(zhàn)?羅旭指出,“要讓MK2支持8000個(gè)超線程并行一起工作,并且保證其線性度和各方面性能都要好,這個(gè)是非常復(fù)雜的一個(gè)技術(shù),我們是利用BSP這一套軟件+硬件+編譯的機(jī)制,來保障性能能夠提升。軟件層面主要的挑戰(zhàn)是對(duì)新模式的支持,所以我們的軟件Poplar SDK要不斷迭代。“

    如果對(duì)比英偉達(dá)基于8個(gè)最新A100 GPU的DGX-A100,Graphcore 8個(gè)M2000組成的系統(tǒng)的FP32算力是DGX-A100的12倍,AI計(jì)算是3倍,AI存儲(chǔ)是10倍。價(jià)格上,IPU-M2000需要花費(fèi)25.96萬美元,DGX-A100需要19.9萬美元。Graphcore有一定的性價(jià)比優(yōu)勢(shì)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    如果從應(yīng)用的角度,在EfficientNet-B4的圖象分類訓(xùn)練中,8個(gè)IPU-M2000(在1U的盒子里集成4個(gè)GC200 IPU)的性能等同于16個(gè)DGX-A100,這時(shí)候就能體現(xiàn)出10倍以上的價(jià)格優(yōu)勢(shì)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    數(shù)據(jù)

    數(shù)據(jù)方面,Graphcore提出了IPU Exchange Memory的交換式存儲(chǔ)概念,相比英偉達(dá)當(dāng)前使用的HBM技術(shù),IPU- M2000每個(gè)IPU-Machine通過IPU-Exchange-Memory技術(shù),可以提供近100倍的帶寬以及大約10倍的容量,這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    計(jì)算加上數(shù)據(jù)的突破可以讓IPU在原生稀疏計(jì)算中展現(xiàn)出領(lǐng)先IPU 10-50倍的性能優(yōu)勢(shì)。在數(shù)據(jù)以及計(jì)算密集的情況下,GPU表現(xiàn)非常好,但是隨著數(shù)據(jù)稀疏性的增強(qiáng),到了數(shù)據(jù)稀疏以及動(dòng)態(tài)稀疏時(shí),IPU就有了比GPU越來越顯著的優(yōu)勢(shì)。

    Graphcore高級(jí)副總裁兼中國區(qū)總經(jīng)理盧濤說:“現(xiàn)在一些全球領(lǐng)先的研究,像NLP方面,大家開始來探索一些像sparse NLP的算法模型。我們的技術(shù)對(duì)很多超大規(guī)模的AI模型非常有幫助。”

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    通信

    通信也是目前數(shù)據(jù)中心大規(guī)模計(jì)算非常關(guān)鍵的問題。為此,Graphcore專為為AI橫向擴(kuò)展設(shè)計(jì)了IPU-Fabric。IPU-Fabric可以做到2.8Tbps超低延時(shí)的結(jié)構(gòu),同時(shí)最多可以支持64000個(gè)IPU之間的橫向擴(kuò)展。

    盧濤介紹,IPU-Fabric是由三種網(wǎng)絡(luò)一起組成,第一種是IPU-Link,第二種叫IPU Gateway Link,第三種是IPU over Fabric。IPU-Link是在一個(gè)機(jī)架(rack)之內(nèi)提供在IPU之間的一個(gè)通訊的接口。IPU Gateway Link提供了機(jī)架和機(jī)架之間橫向擴(kuò)展之間的網(wǎng)絡(luò)。IPU over Fabric能夠把IPU的集群和x86的集群進(jìn)行非常靈活以及低延時(shí)、高性能組合起來的網(wǎng)絡(luò)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    將計(jì)算、數(shù)據(jù)、通信的突破結(jié)合在一起,就可以用于構(gòu)建大規(guī)模可擴(kuò)展的IPU-POD系統(tǒng)。一個(gè)用于超算規(guī)模的IPU-POD的形態(tài)是一個(gè)IPU-POD64,這是IPU-POD的一個(gè)基本組件,每個(gè)IPU-POD64的機(jī)柜里面總共有64顆IPU,提供16PFlops的算力、58GB的In-Processor-Memory,總共達(dá)到了7個(gè)TB的流存儲(chǔ)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    因此,在IPU-POD中間非常重要的是把AI的計(jì)算跟邏輯的控制進(jìn)行了解耦,讓系統(tǒng)易于部署,網(wǎng)絡(luò)延時(shí)非常低,能夠支持非常大型的一個(gè)算法模型,以及非常安全的多住戶的使用。

    盧濤表示,“IPU-Fabric最高支持64000個(gè)IPU-POD組成的集群,總共能提供16 EFlops FP16的算力。日本前一陣發(fā)布的超算是0.5 EFlops算力。而我們基于64000個(gè)IPU總共可以組建16個(gè)EFlops算力,這非常驚人。”

    Graphcore為什么值得英偉達(dá)關(guān)注?

    “目前超大規(guī)模IPU-POD技術(shù)主要的應(yīng)用場(chǎng)景還是大規(guī)模AI訓(xùn)練,包括自然語言處理以及機(jī)器視覺的應(yīng)用,IPU-POD都有優(yōu)勢(shì)。”盧濤指出,“譬如說做一個(gè)模型的訓(xùn)練, GPU的性能是1,可能一個(gè)單機(jī)有8張卡,性能比0.7高。但如果把場(chǎng)景擴(kuò)展到1000個(gè)GPU或者幾千個(gè)GPU,性能可能會(huì)下降到0.7、0.6,好一點(diǎn)可能到0.8,而超大規(guī)模的IPU-POD很重要的是要幫助大家解決大規(guī)模集群可擴(kuò)展性的問題。

    另外,從功耗的角度看,不同的場(chǎng)景會(huì)有一些差別。總體來看,單片 M2000 的整機(jī)系統(tǒng)功耗為 1.1KW,折合到每顆IPU處理器的性能功耗比 0.9TFlops/W,在同類面向數(shù)據(jù)中心高性能AI計(jì)算的產(chǎn)品中,比A100 GPU的0.7TFlops/W,華為Ascend 910的 0.71TFlops/W的能效比都高一些。

    也就是說,在大規(guī)模數(shù)據(jù)中心,Graphcore將會(huì)與英偉達(dá)進(jìn)行正面的競(jìng)爭(zhēng)。雷鋒網(wǎng)認(rèn)為,相比于來自類GPU的競(jìng)爭(zhēng),英偉達(dá)不應(yīng)該忽視Graphcore的IPU,特別是Graphcore一直都在強(qiáng)調(diào)其是為AI而生,面向的應(yīng)用也是CPU、GPU不那么擅長(zhǎng)的AI應(yīng)用。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    這從Graphcore的軟件以及生態(tài)建設(shè)中也能看出。IPU作為一款通用處理器能夠同時(shí)支持訓(xùn)練和推理也提供統(tǒng)一的軟件平臺(tái)。最新的POPLAR SDK1.2有三個(gè)特性:第一,會(huì)與比較先進(jìn)的機(jī)器學(xué)習(xí)框架做好集成。第二,進(jìn)一步開放低級(jí)別的API,讓開發(fā)者針對(duì)網(wǎng)絡(luò)的性能做一些特定的調(diào)優(yōu)。第三,增加框架支持,包括對(duì)PyTorch和Keras的支持,還優(yōu)化了卷積庫和稀疏庫。

    另外,通過支持全面的開發(fā)框架的三個(gè)主流操作系統(tǒng)ubuntu、RedHat、CentOS,降低開發(fā)者的使用難度,同時(shí)通過進(jìn)一步開放低級(jí)別API,開源POPLAR PopLibs源代碼。這些工作,正是想要讓開發(fā)者利用IPU去創(chuàng)新,在新的應(yīng)用領(lǐng)域構(gòu)建IPU的競(jìng)爭(zhēng)優(yōu)勢(shì)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    更進(jìn)一步,Graphcore面向商業(yè)用戶、高校及研究機(jī)構(gòu)、個(gè)人開發(fā)者都提供不同時(shí)長(zhǎng)的免費(fèi)IPU使用。在國內(nèi),Graphcore IPU開發(fā)者云部署在金山云上,這里面使用了三種IPU產(chǎn)品,一種是IPU-POD64,還有浪潮的IPU服務(wù)器(NF5568M5),以及戴爾的IPU服務(wù)器(DSS8440)。

    雷鋒網(wǎng)了解到,目前申請(qǐng)使用Graphcore IPU開發(fā)者云的主要是商業(yè)用戶和高校,個(gè)人研究者比較少。

    IPU開發(fā)者云支持當(dāng)前一些最先進(jìn)和最復(fù)雜的AI算法模型的訓(xùn)練和推理。比如,高級(jí)計(jì)算機(jī)視覺類主要以分組卷積為代表的一些機(jī)器視覺的應(yīng)用模型,像ResNeXt、EfficientNet等。基于時(shí)序分析類的應(yīng)用,像LSTM、GRU等大量應(yīng)用在自然語音應(yīng)用、廣告推薦、金融算法等方面的模型。排名和推薦類像Deep Autoencoder,在概率模型方面,基于MCMC的一些算法交易的模型方面都有非常好的一些表現(xiàn)。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    盧濤表示:“Graphcore找到了自己的賽道,我們首要思考的是IPU如何幫助客戶與合作伙伴解決他們目前使用CPU或者GPU上解決不了的問題。從全球看,我們最快落地的應(yīng)用還是在超大規(guī)模數(shù)據(jù)中心,在金融、醫(yī)療健康領(lǐng)域進(jìn)展非常大。”

    還有一個(gè)影響IPU大規(guī)模商用非常關(guān)鍵的問題,片內(nèi)存儲(chǔ)高達(dá)900M的第二代IPU良率的成本如何?盧濤對(duì)雷鋒網(wǎng)表示,“成本分為幾個(gè)部分,包括人員、工具、IP、流片成本。所以要考慮兩個(gè)部分。第一部分,芯片生產(chǎn)的BOM成本,這部分基本是固定的。所以,第二部分的良率就是非常重要,我們從第一代產(chǎn)品到第二代產(chǎn)品都采用分布式存儲(chǔ)架構(gòu),就會(huì)非常好地控制產(chǎn)品的良率,所以即使是900M處理器內(nèi)存儲(chǔ),也不會(huì)對(duì)成本產(chǎn)生特別大的影響。

    不是GPU的IPU,為什么更值得英偉達(dá)警惕?

    已經(jīng)有多家云合作伙伴的Graphcore,正在通過硬件以及軟件打造起中國創(chuàng)新社區(qū)來發(fā)展生態(tài),接下來通過與OEM、渠道合作伙伴的合作,將會(huì)如何與英偉達(dá)競(jìng)爭(zhēng)呢?

    相關(guān)文章:

    超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個(gè)

    直擊CPU、GPU弱項(xiàng)!第三類AI處理器IPU正在崛起

    為AI顛覆GPU!計(jì)算機(jī)史上迎來第三個(gè)革命性架構(gòu)IPU

    打破16項(xiàng)AI性能記錄!英偉達(dá)A100 GPU要無人能敵?

    超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個(gè)

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 377人体粉嫩噜噜噜| 永济市| 精品超清无码视频在线观看| 国内自拍偷拍福利视频看看| 凹凸国产熟女精品视频| 日韩高清无码电影网| 国产在线视频一区二区三区| 人妻护士在线波多野结衣| 亚洲av人妖一区二区三区| 色猫咪av在线网址| 一本色道婷婷久久欧美| 9l国产精品久久久久尤物| 免费人成网站在线观看不| 国产高清在线91福利| 一级做a爰片在线播放| 国产午夜成人久久无码一区二区| 四虎影视成人永久免费观看视频| 国产一区二区三区怡红院| 在线a亚洲v天堂网2018| 一女被多男玩喷潮视频| 加勒比在线一区二区三区| 国内自拍网红在线综合一区| 亚洲av无码之国产精品网址蜜芽 | 亚洲爆乳WWW无码专区| 苍井空毛片精品久久久| 99re在线观看视频| 无码中文字幕网| 精品国产大片中文字幕| 尤物视频免费在线观看 | 激情的视频一区二区三区| 成人污视频在线观看| 国产一区二区小电影| 一区二区三区四区精品视频| 强奷乱码欧妇女中文字幕熟女| 自拍偷拍综合第一页| 天天躁日日躁狠狠躁一级毛片 | wwww免费网站| 克东县| 免费视频精品一区二区三区| 在线 欧美 中文 亚洲 精品| 国产精品va在线观看无码不卡|