秒殺英特爾至強，NVIDIA的深度學習超級計算機強在哪？

本文作者：程弢

2016-08-18 08:00

導語：黃仁勛曾表示，3000人花費3年時間才研發(fā)出來這樣一款DGX-1，深度學習超級計算機研發(fā)的難度之大可見一斑。

硬件和算法在人工智能領域的作用可以說是各占一半的，而在芯片層面上，業(yè)界幾乎觀點一致——GPU在人工智能深度學習算法上的重要性遠高于CPU，這也就是為何NVIDIA在人工智能領域的風頭甚至蓋過了英特爾。

毫無疑問，GPU是當下訓練深度學習神經(jīng)網(wǎng)絡最熱門的方法，這種方案已經(jīng)受到了谷歌、微軟、IBM、豐田以及百度等企業(yè)的青睞，因此GPU廠商在最近兩年逐漸成為眾企業(yè)膜拜的對象。

作為GPU領域的絕對主導者，NVIDIA最近動作頻頻，今年早些時候公司專為深度神經(jīng)網(wǎng)絡推出了Tesla P100 GPU，并且發(fā)布了基于該GPU的單機箱深度學習超級計算機——NVIDIA DGX-1。

秒殺英特爾至強，NVIDIA的深度學習超級計算機強在哪？

如今這款深度學習超級計算機已經(jīng)問世，NVIDIA CEO黃仁勛日前將DGX-1交付給了馬斯克創(chuàng)辦的人工智能項目OpenAI，OpenAI會用DGX-1做什么項目？如何使用？還不得而知，不過我們可以先聊一聊這款深度學習超級計算機到底是什么？它有什么牛逼的地方。

深度學習超級計算機是什么？

顧名思義，深度學習超級計算機是深度學習和超級計算機的結(jié)合體，我們所熟知的“天河一號”、“天河二號”等都是超級計算機，當然不僅如此，通常情況下具備高性能計算（HPC）的計算機都可算作超級計算機，如NVIDIA的Tesla系列。

因為深度學習神經(jīng)網(wǎng)絡尤其是幾百上千層的神經(jīng)網(wǎng)絡需對計算和吞吐能力的需求非常高，GPU對處理復雜運算擁有天然的優(yōu)勢：它有出色的浮點計算性能，可以同時保證分類和卷積的性能以及精準度。

所以搭載GPU的超級計算機已經(jīng)成為訓練各種深度神經(jīng)網(wǎng)絡的不二選擇。例如在谷歌Brain項目中，其3臺機器中配置了12顆GPU，性能就達到了包含1000個節(jié)點的CPU簇的水平。

NVIDIA DGX-1性能如何？

黃仁勛曾表示，3000人花費3年時間才研發(fā)出來這樣一款DGX-1，深度學習超級計算機研發(fā)的難度之大可見一斑。

根據(jù)NVIDIA官方的介紹，DGX-1的規(guī)格如下：

半精度 (FP16) 峰值性能最高可達 170 Teraflops；
8 個 Tesla P100 GPU 加速器，每顆 GPU 16GB 內(nèi)存；
NVLink Hybrid Cube Mesh (NVLink 混合立方網(wǎng)格)；
7TB 固態(tài)硬盤 DL 高速緩存；
雙萬兆以太網(wǎng)，四路 InfiniBand 100Gb 網(wǎng)絡連接；
功耗：3U – 3200W。

秒殺英特爾至強，NVIDIA的深度學習超級計算機強在哪？

因為NVIDIA將這些硬件設計在了一個機箱內(nèi)，所以DGX-1被稱為單機箱深度學習超級計算機。

Tesla P100有153億個16nm FinFET晶體管，其核心面積達到了610mm2，按照黃仁勛的說法，這款GPU是迄今為止最大的芯片。

DGX-1集成的8個16GB顯存GPU吞吐量相當于 250臺傳統(tǒng)服務器的水平，其配置的7 TB固態(tài)硬盤用于儲存神經(jīng)網(wǎng)絡訓練的大量原始數(shù)據(jù)。

除此之外，DGX-1系統(tǒng)還包含一套深度學習軟件，即深度學習GPU訓練系統(tǒng) (DIGITS?)，它可用于設計深度神經(jīng)網(wǎng)絡 (DNN)，據(jù)了解DGX-1可以將深度學習的培訓速度加快75倍，將CPU性能提升56倍。這是什么樣的概念呢？

英特爾雙路至強系統(tǒng)需要250多個節(jié)點和150個小時來訓練Alexnet，而DGX-1只需要一個節(jié)點2個小時，后者在性能和節(jié)點總帶寬上都有明顯的優(yōu)勢。當然在性能的提升下，功耗達到了3200W，售價更是高達129000美元。

GPU是唯一選擇嗎？

雖然GPU相比CPU有一定的優(yōu)勢，但是在FPGA和神經(jīng)網(wǎng)絡芯片面前，GPU依然要遜色不少。

有研究人員測試，相比GPU，F(xiàn)PGA的架構(gòu)更靈活，單位能耗下性能更強。深度學習算法在FPGA上能夠更快、更有效地運行，而且功耗也能做到更低。英特爾甚至為此推出了FPGA和CPU的混合芯片架構(gòu)。

另一個研究方向就是神經(jīng)網(wǎng)絡芯片，這一領域的代表當屬IBM的TrueNorth和寒武紀的DianNao。根據(jù)模擬實驗測試的結(jié)果，采用DianNaoYu指令集的寒武紀深度學習處理器相對于x86指令集的CPU有兩個數(shù)量級的性能提升；而IBM的Truenorth里含有54億個低成本晶體管神經(jīng)突觸芯片，功耗卻低至700毫瓦，在性能以及功耗的優(yōu)化上都提升到了一個新的高度。

寒武紀神經(jīng)網(wǎng)絡處理器研究者、中國科學院計算技術研究所研究員陳云霽表示，“加速芯片是神經(jīng)網(wǎng)絡芯片的最終形態(tài)。”

但是理想很豐滿，現(xiàn)實很骨感！就目前來說，GPU是唯一實現(xiàn)大規(guī)模應用的方案，F(xiàn)PGA或者神經(jīng)網(wǎng)絡芯片想要取代GPU的地位只能說是路漫漫了！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

程弢

略懂技術的小編

關注一切有未來感的產(chǎn)品及技術！

掃描關注作者微信

發(fā)私信

當月熱門文章