UC Berkeley 機器人與工程實驗室講座教授王強：Deep Learning 及 AlphaGo Zero（上） | 分享總結

本文作者：汪思穎

2017-11-30 15:24

導語：看王強博士講解深度學習和AlphaGo Zero

雷鋒網 AI科技評論按，北京時間10月19日凌晨，DeepMind在Nature上發布論文《Mastering the game of Go without human knowledge》（不使用人類知識掌握圍棋），在這篇論文中，DeepMind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”，掀起了人們對AI的大討論。而在10月28日，Geoffrey Hinton發表最新的膠囊論文，徹底推翻了他三十年來所堅持的算法，又一次掀起學界大討論。

究竟什么是人工智能？深度學習的發展歷程如何？日前，雷鋒網 AI科技評論邀請到UC Berkeley機器人與工程實驗室講座教授王強博士，他為大家深入淺出講解了何為人工智能，深度學習的發展歷程，如何從機器感知向機器認知演進，并解析了AlphaGo與AlphaGo Zero的原理、學習過程、區別等。

嘉賓簡介：王強博士，本科畢業于西安交通大學計算機科學與技術專業，后獲得卡內基梅隆大學軟件工程專業碩士學位、機器人博士學位。美國貨幣監理署（OCC）審計專家庫成員、IBM商業價值研究院院士及紐約Thomas J. Watson研究院主任研究員。IEEE高級會員，并擔任了2008、2009、2013及未來2018年CVPR的論文評委，同時是PAMI和TIP兩個全球頂級期刊的編委。王強博士在國際頂級期刊發表了90多篇論文，并多次在ICCV，CVPR等大會做論文分享。其主要研究領域圖像理解、機器學習、智能交易、金融反欺詐及風險預測等。

以下為他的分享內容，本文為上篇，包括Hinton引導下的機器學習的發展過程，機器感知和機器認知、深度學習在AI上的應用、深度學習在未來的應用。下篇請參見UC Berkeley 機器人與工程實驗室講座教授王強：Deep Learning 及 AlphaGo Zero（下），主要內容為對AlphaGo和AlphaGo Zero的詳細解釋說明。

UC Berkeley 機器人與工程實驗室講座教授王強：Deep Learning 及 AlphaGo Zero（上） | 分享總結

大家好，今天有幸到雷鋒網 AI研習社給大家分享關于 AlphaGo Zero 和 Deep Learning 的一些內容，這些內容其實比較科普，希望大家能夠喜歡。

我在考慮這個問題之前，一直在糾結到底是說一些技術性的東西，還是科普性的東西?，F在AI和deep learning這么火，我們怎么認識它的整個過程呢。這里我分了幾部分內容，第一部分是我對深度學習的整體介紹，第二部分是關于深度學習的一些應用和未來的一些前瞻性分享。

可能時間會長一點，這次的分享要求大家具備一定的機器學習或深度學習基本知識，這樣估計才能明白今天我所講的一些內容。自我介紹我就不多去說了，我現在在一些大學做講座和客座教授，也有帶學生，同時也在金融行業做了很多工程上的應用。

Hinton引導下的機器學習發展過程

開始咱們的第一部分，在這之前我第一個問題想談談AI到底是什么。Geoffrey Hinton最近提出了膠囊計劃，同時在10月19號DeepMind團隊又發布了AlphaGo Zero，發布之后引起了大家思考，我們該怎么去考慮什么是 AI。

在這之前，我們先來說說Hinton的膠囊計劃，大家都知道Hinton是深度學習之父，也是神經網絡先驅，他對深度學習和神經網絡的諸多核心算法和結構，包括對深度學習這個名稱本身提供了很多貢獻，而且是非常巨大的貢獻。

首先，他提出了BP反向傳播算法，能夠系統解決一些多層的神經網絡隱含層連接權的學習問題，并在數學中給出了完全的推導。大家也知道，BP算法一直帶領著機器學習，特別是神經網絡的發展，用BP算法來計算導數的時候，隨著網絡深度的增加，傳播的梯度的幅度會急劇的減小，結果就造成了整體loss function的最初幾層的權重的倒數變得也非常小。

大家可能對這方面有所了解。當我們在BP算法中使用梯度下降法時，最初幾層權重的變化非常緩慢，以至于我們不能從一些比較有用的樣本里進行有效學習，其他比較臭名昭著的就是梯度彌散問題。如果當神經網絡的最后幾層有足夠數量神經元，可能單獨這幾層足以對有效的標簽進行建模，那么我們最終建模的時候是在后面最深度的這部分，那么對所有層隨機初始化的方法的訓練，不管是第一層還是第n層，訓練得到的整個網絡的性能和訓練得到的淺層網絡的性能是比較相似的，但是梯度彌散影響了BP的發展。

這時候Hinton又出現了，他做了一件事，他提出了一個設想，就是RBM，大家對RBM可能非常了解，我在這里不會做太多說明。我只說它一些基本的原理，RBM是兩層的結構，一個是顯式結構，一個是隱藏結構，它是一個對稱鏈接、無自反饋的隨機神經網絡，其實它也是一種特殊的馬爾可夫隨機場網絡。在這里頭，他會面臨一些問題，RBM里網絡和網絡之間隱單元和可見單元是不連接的，但是兩個隱單元和兩個可見單元之間是連接的，而且每個可見層的節點和隱藏層的節點處于激活狀態的值是1，未激活狀態的值是0。那么0和1的節點表明一個什么問題呢，代表整個模型選取哪些節點來使用。當節點值為1的時候是可以被使用的，處于0的時候是不被使用的。節點的激活概率是由可見層和隱藏層節點的分布函數來進行計算的。

在這里會有一個問題，RBM的參數一共用了三個，第一個就是W，W為可見單元和隱藏單元之間邊的權重。B和A是可見層和隱藏層的偏置，有了這個偏置之后，給它賦值能量，就可以得到聯合概率。

在這個問題中，只要看到梯度下降時的最大化L(θ)的內容，然后對W進行求導，求導時只需要V和H。但是如果涉及到所有可見層和隱藏層的組合，此時計算量非常大。那么在面對這些問題的時候，大家會不會認為RBM在機器學習里是不可用的呢？

這時候Hinton又做了一個算法，這個算法是非常著名的CD算法，當K等于1的時候，所有內容的計算量大幅減少，那么CDK到底是怎么形成的，這時神經網絡已經發展到第三個優化的過程，第一步是NN，第二步是ANN，到了第三步有了BP，到了第四步有了RBM，到第五步有了CD。有了CD的好處在哪里呢？可以通過顯層得到隱藏層狀態，然后再用隱藏層經重構可見的向量的顯示層。在這里我不會對CD做比較詳盡的解釋，大家之后可以去看看整個過程。接下來，到了第六步的時候，Hinton又提出了一個叫深度置信網絡，就是我們經?？吹降腄BN，在這里比較有意思的是建立了觀察數據和標簽之間的聯合分布。

前面這些內容PPT里都沒有，大家聽聽就可以了。我只是想告訴大家機器學習的發展過程是什么樣的，在RBM之后還有關鍵的一個就是我們所說的ReLU激活單元。Hinton之后又提出防止過擬合的Dropout功能，Dropout指的是在深度學習網絡訓練過程中，按照一定概率把沒用的東西從網絡中丟棄掉。

其實大家都知道，在深度學習里最大的問題是費時，第二個問題是容易過擬合，深度學習在早期的突破對這些內容也產生了很大的影響，這時候Hinton提出了capsule計劃，這個計劃其實更多的是來挑戰計算機視覺的一些問題。

大家知道計算機視覺，包括圖像理解和圖像處理的時候，一般會用到CNN網絡，那么CNN網絡里最關鍵的一塊在哪里？最關鍵就是能夠保證網絡在變化的過程中識別效率是很高的。其實Hinton提出來一個問題，在capsule計劃中，雖然位置發生了變化，但內容沒有變化，他其實提出了坐標的觀念，建立物體的坐標。面對一個物體，用不同的坐標點表示出來，那么物體在變化的時候，只是位置和速率的變化。在這里capsule雖然沒有經過太多的驗證，但給我們做圖像理解時提供了非常好的方式。

說到這么多，大家會想到一個最大的問題，既然capsule這么好，那么有多少人會去用呢？其實大家都知道BP是一個反向的思維過程，人的思維過程是正向的，其實這次是Hinton對他30年所堅持的算法的顛覆。在這里我會簡單介紹capsule計劃的一部分，更細致的內容大家可以去看看Hinton最新發表的論文。在這里提醒一下大家，在看那篇論文的時候，需要考慮同變性和不變性的一些處理方式。

重新認識AI

說到這些問題之后，還有一個比較有意思的事情，最近Hinton的capsule和AlphaGo Zero的出現，讓我們重新來認識AI到底是一個什么樣的東西。我在這里會跟大家提出一個想法，可能不是很成熟，這個觀點當時是由我的導師在今年4月份提出來的。

首先AI是靈活的，這是非常關鍵的，他靈活的表現在哪里，就是神經網絡和機器學習的出現。第二個問題，它是通用的，可以用在不同的應用場景里，接下來的PPT會講到。然后第三個，它是自適應的，后面給大家講AlphaGo Zero的時候，會說明它表現出怎樣的自適應。還有最關鍵的原則，他是從第一個規則開始學習起來的。

其實人工智能的建立過程需要模仿人的成長過程，就像小朋友剛來到世界之后的學習過程。還有一個問題，AI的基礎到底是什么？其實我在這里也提出這樣的一個想法供大家來探討，深度學習加上強化學習，再加無監督學習，AI所有的基礎都是在這上面形成的。那么從應用的角度來說，AI它到底會用在哪里呢？AI由兩部分組成，第一部分叫機器感知，第二部分叫機器認知，怎么讓AI從機器感知向機器認知轉化，我覺得這是個比較有意義的事情。

機器感知和機器認知

UC Berkeley 機器人與工程實驗室講座教授王強：Deep Learning 及 AlphaGo Zero（上） | 分享總結

那么機器感知是什么概念？通俗來講，比如說當機器發現一個人感冒的時候，它是智能體溫計。它通過和人進行接觸之后，發現你的體溫是38度，你發燒了，那么機器會給反饋，告訴你發燒了。它是認識這個物體，然后再給反饋，這個狀態是機器感知的過程。那么怎么變成機器認知，變成機器認知的時候它是什么樣的狀況？發現你感冒以后，如果你旁邊有一個醫療機器人，那么他會幫你去敷一個冰毛巾來幫助降溫，然后同時再去持續觀察你體溫的變化，來判斷給你敷冰毛巾的動作會帶來多大的價值，這就是我們所說的機器認知過程。

認知過程要比感知過程復雜，感知就是認識之后反饋一個比較完整的信息狀態，認知就是獲得你的信息，然后再把這個信息傳遞給動作，做出動作之后再對動作的價值做評價，然后持續改進動作。

那么在機器感知里頭，大家可能經?？吹较裾Z音、圖像識別、視頻識別、手勢、觸摸這些過程，在機器認知這個領域，包括自然語言處理、attention、知識處理、決策、attention等內容。

深度學習在AI上的應用

下面我給大家談談深度學習在AI里的一些應用，這里會先談當前深度學習已經成功應用的成果。

UC Berkeley 機器人與工程實驗室講座教授王強：Deep Learning 及 AlphaGo Zero（上） | 分享總結

第一部分就是大家知道的語音識別，提到語音識別大家也知道中國的科大訊飛，到2010年之后，語音識別引入了監督學習的深度學習方法，大家也知道在傳統的通過計算機來處理語音的過程中，語音需要進行分幀、加窗、提取特征，包括MFCC、PLP，還有一些機器神經網絡的聲學模型，此外通常會使用一些比較粗糙的特征，在后面有了監督學習之后，就提出了end to end的識別模式。其實大家都知道語音識別的話，首先需要對語音進行解壓縮，要還原成一個沒有任何壓縮的文件。一般語音識別的架構就兩部分，第一部分是訓練，第二部分是解碼，其實這里頭有很多關于機器學習的一些算法，大家可以自己去看看資料，包括像一些經典的HTK、特征融合的內容等。

第二部分就是圖像識別，現在最流行的就是人臉識別，總結為兩類，一類是二維圖像識別，一類是三維圖像識別。其實大家很清楚，做圖像識別或圖像理解的一些工程師、研究人員等，用張量的形式進行操作來得到圖像處理過程，這塊我不做太多說明，我會在后邊的研究分享里給大家帶來一些圖像識別的案例。在這里不得不提李飛飛的ImageNet，她建了一個龐大的圖片庫，工程師要對進入圖片庫的圖片做標簽化，比如說圖片中是不是一只貓，這是一只什么樣的貓，哪里是貓的頭，哪里是貓的尾巴。

目前在最新的圖像理解領域，結合我的研究方向，有三塊可以考慮。首先考慮的就是用CNN加RNN的方式，通過CNN理解原始圖像，把它變成語義分布的形式，然后用RNN把高級表示變成自然語言，這就是我們所說的圖像理解過程。比如你看到一個人站在這里，他到底是站在樹邊還是站在汽車邊，怎么來判斷他處于哪個狀態，就會產生一系列的序列化處理方式。

第三部分就是NLP，特別是像現在很火的機器翻譯，它面臨的一些比較大的問題在哪里？我不會說NLP現在的發展情況如何，我會提出它目前最大的一些難點，有興趣的同學可以在上面做一些相關研究。

第一個難點是單詞的邊界界定，在口語中的時候，詞與詞通常是連貫的，比如說你去了嗎？詞和詞之間是連貫的，要界定字詞邊界通常使用方法的是給上下文做一個最佳的組合。
第二個難點就是詞的意思，即消除歧義。我在IBM 沃森工作的時間比較長，相比中文，沃森在做語言識別處理的時候比較好辦。大家都知道一個英文單詞有多個意思，但是英文的一句話只代表一個意思，但中文就比較難，中文一個字就是一個意思，但是多個字組成一句話的時候可能代表很多個意思，這里我就不舉太多例子。很多NLP技術比如像沃森在北美那邊用得很好，為什么到中國會比較難呢。沃森進入中國有九年的時間，包括我在IBM的時候，一部分的漢語學家和一部分科學家推動沃森進入中國這種具有龐大歷史文化背景的國家，進來之后它就面臨一個問題，詞義消歧的問題比較大。
第三個問題是句法的模糊性，第四是有瑕疵的、不規范的輸入，比如嗎和嘛。

2014年之后，大家開始用深度學習的方式來進行自然語言處理，利用CNN+RNN的方式來幫助進一步的識別，還有機器翻譯、語言識別都是用卷入神經網絡加上遞歸神經網絡去做。

第四部分大家很清楚，即多模態圖像，第四部分現在運用得很成功。多模態圖像是什么呢，說白了就是看圖說話。用戶拍了一張照片之后，我們會用image captioning技術來匹配合適的文字，方便以后的檢索，省去用戶手動配字。2015年開始，做了一些監督學習的算法。先做CNN的預訓練，在這個基礎上做一些微調，然后再通過RNN網絡做一些supervised的訓練。

第五部分是電子游戲，游戲方面大家都知道AlphaGo，AlphaGo的出現大大提升了強化學習的進程。

深度學習在未來的應用

在未來，機器學習會在哪些人工智能領域產生巨大的作用呢，現在是個開始，在下面這些領域都會有比較大的一些突破。我在這里也會給大家一個簡單的介紹。

第一個是IR，即信息檢索。信息檢索中比較有名的大會是SIGIR，國際計算機協會的信息檢索大會，IR更關注于效率和規模，Manning在2016年的時候提出用NLP加IR來提升了IR的正確率和召回率。

第二部分就是大家經常會看到的目前在各個APP上面用到的mobile UI，即移動用戶界面和對話，包括聊天機器人、一些類似于Siri的個人助理、聲控界面等，在這里也有很多人在做研究，我在伯克利的一個實驗室正在做一套新的深度學習模型，基于自然語言檢索生成的方式，包括循環神經網絡、序列到系列的模型。這個形成過程比較有意思，我們在這里做了22個響應模型，包括機器檢索的神經網絡，機器生成的神經網絡，機器知識庫問答系統和機器模板系統，一共有這四個功能體系。

第三部分就是實用的私人助理，像Siri、GoogNow等，這些在未來也會有比較好的發展。有些人在上面做了跨域的遷移學習過程，包括一些藝術的生成、電影腳本的生成，這些技術在未來都會用到深度學習的內容。

前面是給大家帶來的比較籠統的認識，即深度學習到底能做哪些事情，另外還有深度學習發展的過程。

視頻：

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

5人收藏

汪思穎

編輯

關注AI學術，例如論文

發私信

當月熱門文章