你可能還不知道，WaveNet 為了進駐 Google Assistant 做出了這些重大變化

本文作者：楊曉凡

2017-11-26 19:26

導語：超過一千倍速度提升，高度并行化一次生成一整個句子

雷鋒網 AI 科技評論按：DeepMind 提出的 WaveNet 是目前頂級的語音生成模型，論文最初于2016年9月發表，雷鋒網 AI 科技評論也立即跟進報道 DeepMind發布原始音頻波形深度生成模型WaveNet 。WaveNet 拋棄了以往通過聲學模型拼接語音音素的做法，完全通過深度神經網絡生成原始音頻波形，并且大幅提高了語音生成質量。

今年10月，我們也報道過 WaveNet正式商用：效率提高1000倍，僅一年時間就走出實驗室，在 Google Assistant 中落地。在慶賀深度學習又一次完全顛覆傳統做法的同時，大家想必也會好奇，到底 DeepMind 做了哪些改進才得以實現這樣數量級的效率提升呢？DeepMind 自己最近就發布了介紹商業化改進后的 WaveNet 的論文，并撰寫了一篇博文通俗地介紹了其中的改進點。雷鋒網 AI 科技評論把這篇博文翻譯如下。

你可能還不知道，WaveNet 為了進駐 Google Assistant 做出了這些重大變化

自 DeepMind 在2016年發表WaveNet論文后，這一頂級表現的語音生成模型已經于今年10月開始用在 Google Assistant 中，為全球的用戶生成逼真的日語和美國英語語音?，F在這個用于生產環境的模型稱作“并行WaveNet”，它的運行速度要比最初發布的模型快一千多倍，而且生成的語音質量也更高。

在近期的論文（https://deepmind.com/documents/131/Distilling_WaveNet.pdf ）中，DeepMind的研究人員們就介紹了新模型的一些細節；以及為了讓這個系統能在大規模并行化的計算環境中運行，DeepMind還開發了一個新技術“概率密度蒸餾”。

WaveNet的演進史

最初版本的WaveNet在生成語音時用了很激進的連接方式，每次生成一個采樣點，而且每個新生成的采樣點都需要把前一個采樣點作為輸入（條件生成）。雖然這種做法能夠生成高質量的音頻，每秒最高也能生成2萬4千個采樣點，但這種順序生成的方式對于生產環境來說還是太慢了。

你可能還不知道，WaveNet 為了進駐 Google Assistant 做出了這些重大變化

最初版本的模型中，生成每個新的樣本都需要把前一個生成的樣本作為條件

為了解決這個問題，DeepMind的研究人員們認為他們需要一種新的方案，它應當能一次生成一個長序列中的所有采樣點，而且沒有生成質量的損失。他們的想到的辦法叫做 probability density distillation，“概率密度蒸餾”。它的做法是，用一個完全訓練好的 WaveNet 模型教另一個“學生”網絡如何推理；這個學生網絡更小、并行度更高，從而也就更適合運行在現代計算硬件上。這個學生網絡的架構是一個規模不大的卷積神經網絡的拓展，跟原來的WaveNet很相似，但它有一點根本性的不同，就是生成新的采樣點時不需要依賴任何之間生成的采樣點。這也就意味著，語音生成時可以把第一個單詞、最后一個單詞、以及所有當中的單詞全部同時生成出來，就像下面的動圖里這樣。

你可能還不知道，WaveNet 為了進駐 Google Assistant 做出了這些重大變化

新的WaveNet把白噪音作為輸入，然后一次同步生成所有的輸出采樣點。

訓練的時候，學生網絡是從一個隨機狀態開始的。它的輸入是隨機白噪聲，要訓練它做的任務就是產生連續的音頻波形作為輸出。學生網絡生成的輸出會被交給訓練過的WaveNet模型，它會給每個采樣點打分，作為提供給學生網絡的信號，讓它了解它的輸出和理想輸出之間的差距。隨著訓練過程進行，學生網絡就可以根據反向傳播不斷調節、更新，從而學會產生理想的輸出。從另一個角度說，“老師”網絡和“學生”網絡都會給每一個音頻采樣點的取值輸出一個概率分布，然后訓練的目標就是讓老師的分布和學生的分布之間的KL距離最小化。

這樣的訓練過程和生成式對抗性網絡（GANs）的設定有不少相似之處，學生網絡就像是GANs中的生成器，老師網絡就像是鑒別器。不過與GANs不同的是，學生的目標并不是像GANs中那樣“騙過”老師，而是與老師合作，嘗試學習、達到老師的表現水平。

雖然這種訓練技巧有不錯的表現，DeepMind的研究人員們還是需要增加幾個額外的損失函數，引導學生更好地向理想的行為前進。具體來說，他們增加了一個感知損失來避免模型產生糟糕的發音，增加了一個對比度損失來進一步減少噪聲，以及一個能量損失來讓網絡的音頻輸出與人類語音的能量相匹配。能量損失的作用是，如果沒有它的話，模型的音量很小，更像竊竊私語而不是朗聲說話。

應用了以上所有這些方法之后，DeepMind就得以讓訓練出的并行WaveNet達到與最初的WaveNet同等的語音質量，人類測試者聽過之后的平均意見打分（MOS，5分為滿分）結果如下。值得一提的是，真正的人類語音也只有4.667的MOS分數。

你可能還不知道，WaveNet 為了進駐 Google Assistant 做出了這些重大變化

當然，概率密度蒸餾僅僅是讓WaveNet達到生產化系統的速度和質量的眾多必須手段之一。為了把并行WaveNet集成到Goolge Assistant的服務流水線中，DeepMind的技術應用團隊和谷歌語音團隊也同樣在工程方面付出了大量努力。也正是靠著這樣的緊密協作，最初是基礎性研究的技術只花了12個月多一點點的時間就成為了谷歌規模、能夠服務全球用戶的正式產品。

并行WaveNet論文地址：https://deepmind.com/documents/131/Distilling_WaveNet.pdf

via DeepMind Blog，雷鋒網 AI 科技評論編譯

Deepmind語音生成模型WaveNet正式商用：效率提高1000倍