IBM語音識別能力逼近人類水平，獲深度學習巨頭Yoshua Bengio盛贊

本文作者：奕欣

2017-03-09 16:10

導語：MILA的Yoshua Bengio認可了IBM的這一工作，也表示語音識別領域的研究工作依然任重道遠。

你知道嗎？人類每聽20個詞，其實就有一兩個成為“漏網之魚”。而在一段五分鐘的對話中，這一數字達到了80。但對于我們而言，少聽一兩個詞并不會影響我們對語意的理解，然而想象一下，計算機如果要完成這件事有多難？

去年，IBM已經在語音識別領域走到了一個新的里程碑：系統的錯誤率降低為6.9%；而雷鋒網了解到，近日IBM Watson的語音識別系統將這個數字降到了5.5%。

清華大學的鄧志東教授此前在采訪中向雷鋒網表示，只有AI技術達到人類水平，它才有商業化的可能性。技術越來越接近人類水平也一直是人工智能的終極目標。而在語音識別領域，要在兩人對話的語境中降低錯誤率，自然也是工業界努力的方向。包括谷歌、百度在內的不少公司也一直在追趕著人類語音識別的錯誤率，IBM此前的最佳表現水平是5.9%。不過人類的識別錯誤率一直是難以超越的5.1%，目前還沒有任何公司能夠達到這一水平。

以國內頂尖的百度人工智能研究院在語音識別的進展為例，雷鋒網整理了近年來的一些研究進展：

在2014年底，吳恩達及團隊發布了第一代深度語音識別系統Deep Speech，系統采用了端對端的深度學習技術，當時實現了提高嘈雜環境下的英語識別準確率，實驗顯示比谷歌、微軟及蘋果的語音系統的出錯率要低10%。
而在2015年8月，百度研究院新增了漢語的識別，準確率高達94%。這也讓端到端的深度學習算法成為語音識別提升最重要的手段之一。
2015年9月份的百度世界大會上，吳恩達也在期間展示了新一代的百度語音識別技術，驗證在較為嘈雜的情況下，機器識別已經超過人類。
2015年年底，百度研究院又發布了論文推出Deep Speech2，它能夠通過深度學習網絡識別嘈雜環境下的不同語言，所應用的HPC技術將識別速度提升了7倍。根據研究院的官方消息，HPC技術目前已在今年2月成功應用于深度學習中。

IBM 用于測試系統的樣本難度很大，音頻內容集中于像“買車”這樣的日常話題。而這個被稱為“SWITCHBOARD”的語料庫，已經沿用了近20年，成為語音識別的“試金石”。

IBM研究院采用深度學習技術進行應用領域的拓展，結合了LSTM及三個WaveNet 音頻模型：

前兩個模型采用的是六層的雙向LSTM模型：
第一個模型有多個特征輸入；
第二個模型采用了說話者對抗的多任務學習；
而第三個模型的特別之處在于，它不僅能夠從積極的模型中學習，還能借鑒消極模型——這樣一來，當相似的語音模式再次出現時，系統的表現會越來越好。

在合作伙伴Appen的協作下，IBM重新對語音識別系統進行重新調整，前者為IBM提供語音及檢索的技術服務支持。盡管IBM已經達成了5.5%的巨大突破，但官方表示，人類水平的5.1%才是它們努力前進的終極目標。

MILA的Yoshua Bengio認可了IBM的這一工作，也表示語音識別領域的研究工作依然任重道遠：

“盡管像語音識別或物體識別這樣的AI任務過去幾年取得了巨大的進展，技術也已經接近人類水平，但它們依然存在著科學上的挑戰。誠然，標準數據并不總是能揭示真實數據的多樣性和復雜度，比如不同的數據集基于不同的任務上會呈現不同的敏感性；而只把人類水平作為系統評估的標準，我覺得也有些苛刻，比如在語音識別領域參與測試的都是經過專業訓練的聽寫員。IBM持續在語音識別領域取得了極大進展，在將聲學與語言模型應用于神經網絡與深度學習上取得了非常大的飛躍。”

IBM在實驗過程中也發現，尋找衡量人類識別水平的標準方法實際上比想象中要復雜許多。除了SWITCHBOARD，另一個名為“CallHome”的語料庫提供了一組可被測試的語言數據，內容是基于家庭成員間未經預先定義的、更為口語化的對話。比起前者，CallHome的數據難度更具挑戰性。IBM的系統用CallHome測試后呈現的錯誤率達到10.3%，而Appen提供的人類測試錯誤率在6.8%。

此外，即使是用SWITCHBOARD進行測試，在測試集中，有部分講話者的聲音也與訓練數據是一致的，而CallHome則沒有這樣的重疊數據，這也一定程度造成了錯誤率的差異。因為這兩個實驗的前提條件不同，IBM認為兩者并不能相提并論。

IBM認為它們在深度學習上取得的進步，能夠最終克服目前存在的困難。哥倫比亞大學計算機科學教授兼主席Julia Hirschberg也對目前的語音識別技術挑戰發表了評論：

“要實現達到人類水平的語音識別是一個持續的挑戰，（要識別）人類自發的對話尤其困難。人類的表現難以定義，而人類在聽懂他人語言的水平也參差不齊。如果我們要將機器識別與人類識別水平進行對比，我認為需要滿足以下兩個條件：測試者的識別水平，以及在同一演講中不同人類的表現差異。IBM最近在SWITCHBOARD和CallHome上的表現都非常驚艷，但我也對IBM在理解人類水平方面有了新的認知。這項科研成果與IBM目前的ASR進展同樣令人欣喜，不過我們也深知在語音識別的研究上需要更加努力。”

IBM表示，它們的這一最新進展能夠與此前的語音識別技術相結合，比如去年12月推出的Watson語音轉文字技術。IBM將繼續研究出能夠適配聲音、聽覺和大腦交互三者的技術，基于研究進展發表可靠而準確的技術成果。

via IBM，雷鋒網整理

0人收藏

奕欣

初心者

掃描關注作者微信

發私信

當月熱門文章