云從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%

本文作者：叢末

2018-11-15 10:37

導語：超過阿里、百度、約翰霍普金斯大學等企業及高校~

云從科技

AI影響因子

活動

企業：云從科技

操作：刷新記錄

事項：云從科技刷新一項語音識別紀錄

開發

企業：云從科技

操作：刷新記錄

內容：云從科技刷新一項語音識別紀錄

更多相關

雷鋒網 AI 科技評論按：10 月 29 日，云從科技宣布在全球最大的開源語音識別數據集 Librispeech 上，將錯詞率（Worderrorrate，WER）降到了 2.97%，并將 Librispeech 的 WER 指標提升了 25%，超過阿里、百度、約翰霍普金斯大學等企業及高校，刷新了原先記錄。

將 Librispeech 數據集上的錯詞率降至 2.97%

Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集，錯詞率（Worderrorrate，WER）是衡量語音識別技術水平的核心指標。

云從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%

DS2：百度，ESPnet：約翰霍普金斯大學，DFSMN-CE：阿里

云從科技在 Librispeech 數據集上將錯詞率（Worderrorrate，WER）降到了 2.97%，較之前提升了 25%。這項成果有利于語音識別技術的進步，也有助于推動語音識別帶來良好的智慧交互體驗。

云從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢，將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息，對比目前業界使用最為廣泛的 LSTM 模型，訓練速度更快、識別準確率更高。

語音識別技術近年進展

2017 年 3 月，IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴展深度學習應用技術終于取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

2017 年 8 月，微軟發布新的里程碑，通過改進微軟語音識別系統中基于神經網絡的聽覺和語言模型，在去年基礎上降低了大約 12% 的出錯率，錯詞率為 5.1%，聲稱超過專業速記員。相對應的是去年 10 月的 5.9%，聲稱超過人類。

2017 年 12 月，谷歌發布全新端到端語音識別系統（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），錯詞率降低至 5.6%。相對于強大的傳統系統有 16% 的性能提升。

2018 年 6 月，阿里巴巴達摩院推出了新一代語音識別模型 DFSMN，將全球語音識別準確率紀錄提高至 96.04%，錯詞率降低至 3.96%。

2018 年 10 月，云從科技發布全新 Pyramidal-FSMN 語音識別模型，將錯詞率（Worderrorrate，WER）降低至 2.97%，較之前提升了 25%。

Pyramidal-FSMN 語音識別模型原理解析

云從科技提出的新型網絡結構，能更加有效的提取空間和時間特征的角度，為語音識別進一步發展提供了一些新的思路：

模型設計采用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構；
訓練方式使用 lattice-free 最大互信息（lattice-free maximum mutual information，LF-MMI/Chain）與交叉熵（cross entropy，CE）損失函數相結合的多任務學習技術；
解碼部分采取 RNNLM rescoring 的方式，利用 RNN 提取一個句子中的長期語義信息，從而更有效地幫助聲學模型得到準確的句子。

如下圖所示，作者采用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結合的網絡結構。前端網絡借鑒了圖像識別中經典的 Residual CNN 結構，更有效地提取特征與時間相互的關聯信息，同時 skip connection 避免了 CNN 網絡加深之后梯度消失和梯度爆炸問題。在金字塔記憶模塊中，淺層的網絡主要聚焦于音素本身的特征學習，所以只需抽取短時上下文信息，而深層的網絡由于已經學習到了足夠的固定時間的音素信息，需要學習長時間包括語義和語法特征，所以深層抽取長時間的上下文信息。利用這樣的金字塔結構，既能減少參數，縮小模型結構，也能更加精巧的模擬人類處理語音信號的過程，提高識別效果。

云從科技刷新一項語音識別紀錄：將 Librispeech 數據集上的錯詞率降至 2.97%