• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給叢末
    發(fā)送

    0

    云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄:將 Librispeech 數(shù)據(jù)集上的錯(cuò)詞率降至 2.97%

    本文作者: 叢末 2018-11-15 10:37
    導(dǎo)語(yǔ):超過(guò)阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校~
    活動(dòng)
    企業(yè):云從科技
    操作:刷新記錄
    事項(xiàng):云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄
    開(kāi)發(fā)
    企業(yè):云從科技
    操作:刷新記錄
    內(nèi)容:云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄
    更多相關(guān)

    雷鋒網(wǎng) AI 科技評(píng)論按:10 月 29 日,云從科技宣布在全球最大的開(kāi)源語(yǔ)音識(shí)別數(shù)據(jù)集 Librispeech 上,將錯(cuò)詞率(Worderrorrate,WER)降到了 2.97%,并將 Librispeech 的 WER 指標(biāo)提升了 25%,超過(guò)阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校,刷新了原先記錄。

    將 Librispeech 數(shù)據(jù)集上的錯(cuò)詞率降至 2.97%

    Librispeech 是當(dāng)前衡量語(yǔ)音識(shí)別技術(shù)的最權(quán)威主流的開(kāi)源數(shù)據(jù)集,錯(cuò)詞率(Worderrorrate,WER)是衡量語(yǔ)音識(shí)別技術(shù)水平的核心指標(biāo)。

    云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄:將 Librispeech 數(shù)據(jù)集上的錯(cuò)詞率降至 2.97%

     DS2:百度,ESPnet:約翰霍普金斯大學(xué),DFSMN-CE:阿里

    云從科技在 Librispeech 數(shù)據(jù)集上將錯(cuò)詞率(Worderrorrate,WER)降到了 2.97%,較之前提升了 25%。這項(xiàng)成果有利于語(yǔ)音識(shí)別技術(shù)的進(jìn)步,也有助于推動(dòng)語(yǔ)音識(shí)別帶來(lái)良好的智慧交互體驗(yàn)。

    云從科技此次推出的語(yǔ)音識(shí)別模型 Pyramidal-FSMN 融合圖像識(shí)別與語(yǔ)音識(shí)別的優(yōu)勢(shì),將殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合, 能夠同時(shí)有效的提取空間和時(shí)間上不同粒度的信息,對(duì)比目前業(yè)界使用最為廣泛的 LSTM 模型,訓(xùn)練速度更快、識(shí)別準(zhǔn)確率更高。

    語(yǔ)音識(shí)別技術(shù)近年進(jìn)展

    2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語(yǔ)言模型。「集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯(cuò)詞率的突破」。相對(duì)應(yīng)的是去年 5 月的 6.9%。

    2017 年 8 月,微軟發(fā)布新的里程碑,通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽(tīng)覺(jué)和語(yǔ)言模型,在去年基礎(chǔ)上降低了大約 12% 的出錯(cuò)率,錯(cuò)詞率為 5.1%,聲稱超過(guò)專業(yè)速記員。相對(duì)應(yīng)的是去年 10 月的 5.9%,聲稱超過(guò)人類。

    2017 年 12 月,谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯(cuò)詞率降低至 5.6%。相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

    2018 年 6 月,阿里巴巴達(dá)摩院推出了新一代語(yǔ)音識(shí)別模型 DFSMN,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高至 96.04%,錯(cuò)詞率降低至 3.96%。

    2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語(yǔ)音識(shí)別模型,將錯(cuò)詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

    Pyramidal-FSMN 語(yǔ)音識(shí)別模型原理解析

    云從科技提出的新型網(wǎng)絡(luò)結(jié)構(gòu),能更加有效的提取空間和時(shí)間特征的角度,為語(yǔ)音識(shí)別進(jìn)一步發(fā)展提供了一些新的思路: 

    • 模型設(shè)計(jì)采用一種殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合的結(jié)構(gòu); 

    • 訓(xùn)練方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(cross entropy,CE)損失函數(shù)相結(jié)合的多任務(wù)學(xué)習(xí)技術(shù);

    • 解碼部分采取 RNNLM rescoring 的方式,利用 RNN 提取一個(gè)句子中的長(zhǎng)期語(yǔ)義信息,從而更有效地幫助聲學(xué)模型得到準(zhǔn)確的句子。

    如下圖所示,作者采用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。前端網(wǎng)絡(luò)借鑒了圖像識(shí)別中經(jīng)典的 Residual CNN 結(jié)構(gòu),更有效地提取特征與時(shí)間相互的關(guān)聯(lián)信息,同時(shí) skip connection 避免了 CNN 網(wǎng)絡(luò)加深之后梯度消失和梯度爆炸問(wèn)題。在金字塔記憶模塊中,淺層的網(wǎng)絡(luò)主要聚焦于音素本身的特征學(xué)習(xí),所以只需抽取短時(shí)上下文信息,而深層的網(wǎng)絡(luò)由于已經(jīng)學(xué)習(xí)到了足夠的固定時(shí)間的音素信息,需要學(xué)習(xí)長(zhǎng)時(shí)間包括語(yǔ)義和語(yǔ)法特征,所以深層抽取長(zhǎng)時(shí)間的上下文信息。利用這樣的金字塔結(jié)構(gòu),既能減少參數(shù),縮小模型結(jié)構(gòu),也能更加精巧的模擬人類處理語(yǔ)音信號(hào)的過(guò)程,提高識(shí)別效果。

    云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄:將 Librispeech 數(shù)據(jù)集上的錯(cuò)詞率降至 2.97%

    在損失函數(shù)部分,作者采用了基于 LF-MMI 的序列性訓(xùn)練方式。同時(shí)為了解決序列性訓(xùn)練容易導(dǎo)致過(guò)擬合的問(wèn)題,又引入了傳統(tǒng)的交叉熵?fù)p失函數(shù),在 LF-MMI 輸出之外加入另一個(gè)輸出層作為一個(gè)正則技術(shù),通過(guò)設(shè)置交叉熵的正則化系數(shù),兩個(gè)目標(biāo)能夠有效地學(xué)習(xí)并且避免過(guò)擬合問(wèn)題。

    最后,作者使用了 RNNLM rescoring 技術(shù)對(duì)解碼做進(jìn)一步處理。在沒(méi)有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經(jīng)達(dá)到了目前最好的結(jié)果,rescoring 之后又有了更進(jìn)一步的提升。

    聲學(xué)模型和 RNNLM 的訓(xùn)練數(shù)據(jù)完全基于 Librispeech 和通用的語(yǔ)言模型數(shù)據(jù)集,并沒(méi)有額外引入其他的訓(xùn)練數(shù)據(jù)這樣的「技巧」性策略。

    論文地址:https://arxiv.org/abs/1810.11352

    相關(guān)介紹:

    LibriSpeech 數(shù)據(jù)集:世界最大的免費(fèi)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),包含文本和語(yǔ)音的有聲讀物數(shù)據(jù)集,由 1000 小時(shí)的多人朗讀的清晰音頻組成,且包含書籍的章節(jié)結(jié)構(gòu)。雷鋒網(wǎng)雷鋒網(wǎng)

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    云從科技刷新一項(xiàng)語(yǔ)音識(shí)別紀(jì)錄:將 Librispeech 數(shù)據(jù)集上的錯(cuò)詞率降至 2.97%

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 国产仑乱无码内谢| 国产一区人妻天堂| 曰曰摸夜夜添夜夜添高潮出水 | AV无码一区二区三区| 亚洲精品电影院| 狠狠色香婷婷久久亚洲精品| 69福利区| 无码熟妇αⅴ人妻又粗又大| 成人欧美一区二区三区在线观看| 国产一级AAAAA片免费| 一区二区三区内射美女毛片| 国产综合色在线视频播放线视| 欧美成人国产精品高潮| 亚洲精品1| 日韩精品国产中文字幕| 综合图区亚洲另类偷窥| 成人A在线播放| 亚洲韩国精品无码一区二区三区| 福利一区二区三区导航| 欧美成妇人吹潮在线播放| 97人妻精品一区二区三区免费| 国产高清自产拍av在线| 乱女乱妇熟女熟妇综合网| 久久99精品日韩人妻| 亚洲人妻自拍| 亚洲国产精品久久久久久无码 | 日本一卡2卡3卡4卡无卡免费| 亚洲午夜福利精品一二飞| 中文字幕亚洲国产精品| 人妻激情乱人伦视频| 国产精品久久久久久亚洲色| 五月花激情| 亚洲另类激情专区小说婷婷久| 亚洲国产初高中生女av| 97人妻无码一区| 中文字幕亚洲在线观看| av无码精品一区二区三区四区| 熟妇网| 久操福利| 黑人巨大亚洲一区二区久| 亚洲另类激情专区小说图片 |