• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給楊曉凡
    發(fā)送

    0

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    本文作者: 楊曉凡 2019-04-24 10:52
    導(dǎo)語(yǔ):別老盯著模型,也可以對(duì)數(shù)據(jù)下下功夫

    雷鋒網(wǎng) AI 科技評(píng)論按:把一段輸入音頻轉(zhuǎn)換為一段文本的任務(wù)「自動(dòng)語(yǔ)音識(shí)別(ASR)」,是深度神經(jīng)網(wǎng)絡(luò)的流行帶來(lái)了極大變革的人工智能任務(wù)之一。如今常用的手機(jī)語(yǔ)音輸入、YouTube 自動(dòng)字幕生成、智能家電的語(yǔ)音控制都受益于自動(dòng)語(yǔ)音識(shí)別技術(shù)的發(fā)展。不過(guò),開(kāi)發(fā)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別系統(tǒng)還不是一個(gè)已經(jīng)完善解決的問(wèn)題,其中一方面的難點(diǎn)在于,含有大量參數(shù)的語(yǔ)音識(shí)別系統(tǒng)很容易過(guò)擬合到訓(xùn)練數(shù)據(jù)上,當(dāng)訓(xùn)練不夠充分時(shí)就無(wú)法很好地泛化到從未見(jiàn)過(guò)的數(shù)據(jù)。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    當(dāng)對(duì)于圖像分類任務(wù),當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量不足的時(shí)候我們可以使用各種數(shù)據(jù)擴(kuò)增(data augmentation)方法生成更多數(shù)據(jù),提高網(wǎng)絡(luò)的表現(xiàn)。但是在自動(dòng)語(yǔ)音識(shí)別任務(wù)中情況有所不同,傳統(tǒng)的數(shù)據(jù)擴(kuò)增方法一般是對(duì)音頻波形做一些變形(比如加速、減速),或者增加背景噪聲,都可以生成新的訓(xùn)練數(shù)據(jù),起到把訓(xùn)練數(shù)據(jù)集變大的效果,幫助網(wǎng)絡(luò)更好地學(xué)習(xí)到有用的特征。不過(guò),現(xiàn)有的傳統(tǒng)音頻數(shù)據(jù)擴(kuò)增方法會(huì)帶來(lái)明顯的額外計(jì)算能力開(kāi)銷,有時(shí)也避免不了需要使用額外的數(shù)據(jù)。

    在谷歌 AI 的近期論文《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》(SpecAugment:一個(gè)用于自動(dòng)語(yǔ)音識(shí)別的簡(jiǎn)單數(shù)據(jù)擴(kuò)增方法,https://arxiv.org/abs/1904.08779)中,谷歌的研究人員們提出了一種擴(kuò)增音頻數(shù)據(jù)的新方法,主要思路是把它看做是一個(gè)視覺(jué)問(wèn)題而不是音頻問(wèn)題。具體來(lái)說(shuō),他們?cè)?SpecAugment 不再直接使用傳統(tǒng)的數(shù)據(jù)擴(kuò)增方法,而是在音頻的光譜圖上(音頻波形的一種視覺(jué)表示)施加擴(kuò)增策略。這種方法簡(jiǎn)單、計(jì)算力需求低,而且不需要額外的數(shù)據(jù)。它能非常有效地提高語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)。雷鋒網(wǎng) AI 科技評(píng)論根據(jù)谷歌技術(shù)博客介紹如下。

    新的音頻數(shù)據(jù)擴(kuò)增方法 SpecAugment

    對(duì)于傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng),音頻波形在輸入網(wǎng)絡(luò)之前通常都需要編碼為某種視覺(jué)表示,比如編碼為光譜圖。而傳統(tǒng)的語(yǔ)音數(shù)據(jù)擴(kuò)增方法一般都是在編碼為光譜圖之前進(jìn)行的,這樣每次數(shù)據(jù)擴(kuò)增之后都要重新生成新的光譜圖。在這項(xiàng)研究中,作者們嘗試就在光譜圖上進(jìn)行數(shù)據(jù)擴(kuò)增。由于直接作用于網(wǎng)絡(luò)的輸入特征,數(shù)據(jù)擴(kuò)增過(guò)程可以在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中運(yùn)行,而且不會(huì)對(duì)訓(xùn)練速度造成顯著影響。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    音頻波形(時(shí)間-振幅)關(guān)系轉(zhuǎn)化為梅爾頻譜圖(時(shí)間-梅爾頻率),然后再輸入網(wǎng)絡(luò)

    SpecAugment 對(duì)光譜圖的修改方式有:沿著時(shí)間方向扭曲,遮蔽某一些頻率段的信號(hào),以及遮蔽某一些時(shí)間段的發(fā)音。作者們選擇使用的這些擴(kuò)增方式可以幫助網(wǎng)絡(luò)面對(duì)時(shí)間方向的變形、部分頻率信號(hào)的損失以及部分時(shí)間段的信號(hào)缺失時(shí)更加魯棒。這些擴(kuò)增策略的示意圖如下。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    圖中的梅爾頻譜圖經(jīng)過(guò)了時(shí)間方向扭曲、多個(gè)頻率段信號(hào)遮蔽(橫條)以及多個(gè)時(shí)間段遮蔽(縱向條)。圖中的遮蔽程度有所夸張。

    作者們?cè)?nbsp;LibriSpeech 數(shù)據(jù)集上用實(shí)驗(yàn)測(cè)試了 SpecAugment 的效果。他們選取了三個(gè)語(yǔ)音識(shí)別常用的端到端 LAS 模型,對(duì)比使用數(shù)據(jù)擴(kuò)增和不使用數(shù)據(jù)擴(kuò)增的網(wǎng)絡(luò)表現(xiàn)。自動(dòng)語(yǔ)音識(shí)別模型表現(xiàn)的測(cè)量指標(biāo)是單詞錯(cuò)誤率(WER),用模型輸出的轉(zhuǎn)錄文本和標(biāo)準(zhǔn)文本對(duì)比得到。在下面的對(duì)比試驗(yàn)中,訓(xùn)練模型使用的超參數(shù)不變、每組對(duì)比中模型的參數(shù)數(shù)量也保持固定,只有訓(xùn)練模型用的數(shù)據(jù)有區(qū)別(使用以及不使用數(shù)據(jù)擴(kuò)增)。試驗(yàn)結(jié)果表明,SpecAugment 不需要任何額外的調(diào)節(jié)就可以提高網(wǎng)絡(luò)的表現(xiàn)。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    在 LibriSpeech 數(shù)據(jù)集上的測(cè)試中,每組測(cè)試中經(jīng)過(guò)數(shù)據(jù)增強(qiáng)(藍(lán)色條)都取得了更低的單詞錯(cuò)誤率。Test-other 數(shù)據(jù)集含有噪聲,Test-clean 數(shù)據(jù)集不含有噪聲

    更重要的是,由于 SpecAugment 擴(kuò)增后的數(shù)據(jù)里有故意損壞的部分,這避免了模型過(guò)擬合到訓(xùn)練數(shù)據(jù)上。作者們進(jìn)行了對(duì)比試驗(yàn)如下,未使用數(shù)據(jù)擴(kuò)增的模型(棕黃色線)在訓(xùn)練數(shù)據(jù)集上取得了極低的單詞錯(cuò)誤率,但是在 Dev-other(有噪聲測(cè)試集)和 Dev-clean(無(wú)噪聲數(shù)據(jù)集)上的表現(xiàn)就要差很多;使用了數(shù)據(jù)擴(kuò)增的模型(藍(lán)色線)則正相反,在訓(xùn)練數(shù)據(jù)集上的單詞錯(cuò)誤率較高,然后在 Dev-other 和 Dev-clean 上都取得了優(yōu)秀的表現(xiàn),甚至在 Dev-clean 上的錯(cuò)誤率還要低于訓(xùn)練數(shù)據(jù)集上的錯(cuò)誤率;這表明 SpecAugment 數(shù)據(jù)擴(kuò)增方法不僅提高了網(wǎng)絡(luò)表現(xiàn),還有效防止了過(guò)擬合的發(fā)生。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    借助 SpecAugment 取得前所未有的模型表現(xiàn)

    由于 SpecAugment 可以帶來(lái)沒(méi)有過(guò)擬合的表現(xiàn)提升,研究人員們甚至可以嘗試使用更大容量的網(wǎng)絡(luò),得到表現(xiàn)更好的模型。論文作者們進(jìn)行了實(shí)驗(yàn),在使用 SpecAugment 的同時(shí),使用參數(shù)更多的模型、更長(zhǎng)的訓(xùn)練時(shí)間,他們分別在 LibriSpeech 960h 和 Switchboard 300h 兩個(gè)數(shù)據(jù)集上都大幅刷新了此前的最佳表現(xiàn)記錄(SOTA)。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    作者們也為這種方法的出色表現(xiàn)感到驚訝,甚至于,以往在 LibriSpeech和 Switchboard 這樣較小的數(shù)據(jù)集上有優(yōu)勢(shì)的傳統(tǒng)語(yǔ)音識(shí)別模型也不再領(lǐng)先。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    借助語(yǔ)言模型再上一層樓?甚至都不需要

    自動(dòng)語(yǔ)音識(shí)別模型的表現(xiàn)還可以通過(guò)語(yǔ)言模型進(jìn)一步提高。在大量純文本數(shù)據(jù)上訓(xùn)練出的語(yǔ)言模型可以學(xué)到一些語(yǔ)言規(guī)律,然后用它來(lái)更正、優(yōu)化語(yǔ)音識(shí)別模型的輸出。不過(guò),語(yǔ)言模型通常需要獨(dú)立于語(yǔ)音識(shí)別模型訓(xùn)練,而且模型的體積很大,很難在手機(jī)之類的小型設(shè)備上使用。

    在 SpecAugment 的研究中,作者們意外發(fā)現(xiàn)借助 SpecAugment 訓(xùn)練的模型,在不使用語(yǔ)言模型增強(qiáng)的情況下就已經(jīng)可以擊敗之前的所有使用語(yǔ)言模型增強(qiáng)的模型。這不僅意味著語(yǔ)音識(shí)別模型+語(yǔ)言模型的總體表現(xiàn)也被刷新,更意味著未來(lái)語(yǔ)音識(shí)別模型完全可以拋棄語(yǔ)言模型獨(dú)立工作。

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    以往的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)研究多數(shù)都關(guān)注于找到更好的網(wǎng)絡(luò)結(jié)構(gòu),谷歌的這項(xiàng)研究也展現(xiàn)了一個(gè)被人忽略的研究方向:用更好的方法訓(xùn)練模型,也可以帶來(lái)大幅提升的網(wǎng)絡(luò)表現(xiàn)。

    論文原文見(jiàn):https://arxiv.org/abs/1904.08779

    via ai.googleblog.com,雷鋒網(wǎng) AI 科技評(píng)論報(bào)道

    谷歌用新的語(yǔ)音數(shù)據(jù)擴(kuò)增技術(shù)大幅提升語(yǔ)音識(shí)別準(zhǔn)確率

    分享:
    相關(guān)文章

    讀論文為生

    日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: avav我爱色| 日韩精品毛片无码一区到三区| 国产麻豆精品一区一区三区| 欧美另类高清videos的特点| 四房播播成人网| 国产日韩在线时看高清视频| 日本妇人成熟免费视频| 精品无码成人片一区二区| 激情伊人五月天久久综合| 人妻无码专区一区二区三区| 伊人综合成人| 韩日成人| 在线视频精品中文无码| 精品中文人妻在线不卡| 色欲狠狠躁天天躁无码中文字幕 | 狼色精品人妻在线视频免费| 久爱免费观看在线精品| 日本高清在线播放一区二区三区| 亚洲开心婷婷中文字幕| 国产v在线| 天堂中文在线资源| 一本一道人妻久久久久久久中文字幕| 亚洲av午夜成人片精品| 亚洲综合一区国产精品| 玩弄漂亮少妇高潮白浆| 九九热久久只有精品2| 中文字幕在线网址| 亚洲AV人人澡人人人夜| 国产亚洲精品a在线观看下载| 中文字幕精品亚洲四区| 色播久久人人爽人人爽人人片av | 涩涩视频成人| 国产精品日韩中文字幕熟女| 女子spa高潮呻吟抽搐| 538在线精品| 国产精品自在线拍国产| 久草热久草热线频97精品| 五月天婷婷网站| 影音先锋成人资源| 午夜福利院一区二区三区| 香蕉EEWW99国产精选免费|