<sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"><tfoot id="pqc61"></tfoot></sub><sub id="pqc61"></sub>

在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码

<em id="5it8z"><b id="5it8z"></b></em>

<menuitem id="5it8z"></menuitem>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給楊曉凡

發(fā)送

0

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

本文作者：楊曉凡

2017-09-28 16:57

導(dǎo)語：深度學(xué)習(xí)在語音生成和語音增強(qiáng)上的新穎應(yīng)用方法

雷鋒網(wǎng) AI 科技評論按：深度學(xué)習(xí)在2006年嶄露頭角后，近幾年取得了快速發(fā)展，在學(xué)術(shù)界和工業(yè)界均呈現(xiàn)出指數(shù)級增長的趨勢；伴隨著這項(xiàng)技術(shù)的不斷成熟，深度學(xué)習(xí)在智能語音領(lǐng)域率先發(fā)力，取得了一系列成功的應(yīng)用。

這次分享會(huì)中，雷鋒網(wǎng)邀請到了中科院自動(dòng)化所的劉斌博士。劉斌，中科院自動(dòng)化所博士，極限元資深智能語音算法專家，中科院-極限元智能交互聯(lián)合實(shí)驗(yàn)室核心技術(shù)人員，曾多次在國際頂級會(huì)議上發(fā)表論文，獲得多項(xiàng)關(guān)于語音及音頻領(lǐng)域的專利，具有豐富的工程經(jīng)驗(yàn)。劉斌博士會(huì)與大家分享近年來深度學(xué)習(xí)在語音生成問題中的新方法，圍繞語音合成和語音增強(qiáng)兩個(gè)典型問題展開介紹。

雷鋒網(wǎng) AI 科技評論把此次演講的概要整理如下。想要進(jìn)一步了解的讀者，可以在文末觀看視頻，還可以根據(jù)劉斌博士的指導(dǎo)查找相關(guān)資料增加了解。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

劉斌：大家好。深度學(xué)習(xí)近幾年發(fā)展非常火熱，在學(xué)術(shù)界和工業(yè)界都有許多成果和應(yīng)用。深度學(xué)習(xí)在語音領(lǐng)域也已經(jīng)落地解決了許多問題，語音合成、語音增強(qiáng)、語音轉(zhuǎn)換、語音帶寬擴(kuò)展等等。今天重點(diǎn)講解語音合成和語音增強(qiáng)兩個(gè)問題下的方法。

語音合成

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

語音合成的任務(wù)目標(biāo)是從文本輸入到聲學(xué)特征的轉(zhuǎn)換。在生成語音之前，文本首先需要進(jìn)行分析預(yù)處理，其中正則化針對數(shù)字和特殊符號(hào)，音字轉(zhuǎn)換針對多音字，韻律處理讓生成的語音抑揚(yáng)頓挫、有節(jié)奏感，然后再進(jìn)行后端的生成。聲學(xué)處理常用的方法有統(tǒng)計(jì)參數(shù)建模和聲碼器的方法。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

這是傳統(tǒng)基于隱馬爾可夫框架（HMM）的統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)，在訓(xùn)練過程中建立文本參數(shù)到音頻參數(shù)之間的映射關(guān)系。其中有三個(gè)環(huán)節(jié)會(huì)導(dǎo)致語音音質(zhì)下降：決策樹聚類、聲碼器重新生成語音、以及動(dòng)態(tài)參數(shù)生成算法。針對這三個(gè)問題點(diǎn)，就有人提出用深度學(xué)習(xí)的方法進(jìn)行改進(jìn)。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

深度學(xué)習(xí)的方法里，用神經(jīng)網(wǎng)絡(luò)代替決策樹的作用，建立文本特征和聲學(xué)特征之間的關(guān)系，就提高了模型的精度。對于具體的模型結(jié)構(gòu)，LSTM比DBN具有更強(qiáng)的序列學(xué)習(xí)能力，所以使用LSTM時(shí)經(jīng)常可以跳過參數(shù)生成算法，直接預(yù)測語音參數(shù)，然后送到聲碼器中就可以生成語音了。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力也能在一定程度上提升語音合成系統(tǒng)的性能。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

最近一兩年在工業(yè)界也有一些新的語音合成方法，比如基于WavNet的語音合成。這是一種從時(shí)域（聲波在不同時(shí)間的采樣值大小）的角度出發(fā)處理語音問題的方法，問題本身很有挑戰(zhàn)性；傳統(tǒng)方法都是從頻域（聲波在不同時(shí)間的頻率高低）出發(fā)的。谷歌提出的WavNet可以直接把文本參數(shù)和聲波的采樣值建立對應(yīng)關(guān)系。它的主要問題是，每次只能輸出單個(gè)采樣點(diǎn)的值，導(dǎo)致計(jì)算速度慢、生成效率低。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

百度也提出了基于 DeepVoice 的語音生成系統(tǒng)，用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了其中多個(gè)模塊，然后以類似WavNet的模塊生成語音。它的計(jì)算速度相比 WavNet 提升了約400倍。隨后百度進(jìn)一步拓展為了DeepVoice2，可以支持多說話人的語音合成，每個(gè)人也最少也只需要半個(gè)小時(shí)數(shù)據(jù)就可以達(dá)到比較理想的效果。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

Tacotron是谷歌推出的比較新穎的語音合成系統(tǒng)，它的特點(diǎn)是使用了編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu)，好處在于輸入和輸出序列的長度可以不需要保持一致；并且引入了注意力機(jī)制，可以提升性能。結(jié)構(gòu)里還包含一個(gè)后處理網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸出是一個(gè)頻譜圖，用相位重構(gòu)算法就可以轉(zhuǎn)換為語音。這種方法里繞開了聲碼器模塊，可以提升語音的質(zhì)量

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

目前語音合成方面還有一些問題沒有解決，一，多數(shù)方法還是面向單個(gè)說話人的。對于多個(gè)說話人、多語言的語音合成效果仍然不太理想。遷移學(xué)習(xí)相關(guān)的方法有可能會(huì)對這類問題的解決做出貢獻(xiàn)。二，目前的語音系統(tǒng)生成的聲音的表現(xiàn)力還有所不足，尤其是合成口語的時(shí)候，效果會(huì)有下降。

語音增強(qiáng)

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

語音增強(qiáng)是語音識(shí)別、聲紋識(shí)別等算法中重要的前端處理模塊。它的優(yōu)劣在一定程度上影響著后續(xù)識(shí)別方法的魯棒性。根據(jù)麥克風(fēng)的數(shù)目不同，語音增強(qiáng)可以分為單通道語音增強(qiáng)和多通道語音增強(qiáng)。多通道語音增強(qiáng)可以更有效低利用聲音的空間信息，增強(qiáng)目標(biāo)方向的聲音信息，抑制分目標(biāo)方向的干擾源；這類方法今天先不作具體介紹，感興趣的可以參見麥克風(fēng)陣列技術(shù)的相關(guān)資料。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

圖中展示了四種主要的干擾源，真實(shí)狀況下可能是同時(shí)存在的，這就給語音增強(qiáng)帶來了很大難度。以下介紹一些單通道語音環(huán)境下的語音增強(qiáng)方法。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

單通道語音增強(qiáng)的方法主要分為三大類。基于深度學(xué)習(xí)的語音增強(qiáng)方法下面會(huì)做詳細(xì)一些的介紹。這里也是利用了深度學(xué)習(xí)強(qiáng)大的非線性建模的能力，在匹配的環(huán)境下優(yōu)勢很明顯，在處理非平穩(wěn)噪聲的時(shí)候也有一定的優(yōu)勢。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

這是一種通過深層神經(jīng)網(wǎng)絡(luò)直接預(yù)測譜參數(shù)的方法，它的輸入是帶噪語音的幅值譜相關(guān)特征，輸出是干凈語音的幅值譜相關(guān)特征，然后建立了兩者間的映射關(guān)系。網(wǎng)絡(luò)結(jié)構(gòu)可以是DNN，可以是LSTM，甚至可以是CNN。這類方法可以更有效地捕捉到上下文的信息，所以處理非平穩(wěn)噪聲時(shí)有一定優(yōu)勢。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

深層神經(jīng)網(wǎng)絡(luò)還可以用來預(yù)測屏蔽值。這類方法中，模型的輸入可以是聽覺域相關(guān)特征，輸出可以是二值型的屏蔽值或者浮點(diǎn)型的屏蔽值。這類方法根據(jù)聽覺感知的特性把音頻分為了不同的子帶，提取特征參數(shù)。它的實(shí)際作用是判斷時(shí)頻單元內(nèi)的內(nèi)容是語音還是噪聲，然后根據(jù)判斷結(jié)果保留時(shí)頻單元內(nèi)的能量或者置零。這類方法的優(yōu)勢是，共振峰處的能量可以得到很好的保留，而相鄰共振峰之間、波谷處的語音雖然會(huì)失真較多，但是人類對這些信息不敏感，所以仍然有相對較高的可懂度。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

以往的方法主要關(guān)注于聲音的幅值譜，沒有利用到相位譜中的信息。復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)中的復(fù)數(shù)譜就是一種同時(shí)利用幅值譜和相位譜的方法。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

現(xiàn)在還有利用生成式對抗網(wǎng)絡(luò)GANs的語音增強(qiáng)方法。GANs是這兩年的熱點(diǎn)范式，目前在語音領(lǐng)域中的應(yīng)用還不多，不過今年也已經(jīng)有人提出運(yùn)用在語音增強(qiáng)中。這篇論文中的方法中，不再需要RNN結(jié)構(gòu)網(wǎng)絡(luò)中的遞歸操作，可以直接處理原始音頻，是端到端的方法，不需要手工提取特征，也不需要對原始數(shù)據(jù)做明顯的假設(shè)。生成器結(jié)構(gòu)采用了CNN，而且沒有全連接層，這樣可以減少模型參數(shù)數(shù)量、縮短訓(xùn)練時(shí)間；端到端直接處理原始語音信號(hào)的方法也避免了變換、提取聲音特征等復(fù)雜過程。鑒別器仍然起到引導(dǎo)生成器更新的作用。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

除了剛才說到的一些主要針對環(huán)境噪聲抑制的方法之外，PIT方法則可以處理兩個(gè)或更多說話人聲音混疊時(shí)的分離問題。還有一種基于深層聚類的分離方法。不過為了在真實(shí)環(huán)境下可用，去噪音、去混響等問題也需要考慮，分離問題仍然有很大的困難。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

語音增強(qiáng)領(lǐng)域目前仍待解決的問題是，如何在消除噪聲的同時(shí)有效提高語音的可懂度、聽感（避免消除語音本身的特征），以及，語音增強(qiáng)方法作為后續(xù)語音識(shí)別和聲紋識(shí)別方法的預(yù)處理模塊，需要前后合理對接，而不應(yīng)完全分別設(shè)計(jì)，這樣才能提高整個(gè)系統(tǒng)的魯棒性。

極限元算法專家：深度學(xué)習(xí)在語音生成問題上的典型應(yīng)用 | 分享總結(jié)

最后，對于未來發(fā)展的展望，語音生成領(lǐng)域許多問題雖然建模方法不同，但是也有許多值得互相借鑒的部分，可以促進(jìn)相互提高。深度學(xué)習(xí)雖然是火熱的方法，但是也不能指望深度學(xué)習(xí)解決所有的問題。并且，要先對處理對象的物理含義有深入的理解，在這個(gè)基礎(chǔ)上尋找合適的模型、對模型進(jìn)行優(yōu)化，才能得到較好的問題解決效果。

視頻回放

此次分享的視頻回放可以戳這里。

雷鋒網(wǎng)還有許多CV、NLP方面的分享活動(dòng)，歡迎繼續(xù)關(guān)注我們！

8人收藏

分享：

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

Android 亞馬遜 app 激光雷達(dá) Apple TV 聊天機(jī)器人酷派蘋果發(fā)布會(huì) 數(shù)據(jù)庫陌陌 Lyft

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

主站蜘蛛池模板：望谟县| 亚洲综合国产伊人五月婷| 三男一女吃奶添下面视频| 国产精品福利在线观看无码卡一| 人妻日韩人妻中文字幕| 人妻有码av中文字幕久久琪| 国产午夜成人久久无码一区二区 | 日日碰狠狠添天天爽| 色熟妇人妻久久中文字幕| 国产亚洲精品第一综合另类| 亚洲一区二区三区丝袜| 久热99在线播放| AV无码中文字幕不卡一区二区三区| 九九久久国产精品大片| 中文字幕无码不卡免费视频| 久久久无码精品亚洲日韩蜜桃| 日韩性色| 中文字幕亚洲乱码熟女在线萌芽| 中文字幕综合嫩草| 丝袜无码一区二区三区| 谁有老熟女网站| 2021亚洲国产精品无码| 亚洲日产韩国一二三四区| 人妻在线免费公开视频| 色婷婷亚洲精品天天综合| 91久久人澡人妻天天做天天爽 | 国产大尺度一区二区视频| 国产免费丝袜调教视频| 国产精品区一区二区三在线播放| 国产亚洲视频在线观看播放| 欧洲亚洲国内老熟女超碰| 国模精品视频一区二区| 国模精品在线| 国产污视频在线观看| 无码人妻丰满熟妇区96| 久热这里只有精品视频3| 久久亚洲视频| 人妻系列一区| 噜噜色综天天综合网| 国产精品亚洲中文字幕| 熟妇人妻任你躁在线视频|

<dfn id="ot5tl"></dfn>

<pre id="ot5tl"></pre>

<del id="ot5tl"><option id="ot5tl"><form id="ot5tl"></form></option></del>