• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給極限元
    發送

    0

    專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    本文作者: 極限元 2017-11-03 14:41
    導語:語音質檢方案主要涉及語音關鍵詞檢索、音頻對比、情感識別等核心技術。

    雷鋒網編者按:本文作者溫正棋為極限元智能科技 CTO 、中國科學院自動化研究所副研究員,畢業于中國科學院自動化研究所,在國際會議和期刊上發表論文十余篇,獲得多項關于語音及音頻領域的專利。雷鋒網授權發布本文。

    為了提高客戶滿意度、完善客戶服務,同時對客服人員工作的考評,很多企業會對此采用質檢的方式來保證其服務質量。以服務行業為例,呼叫中心是一個促進企業營銷、市場開拓并為客戶提供良好的交互服務系統,其位置相當重要。傳統的質檢方法需要質檢人員通過人工測聽的方式進行抽檢;人工抽檢方法工作量大且效率低,難以有效評價客服人員的服務質量。

    隨著人工智能技術的發展,語音和自然語音處理技術不斷取得突破,采用智能化的方法對電話語音中的內容進行深層次的分析,可以有效的節約人力成本并提高工作效率。語音質檢方案主要涉及語音關鍵詞檢索、音頻對比、情感識別等核心技術。

    1 語音關鍵詞檢索

    1.1 語音識別聲學模型

    隨著深度學習的興起,深層神經網絡也應用到了語音識別中的聲學建模,通過深層神經網絡模型替換 GMM-HMM 模型里的 GMM 模型,HMM 模型中的狀態轉移矩陣部分不變。DNN 通過在輸入端進行擴幀,從而能夠利用上下文信息,同時這種模型具有較強的非線性建模能力,但 DNN 的擴幀是有限的,所以它能夠利用的上下文信息是有限的。針對這一問題提出了基于 RNN 的聲學模型,RNN 能夠更充分的利用歷史信息進行聲學模型建模。但是在 RNN 訓練過程中會存在梯度消失和梯度膨脹的問題,梯度膨脹可以在訓練過程中加一些約束條件解決,當梯度超過一定值以后設定一個固定值;針對梯度消失問題,比較有效的解決方法是將里面的 RNN 單元變成長短時記憶模型 LSTM,這種模型的缺點是會增加計算復雜度,這也是在構建聲學模型時需要考慮的問題。CNN 是另一種比較主流的聲學模型,這種模型中包含的參數較少,谷歌、微軟、IBM 等企業均嘗試使用非常深的 CNN 模型,其識別性能超過其它深層神經網絡。

    CTC 是一個訓練準則,在傳統的基于深度學習的聲學模型輸出中,每個 phone 可能包含十幾楨甚至更多楨,因為它并不是一個尖峰,但是通過 CTC 訓練會把它變成一個尖峰;CTC 可以將每一幀變成一個 blank 幀或者對應的建模單元(音素、音節等),而每個建模單元只需要對應幾幀就可以了。在解碼的時候可以降低對 black 楨的搜索寬度,這樣可以顯著的增加解碼速度。減少解碼幀有兩種方法,一種是通過跳幀的方法,另一種在解碼過程中動態調整 beam 值,特別是遇到空白楨的時候把并 beam 值減少。

    1.2 基于語音識別的關鍵詞檢索

    基于語音識別的關鍵詞檢索是將語音識別的結果構建成一個索引網絡,然后把關鍵詞從索引網絡中找出來。從圖 1 中可以看到,首先將語音數據進行識別處理,從里面提取索引構建索引網絡,進行關鍵詞檢索的時候,我們會把關鍵詞表在網絡中進行搜索,找到概率最高的,輸出其關鍵詞匹配結果。

    專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    圖1. 基于語音識別的關鍵詞檢索

    構建檢索網絡是語音關鍵詞檢索的重要環節。如圖 2 所示,在第一個時間段內(w1、w3、w6、w7),這句話被識別成了四個不同的詞,語音識別只能給出一條路徑,但在語音關鍵詞檢索網絡中可以從四個結果中進行篩選。

    專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    圖 2 構建檢索網絡示意圖

    確定關鍵詞檢索網絡后,接下來進行的是關鍵詞檢索。關鍵詞檢索可以基于音節信息,首先將用戶設定的關鍵詞文本解析成音節序列,再從檢索網絡中找出匹配結果,相比直接對文本結果進行檢索,這種方法的容錯性更強,而且關鍵詞檢索中的聲學模型可以是基于 CTC 的模型,因此,計算量更小,執行效率更高,更適用于語音質檢這種海量數據檢索的應用場景。

    2 音頻對比

    音頻比對是指從音頻信號提取特征,通過特征進行比對的方法進行有害信息檢索的方法。該方法的核心在于提取的特征值需要滿足一定的要求,比如抗噪性、轉換不變性、魯棒性、快速性等特點,主要是為了滿足同一音頻能夠在不同聲道下進行準確檢索。傳統的 MFCC、FBANK 等聲學特征已經不能滿足音頻比對任務的需求。圖 3 是一個基于頻譜最大值來建模的音頻比對方法。在完成最大值點完成建模后,需要進行特征的構建。而特征構建是通過最大值點之間的距離來建模,例如兩個最大值點的距離、位置信息作為一個固定的特征來完成音頻特征信息的構建。有了上述音頻特征之后,就可以對兩個不同音頻進行檢索,最大相似度的地方就是相似點,這種技術最適用于文本內容無關的錄音片段的檢索。

     專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    圖 3. 基于頻譜最大值建模的音頻比對方法

    3 情感識別

    語音是人類交際的最重要的工具之一。人們在進行自然口語對話時,不僅傳遞聲音,更重要的是傳遞說話人的情感狀態、態度、意圖等。一般的情感語音識別系統框圖如圖 4 所示。根據情感模型的不同,情感語音識別主要分為離散情感識別和連續情感語音識別。

    專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    圖 4. 語音情感識別典型系統框圖

    離散情感識別是一個典型的模式分類問題,各種傳統的分類器均被廣泛應用于語音情感識別系統。例如隱馬爾科夫模型、高斯混合模型、支持向量機,人工神經網絡等。維度情感識別一般被建模為回歸預測問題。在機器學習算法層面,根據是否考慮序列上下文信息可將現有方法分為靜態機器學習算法和動態機器學習算法。在靜態機器學習算法中,AdaBoost、高斯混合模型、人工神經網絡、支持向量回歸等廣泛應用于維度情感識別中序列單元的回歸問題。鑒于維度情感的序列標注情況,序列上下文信息有助于提高情感識別性能,因而更多的工作集中于動態機器學習算法。隨著深度學習技術的發展,基于 LSTM-RNN 的系統便被更加廣泛的應用于維度情感識別領域。

    情感識別解決方案通過分析不同情感狀態和語音聲學參數的關聯關系,抽取出魯棒聲學特征參數,綜合考慮不同人對同一段語音的情感感知結果,建立語音情感識別模型。為了提高語音情感識別的魯棒性,采用非線性建模方法建立情感語音分析模型,有效的解決了噪聲環境下情感語音分析問題。針對情感識別中的時序建模問題,采用一種基于特征層建模和決策層建模相結合的多尺度時序建模方法。在特征層實現短粒度的時序建模。在決策層實現更長粒度的時序建模,并與特征層的時序建模實現相互補充。通過上述改進,有效的提高了語音情感識別的準確率,可以對通話者的情感狀態進行動態的捕獲和跟蹤。(雷鋒網)

    專欄 |解讀語音質檢方案:從關鍵詞檢索到情感識別

    分享:
    相關文章

    編輯

    極限元官方專欄賬號,重點解讀智能語音、計算機視覺、大數據分析等技術方向。歡迎交流!
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产成人a∨| 自拍偷区亚洲综合第二区| 成人午夜福利| 最新久久激情综合| 777米奇色狠狠俺去啊| 久久老熟女一区二区蜜臀| yellow网站在线观看| 久久精品人妻一区二区三区,亚洲AV永| 国产av一区二区三区区别| 国产精品欧美一区二区三区不卡| 亚洲视频欧美| 人妻精品动漫h无码| 久久久这里只有精品10| 亚洲欧美精品一中文字幕| 国产亚洲精品久久久久丝瓜| 国产精品水嫩水嫩| 国产淫语对白在线视频| 国产精品高清一区二区三区| 人妻少妇一区二区三区| 在线观看中文字幕国产码| 国产乱子伦精品视频| 欧美日屄| 国产亚洲精品VA片在线播放| 淫荡人妻中文字幕| 午夜福利偷拍国语对白| 国产成人91激情在线播放| 国产午夜三级一区二区三| 亚洲精品自产拍在线观看动漫| 99在线热视频只有精品免费| 成人电影一区二区三区| 麻豆成人精品国产免费| 色悠悠在线观看入口一区| av动态| 国产精品女丝袜白丝袜| 国产精品第二页在线播放| 熟女免费| 国产免费踩踏调教视频| 蜜桃臀无码AV在线观看| 国产综合色香蕉精品五月婷| 免费无码高潮流白浆视频| 2019亚洲午夜无码天堂|