• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給謝幺
    發送

    1

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    本文作者: 謝幺 2017-01-14 12:23
    導語:相對于第一場比賽,本場實打實的較量似乎對于業界和公眾都更有意義。

    如果說在上一輪人機大戰的人臉識別對決中,由于小度對陣了并不擅長人臉識別的王峰,令比賽意義打了折扣,那么昨天進行的第二輪聲音識別的人機大戰,雖然最終只是戰平,但對于AI 界的意義卻似乎更大。

    原因有兩點:一、公認實力頂尖的對手;二、業界公認困難的比賽內容

    在對手上,此次迎戰百度小度的是名人堂公認最擅長聲音辨別的選手孫亦廷,他辨別聲音細節的能力在名人堂無出其右,能通過水球從0~70米高空墜地破碎的聲音,來準確辨別水球下落時的高度。這相當于在一根70米長的琴弦上拉奏任意位置,他都通過音高準確辨別拉弦的位置,甚至比這更困難。

    在比賽內容上,存在當前聲紋識別領域公認的幾大難點。我們不妨先看看比賽規則:

    由嘉賓周杰倫在21位專業合唱團成員中任選三位歌唱者,并與其進行現場通話,通話錄音被截取成片段,人機共同根據這些“只言片語”的童話片段,在隨后的合唱表演中一次找出這三位歌唱者。

    看完比賽規則后,連專業人士也認為這對目前的聲紋識別技術有較大的難度,極限元的聯合創始人、人工智能專家馬驥告訴雷鋒網:

    影響聲紋識別的聲音特征參數比如韻律、節奏、基頻、速度等等因素,這些在說話和唱歌時是完全不同的。對于小度來說,學習訓練建模用的語音數據和最終進行識別的語音數據,生物特征差別太大就會導致判斷失誤。


    低質量的語音數據,又要在強噪聲干擾下對歌唱數據進行識別,對小度來說確實挑戰很大。

    據以往對聲紋識別技術的了解,雷鋒網發現百度小度此次至少面臨聲紋識別領域中的3個困擾:

    一、收集正常說話聲,卻需要辨別唱歌

    我們知道,聲紋識別的基本原理其實是特征值比對,通過之前收集的聲音中提取特征值來形成特征庫,之后將需要辨別的聲音與特征庫中的數據進行比對。問題就在于,專業合唱者的歌聲和正常說話時聲音的特征是有明顯區別的。

    實際上,對于專業合唱者來說,在唱歌時發聲部位靠后,正常說話時發生部位靠前,從物理上看,發聲部位都不一樣。這就要求機器學習算法具有極強的「泛化能力」,能夠準確處理學習時沒有遇到過的樣本。

    小度如果想要成功辨別,就必須具備在較少的數據(只言片語)中辨別同一個人在說話和唱歌時差距的能力。

    二、合唱發聲差異性極小且互相影響

    目前聲紋識別技術尚未完全解決的一大難題就是對抗環境噪音干擾,以及在多人同時發聲條件下對聲音的識別。在現場除了有環境底噪之外,每個合唱隊員在發聲時或多或少都會混進一些別人的聲音。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    此外,在聲紋識別中也存在類似于人臉識別中的”雙胞胎難題”——聲音的趨同效應。此次嘉賓周杰倫在合唱團中挑選的人的聲音差異性非常小,而大合唱本身又要求聲音整齊和諧,這又進一步提高了辨別的難度——大家會刻意通過改變發音習慣等來使得合唱達到更好的效果。

    三、聲音片段不完整且時間過短

    人在發音時,存在著協同發音效應,即一句話前后相連的語音總是彼此影響,而這些特性會被機器以數據驅動的方式學習到模型中。

    而在本次比賽中,語音被特意處理為了不連續的信號,人的一些發音習慣就很可能被損壞掉,加大了小度機器人對原本說話人特征提取表征的難度。

    對于機器學習算法來說,一段語音的時間越長,那么捕捉的有效特征就越多,如果語音過短則會大大降級識別率,這就是聲紋識別領域中的短時語音聲紋驗證難題。而在節目中截取后的錄音片段,一整條語音不超過10個字,有效時間小于 3s。這就給小度的算法帶來了極大的難度——它需要更有效地從短時的、斷斷續續的線人說話聲中提取出所能表征的個人信息。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    本文暫且不討論這些條件對于人類的困難程度,因為孫亦廷擁有的辨音能力并非通過后天訓練可獲得,天賦就占據了主導因素。單就對于機器而言這也是前所未有的挑戰,使得百度語音技術部總監高亮在現場多次出現咬唇、皺眉等緊張狀態。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    小度兩次辨別失誤的背后發生了什么?

    最終,三個環節的較量雙方以1:1平局告終。人類選手孫亦廷也成功辨別第二位歌唱者,而小度也只成功辨別了第三位歌唱者。有趣的是,第一次人機均辨別錯誤,而錯誤答案竟出乎意料的一致。小度在前兩次失敗和一次成功中究竟經歷什么?負責百度人工智能技術研究的核心專家向雷鋒網透露其中的奧秘。

    百度首席科學家吳恩達(Andrew Ng)表示,“在此次人機大戰之前,我們使用了2萬個人的數據和超過5000個小時的訓練時間來訓練我們的模型。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    【吳恩達和林元慶正在講解節目背后的原理】

    兩個模型出現“分歧”

    吳恩達說,在本次比賽中,小度使用了兩套聲紋識別領域比較經典的算法來進行聲音識別,一是基于 DNN-ivector 的系統,一是基于端對端深度神經網絡的說話人特征提取。同時使用兩套系統能分別從不同角度對說話人的特征進行提取,最后再將兩個模型進行融合,這樣能有效提升系統的魯棒性(Robustness)。  

    他說,實際上兩個模型都在三次辨別中正確辨別了兩次,但是當兩個模型的結果融合在一起的時候,反而最終只辨別對了一個。原因主要在于辨別難度較高,兩套算法模型在前兩輪出現了“分歧”。

    吳恩達說,第一個模型判斷正確了一、三輪,第二個模型判斷正確了二三輪,當兩個模型在出現“分歧”時,哪一個算法表現地更 “自信”,就取用誰的答案。這就好比人們在考數學題時用了兩種解題思路,解出了不同的答案,由于時間緊迫只能選擇一個“相對靠譜”的答案。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    他坦言,兩個模型都判斷對了兩個,但是最終的結果反倒只對了一個,這確實有些"unlucky"(不湊巧),存在一定概率問題。但也確實讓看到了優化的空間,未來希望能使用更優的方法,比如使用更多數量的模型來進行綜合計算。

    通過自適應調整來辨別唱歌

    百度小度是如何通過說話聲來“聽懂”歌聲的,這讓許多人疑惑不解。百度深度學習實驗室(IDL)主任林元慶告訴雷鋒網:

    第一步,我們會利用大量的標準化數據來進行底座訓練,得到一個基本的模型,這個是沒有特殊處理的,比如在我們采取20000個人的語音數據都是從語音搜索引擎抽取出來的,通過這些數據我們就可以訓練出一個非常好的模型。


    在此基礎上,我們收集少量的,比如1000個人在特殊場景下的聲音,比如說唱歌。在比賽之前我們知道有唱歌內容,但是不知道要唱什么歌,于是去收集一些歌來訓練模型,讓模型能夠更準確的識別說話和唱歌時的聲音差異。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    【DNN-ivector 算法如何辨別唱歌】

    如何解決底噪和多人同時說話

    對于如何解決背景噪音的問題上,吳恩達表示,通常在訓練模型時會刻意加入一些背景噪音的數據,我們可以通過疊加兩段聲音的疊加來得到一段新的帶噪音的語音,將這些噪音放入到我們的深度神經網絡進行訓練,就可以在一定程度上解決背景噪音的問題。

    在和環境底噪相比,聲紋識別更大的難題是多人同時發聲音。當兩(多)個人同時說話,且聲音的音色、頻率相近時,機器很難區分哪一個是自己想要聽的,哪一個是噪音。而人的耳朵經過多年的進化,已經獲得了一種叫做“雞尾酒會效應”的神奇能力,能自動屏蔽不想聽到的聲音。

    對此,百度語音識別技術負責人李先剛坦言,

    就現在的深度學習或者相關技術來說,處理同一個麥克風捕捉的多人同時說話的數據確實很難做,還有很多地方值得我們去挑戰。但就實際應用場景來說,有其他方法可以較好地解決該問題,比如強化定位,正如人有兩個耳朵可以定位聲音源,在實際應用中我們可以采用多個麥克風來加強目標聲源的聲音,這樣就能較好地分辨目標聲源和周圍嘈雜。

    吳恩達告訴雷鋒網,此次百度在CES上推出的最近推出的小魚(Little Fish)機器人中配置了2個麥克風,可以一定程度解決多人說話的問題,未來還可以用4個、7個甚至更多麥克風來處理該問題。

    由此我們發現,雖然21位歌唱者是以合唱的形式進行發聲,但節目組“很有心機”地為每個人都配備了高指向型的,這正是為了盡可能避免相互聲音干擾的問題。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理    

    從比賽的結果來看,雖然小度前兩次均識別失敗,且節目組有些“雞賊”地以合唱之名來突出辨別的難度,事實上由于每個選手都單獨配備了麥克風,小度獲取的語音數據也許幾乎無異于單獨錄制。但總體看來,各個因素造成的聲紋識別難度是業界有目共睹的,且拋開所謂技術理想,百度大腦“秀肌肉”的目的就已然達到。

    隨著人工智能的發展,未來這樣的“人機大戰”可能會更加頻繁的上演,人類智慧天賦的極限在短時間內幾乎很難上升,但機器進步的空間卻依然很大。正如當年第一臺蒸汽火車被發明出來時,有人駕著馬車譏笑火車沒有馬車快一樣,那些譏笑火車的人最終受到歷史的譏笑。如果人們在看待人機大戰之時,只關心“誰戰勝了誰”,那么總有一天人機大戰也會失去意義。

    下周五,再次出山的“水哥”王昱珩和小度機器人據說依然會進行圖像識別相關的比拼。具有頂尖觀察力、腦力的人類,和世界一流的人工智能之間還會碰撞出怎樣的火花?還需拭目以待。雷鋒網將繼續為您帶來報道和技術分析,也希望更多人的關注點不再僅僅聚焦于輸贏。

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    最強大腦“人機大戰”第二輪戰平,吳恩達詳解背后技術原理

    分享:
    相關文章

    編輯

    關注網絡安全、黑客、白帽子那些事, 歡迎來聊聊你的故事。
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲熟妇自偷自拍另类| 蜜臀av一区二区精品字幕| 国产乱子伦农村xxxx| 内射老阿姨1区2区3区4区 | 欧美白丰满老太aaa片| 伊人大杳蕉中文无码| yjizz视频国产网站在线播放| 人妻蜜臀久久av不卡| 国产不卡一区二区精品| 久久婷婷综合色丁香五月| 固镇县| AV一本久道久久波多野结衣| 998av资源影音先锋| 国产一区二区三中文字幕| 手机av中文字幕| 欧美亚洲影音先锋| 张北县| 爆乳午夜福利视频精品| 人妻三级成| 国产精品亚洲综合一区二区| 精品国产中文字幕在线| 动漫精品中文字幕无码| 安宁市| 福利社91| 国产精品被熟女| 亚洲精品中文av在线| 天啦噜国产精品亚洲精品| 草久视频| 久久精品国产99国产精偷| 中文字幕日韩人妻诱惑| JIZZJIZZJIZZ亚洲日本| 国产高清国产精品国产专区| 亚洲综合网中文字幕在线| 久青草影院在线观看国产 | 99热播这里只有精品国产首页| 99久久精品美女高潮喷水| 内射无套内射国产精品视频| av不卡一区二区| 亚洲欧美日韩综合一区在线| 国产v片在线播放| 亚洲区欧美区综合区自拍区 |