0
| 本文作者: 六爺 | 2017-07-09 13:01 | 專題:GAIR 2017 |
雷鋒網按:2017 年 7 月 8 日,由 CCF 中國計算機學會主辦,雷鋒網與香港中文大學(深圳)承辦的全球人工智能與機器人峰會 CCF-GAIR 大會進入第二天。在智能助手專場,中國科學院聲學研究所副研究員、聲智科技創始人陳孝良帶來了以《人機語音交互的技術趨勢與商業機遇》為題的主題演講。

雷鋒網注:聲智科技創始人陳孝良
語音加速人機交互方式的變革,可能會重新定義很多消費電子。極端一點,如果將來所有消費電子都支持語音交互,那這個市場很大,基本上會在全球范圍內重構整個產業鏈條。
首先,麥克風在性能、低功耗方面要做很大改進。事實上,整個全球市場,國內的麥克風產業占比很小,即便國內有些麥克風利用國外的技術來進行生產,但核心技術還是不在國內。而且我們現在做的麥克風是標量麥克風,只能取一個物理量,如果要解決很復雜的聲學問題,就需要矢量麥克風。當然,矢量麥克風還有點遙遠。
第二個挑戰是芯片。我們現在所有的消費電子,特別是偏重人工智能的,前端大量用了 ARM 架構,GPU 比較少。GPU 用在服務端離線數據的訓練,這是我們很大的問題。比較靈活的 GPU,國外三家巨頭和國內基本沒有太大關聯。
第三個挑戰是算法。聲學是每個國家比較封閉的領域,因為聲學主要是為軍工服務,所以各個國家相互保密,只能各自發展。比如大量使用的機器學習,國內在做改進性技術,我們如何在原創方面比國外領先,這是很大的技術挑戰。

第四個挑戰是商業化挑戰,它又分為三個層面。
第一是產品。國外最著名的是亞馬遜 Echo,國內有京東、聯想、小米的產品。這些產品有的做過評測,我相信很難得到大家 100% 的認同,甚至大家能給 80 分就不錯了。這是個比較大的問題。
第二是內容和服務。國內的內容和服務比較割裂,騰訊在國內占有很大的音樂版權,百度有很大的搜索,交易大量在阿里,但亞馬遜就把很多優勢集中在一起。所以國內的產品很難避免和巨頭合作,但是三家巨頭如何合作?怎么選你的產品有很大的缺失。
第三是知識產權,標準。亞馬遜、微軟都在聯合生態做標準,甚至包括 ARM,本身我們也是 ARM 生態聯盟的。如果大家查專利,可以看到中文的專利也不是國內公司占領先地位。2010 年到 2015 年的排名順序,我們擠不進前列。

剛才說了很多挑戰,下面和大家交流一下技術的發展趨勢。
麥克風現在是標量麥克風,下一步做智能麥克風,最后要做到矢量麥克風。這么大的會場,如果大家小聲交流,這個聲音對機器來說就很難處理。另外芯片到底是什么架構?低功耗,對接云端,都是需要我們考慮的問題。
下一代 AI 技術是融合的。麥克風和視頻、雷達的融合,聲光電三個學術合在一起應該怎么做,這也是下一步需要整個研究和開發的。
算法與模型,我們做得更多。比如我們的聲源定位,目前只能跟蹤一個目標,能不能同時跟蹤多個目標,這是非常重要的,包括離線喚醒、離線語音識別。另外,機器學習是不是只用大數據,還是可以用別的方法做一些小樣數據的處理,進行冷啟動,這是我們下一步要研究的方法。
音響不存在死不死的問題,它是除了筆記本和手機以外,消費電子里面擁有量最多的。但我們做這個事情需要數據,特別是遠場數據,不像近場數據可以直接錄,這是非常嚴重的問題。冷啟動的時候必須要選一個品類獲得啟動數據。

在產品定位方面,國內外也有很大不同。
國外亞馬遜 Echo、谷歌 Home、蘋果 Homepod、微軟 Invoke,國內就是叮咚智能音響、聯想智能音響、小雅智能音響、天貓精靈。
國外的產品很忌諱叫 Speaker。當時蘋果推Homepod,大家都就猜是不是會帶“Speaker”,結果選了Homepod,它天然加了兩個因素,一個是Home,一個是pod,這和國內的定位有很大的差異。
現在智能音響的產品玩家很多,不光是巨頭,包括國內的、深圳很多廠商都做,這里面比較嚴重的問題是亞馬遜對生態鏈的重視,可能遠不如我們想的那么重要。因為亞馬遜比較喜歡玩自由生態。前段時間亞馬遜和蘋果聯合降價就可以看出,它可以把產品突然降 100 美元,如果考慮生態鏈,這是非常嚴重的,可能導致很多廠商的產品賣不出去。
遠場語音交互的開始是智能音響,但是將來絕對不僅僅是智能音響,其他人也不會把技術限定在智能音響,還包括很多其他的產品。
來自雷鋒網報道。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。