0
| 本文作者: 劉芳平 | 2017-08-28 13:55 |
雷鋒網消息,8月28日,智能語音交互技術公司思必馳宣布,阿里iDST總監初敏博士加入思必馳,擔任思必馳VP、思必馳北京研發院院長,拓展語音技術在物聯網外的新業務、新場景的落地。
初敏原來的團隊交給了阿里 iDST 語音組總監鄢志杰管理,“他很能干的”。
在接受雷鋒網專訪時,初敏表示自己選擇加入思必馳的原因主要是,“對人工智能特別是語音交互的未來的觀點”和后者很一致,而且創業公司可以做到十分專注。
加入思必馳后,初敏將領導建立思必馳北京研發院,初期目標是在一年左右建立50人的團隊,二年達到100人的規模。研發院不僅將進行基礎技術的研究,也將探索語音在更多場景里的應用。

初敏是中科院聲學所博士,主要研究方向覆蓋語音識別與合成、自然語言處理、機器學習和數據挖掘、大數據處理和計算等,在相關領域發表了近百篇學術論文并取得20多項國內外專利。
2000年,初敏博士加入微軟,在微軟亞洲研究院從事科學研究近10年,創建并領導語音合成研究小組,研制出了第一個中英文雙語語音合成系統“木蘭”;
2009年入職阿里巴巴,擔任阿里iDST智能語音交互方向負責人,使Yun OS、支付寶、手機淘寶、釘釘等產品具備語音交互能力;
2017年加入思必馳,擔任思必馳VP、思必馳北京研發院院長,拓展語音技術在物聯網外的新業務、新場景的落地。
以下為采訪實錄,雷鋒網作了不改變原意的刪減。
初敏:其實我跟老高(高始興)和俞凱很早以前就認識了,但是沒有聊這方面的事。在阿里八年,感覺也是時候迎接一些新的變化和挑戰,陸續收到很多大公司的橄欖枝,恰巧最近有些機會和老高深聊,我覺得我們對人工智能特別是語音交互的未來的觀點其實蠻一致的。
未來的3到5年是一個AI技術實用化成型的過程,是我們的一個共識。跟俞凱也談了很多技術,包括深度學習怎么在自然語言中去更好的應用,怎么能讓機器更快地從人這里學習。我覺得蠻談得來的,有很多共識做事會很方便,這是一個很重要的原因。
阿里的團隊是我建起來的,團隊來說我們是一個相當好的團隊。公司大有大量的好處,比如資金更充足資源更豐富一些,數據、計算能力這種技術環境會更好,但是思必馳專注只做一件事情的公司,這對我來講是有吸引力的。
其實也跟朋友聊是不是要創業,我覺得自己還沒有這個勇氣自己去創業,哈哈,這個過程太痛苦了。
但是加入一個思必馳這樣在創業過程的公司,對我來說逃避了最開頭的那一段,希望通過我的加入能幫助這家公司更快地成長。
初敏:因為其實就是這兩天的事情。我們希望做的事情是,原來思必馳基本上的團隊是在蘇州,至少技術團隊是,北京這邊幾乎沒有技術人員,但是其實北京是人才最豐富的地方,所以我會在北京建立一個北京的研發院。
這個研發院會做一些核心技術的研發,也會做一些工程上的,包括真正在應用場景中的一些落地。不只是把原來的東西做得更精細,而是開辟出更多新場景,使整個語音交互為核心的技術能有更強更多的輻射面。
我們這些做技術出身的人,就是希望自己做的技術真的被很多人用,這是最大的成功。掙多少錢是附帶的,因為這個過程中不掙錢的話做不到那一步,只要能做到那步一定能掙到錢。但是最大的是自我的成就感,一定是來自于很多人用而且感覺很好。
初敏:在規劃之中,主要思路是主要以研發人員為主,核心技術以及工程落地的,以后可能會有一些業務落地的。
希望在一年左右能招到50人左右,兩年左右可能是一百人的規模。
細的東西還要更細致地做工作以后才能把詳細計劃落實,但是現在開始我們也開始在招聘,包括北京新的HR開始要招募了。因為原來都是蘇州整個管掉,現在也會在這配套。
初敏:我們建立的團隊不是一個純研究的團隊。今天我覺得中國所有的團隊都不是一個像以前在微軟MSRA一樣的研究團隊,包括iDST也不是。
北京的團隊我稱之為研發,有研究的成員,但最終一定是開發成一個完整的東西,然后這個東西是可以用的。
你剛才說的這個,我有非常多的實踐經驗,特別是在過去這幾年碰到了很多用戶的實際問題,的確是這樣子的。但是也不能說技術就是錦上添花,而是說這兩個腿都不能短。一個是核心技術的研發,一個是所謂的工程導向或者是產品導向。總而言之,要把產品用戶體驗做到完備兩個都必須有。
我們在兩塊都會做,思必馳不是定位在產業鏈條的某一個環節,而是希望至少把語音交互這個完整場景做出來,包含了鏈條中的每個環節。
因為這個過程是相輔相成的,過程有好多環節,這些環節是個鏈條,只要有一個鏈條出問題,最后的用戶體驗就會很差。所以要把整個鏈條閉合,從核心技術到平臺到產品一直到用戶體驗。
鏈條上的基礎建設,好多都是核心技術,比如語音識別本身深度學習的建模技術可以做到更好。
但是下一個問題是如果數據是在A場景采集的,拿到B場景不好了,模型換成B場景可能不太好了,那么要多快,用什么樣的數據規模,多長時間把它帶過去,這時候會有一個困難的轉移過程。可以從頭到尾訓,也可以做Transfer Learning,這個就是比核心技術了。
但是話又說回來,最終還是需要一個鏈條。最后希望達到的是,客戶給我上傳,比如說多少多少小時的一個標準數據,我很快就得到一個模型,那在他這個地方就好了。所以實際上是場景的適應能力,解決一些這樣的問題,最終才能大規模的把這個技術鋪開。
我在這邊也會去搭建這種基礎設施,核心實力我認為就是快。對于核心實力我一直認為,特別是在今天這種所謂的大數據時代,數據很多(理論上很多,但實際上分散在不同領域)。要把數據管理好,把不同場景的數據更好地用起來,包括在一個新的場景中用起來。這里就有核心算法的的提升空間了,也有很多工程上要把這件事情做順暢的方面。
還是剛才說的,這兩個腿都做起來,迭代效率快,那你將來去實施就很快,才真正具備商業化的能力,要不然都是A項目B項目C項目,做一個項目花的成本差不多,那就很辛苦。
我們要做到的是,做第一個項目,比如花費是1,第二個項目花費可能是0.5,第三個項目花費就是0.3了,以后可能每一個項目生成就是花個0.1、0.15的代價,甚至做到更低,這時候才能從一個到一百個或者到幾百個。
磨就是這個過程。每復制一次,成本都下降,實現規模化,最終產生經濟效益。
初敏:思必馳在一些現有的地方還是蠻強的,比如在汽車,特別是后裝,還有智能家居包括音箱,其實好多家用的都是我們的解決方案。
我希望我進來不是在這些地方添點磚加點瓦,而是會試圖去探索一些新場景,現在有很多可能性,是什么今天還沒有完全弄清楚。所以會從招聘開始,和底層一些技術建設,場景還是要慢慢看的,沒有那么快,但是一定會去探索更多的,我相信是很多的。
初敏:目前還沒有,原因也比較清晰,就是實際上這個鏈條很長,如果我們什么都做了,很有可能做不好。而且做了這個端實際上和別的端是競爭的關系,所以今天我覺得可能不會往實際產品做,但是也不排除自己去做一兩個demo,更好地展示技術。
初敏:我覺得蠻有爭議的,不是特別看好。首先,我覺得Echo是不是真的叫成功,就是看你怎么定義成功,如果從品牌、影響的角度來看,是挺成功的,因為它利用了這整個潮流,出了影響,一堆人跟著做。
但是我也跟有些人聊過,實際上它的粘性并不見得好,大家因好玩新鮮,所以買了一個回家,但是有多少人在買回家三個月后還在天天用,很少。換句話說這個音箱是不是真的解決了問題,變成一個必需品,這個問題沒有看到。
美國市場和中國市場也不太一樣,美國市場大概只聽到這兩個(Echo和Google Home)。中國沒有這樣的領導產品,一堆公司在做。中國今天最大的問題還是沒解決核心問題,很多人只是買它來玩一下,知道它能干啥,之后可能就沒興趣了,真的有什么事總找音箱做的很少。
有幾個原因,一是他上頭能干的事情真的太少了,一個東西必須讓我覺得能信賴他,至少一類事情我持續找它,它都能做,對這我才會養成習慣。所以我覺得這不光是語音技術的問題了,是背后他到底能干什么事。今天還大家還稱之為音箱,那就是聽音樂,那顯然這樣子的音箱聽音樂都不是最好的選擇,就是大幾百塊錢的音箱,也不是好到哪里的。
Echo稍微好一點,接入了很多控制功能,美國人房子大,在樓上關下樓下的燈什么的,這種需求可能還稍微強一點,在中國沒有這么強,當然從某種角度講還是存在的。
所以我覺得最后的爭論不是技術問題,不是說語音識別準不準(當然它也有問題),是說它能聽懂的話,我想干的事情里他能做多少,這是我覺得最關鍵的。
初敏:深度學習到今天雖然已經很火了,好像已經到處都是了,一般相關的學術會議可能至少一半或者更高的論文都和它相關。但是我今天的觀點是還沒有到飽和期,技術的替代是一個過程。就像語音識別從深度學習獲得的第一步成功,是在原有的HMM框架后加了一塊,把原來的模型提升了。
所以這個(技術替代)過程中還是有很多嘗試可以做的。語音現在的這套統計的深度學習框架,不是一個完全的理論推導的技術,是有個基本的理論框架,最后它是否work,是靠實驗來做的。
包括它們的拓撲結構,建模單元的大小,因為起步都是依賴原來那套體系,所以后續能做的事情還有很多,比如變一變建模單元。會慢慢的把原來的那些東西換掉,然后去嘗試新的東西,像現在很多新的模型其實就是在改變單元,因為單元一大解碼速度就快很多。
另外一方面是場景適應,傳統我們叫它adaptation,或者你也可以叫它Transfer Learning,這塊也可以嘗試不同的方法。
還有,語音里頭現在更多是聲學模型上用了深度學習,語言模型上有嘗試,但沒有特別的成功,因為語言模型計算復雜度高。但是今天雞肋并不證明這個方法不對,而是還沒有做出最好的方法,這一部分也有很多人在嘗試。所以我覺得至少還有個五年、十年的空間它才會飽和。
但是,也不排除在這個過程中會長出新的分支,比這個看起來還更優秀,那也是有可能的,特別是在自然語言上,我覺得空間更大。
我覺得自然語言處理還處于非常早期的階段。語音的識別很難,但是他是一個定義非常清晰的問題,進去這段錄音出來就是這個字,沒有二義性,所以是最適合學習。自然語言是問題沒定義清楚,你可以這樣定義問題,把它定一個分類問題,也可以把它變成一個序列轉換問題,而且一個任務是由好多小問題組成,還是作為一個整體。所以在自然語言里還需要想怎么更好地使用深度學習,包括可能需要引入強化學習的概念,那么要怎么引入?
比如強化學習里一直擔心什么是reward,怎么定義成功失敗,有很多這些問題。這塊明顯的還能走更長,包括問題怎么定義法,以前分的小問題是不是可以用一個問題就能解等,這些地方我覺得有很多可嘗試的空間。
4月16日 20:30-21:30 ,雷鋒網旗下學術頻道 AI 科技評論聯合AI慕課學院、騰訊課堂邀請思必馳CMO龍夢竹為大家帶來一場直播分享!點擊鏈接報名參與吧!!
課程主題:《人工智能需要科學家,也需要普通人》
報名鏈接:https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。