首發 | 阿里iDST總監初敏加盟思必馳，將建立北京研發團隊（附專訪）

本文作者：劉芳平

2017-08-28 13:55

導語：擔任思必馳VP、思必馳北京研發院院長，拓展語音技術在物聯網外的新業務、新場景的落地。

雷鋒網消息，8月28日，智能語音交互技術公司思必馳宣布，阿里iDST總監初敏博士加入思必馳，擔任思必馳VP、思必馳北京研發院院長，拓展語音技術在物聯網外的新業務、新場景的落地。

初敏原來的團隊交給了阿里 iDST 語音組總監鄢志杰管理，“他很能干的”。

在接受雷鋒網專訪時，初敏表示自己選擇加入思必馳的原因主要是，“對人工智能特別是語音交互的未來的觀點”和后者很一致，而且創業公司可以做到十分專注。

加入思必馳后，初敏將領導建立思必馳北京研發院，初期目標是在一年左右建立50人的團隊，二年達到100人的規模。研發院不僅將進行基礎技術的研究，也將探索語音在更多場景里的應用。

首發 | 阿里iDST總監初敏加盟思必馳，將建立北京研發團隊（附專訪）

關于初敏博士

初敏是中科院聲學所博士，主要研究方向覆蓋語音識別與合成、自然語言處理、機器學習和數據挖掘、大數據處理和計算等，在相關領域發表了近百篇學術論文并取得20多項國內外專利。

2000年，初敏博士加入微軟，在微軟亞洲研究院從事科學研究近10年，創建并領導語音合成研究小組，研制出了第一個中英文雙語語音合成系統“木蘭”；

2009年入職阿里巴巴，擔任阿里iDST智能語音交互方向負責人，使Yun OS、支付寶、手機淘寶、釘釘等產品具備語音交互能力；

2017年加入思必馳，擔任思必馳VP、思必馳北京研發院院長，拓展語音技術在物聯網外的新業務、新場景的落地。

以下為采訪實錄，雷鋒網作了不改變原意的刪減。

雷鋒網：為什么離開阿里加入思必馳？

初敏：其實我跟老高（高始興）和俞凱很早以前就認識了，但是沒有聊這方面的事。在阿里八年，感覺也是時候迎接一些新的變化和挑戰，陸續收到很多大公司的橄欖枝，恰巧最近有些機會和老高深聊，我覺得我們對人工智能特別是語音交互的未來的觀點其實蠻一致的。

未來的3到5年是一個AI技術實用化成型的過程，是我們的一個共識。跟俞凱也談了很多技術，包括深度學習怎么在自然語言中去更好的應用，怎么能讓機器更快地從人這里學習。我覺得蠻談得來的，有很多共識做事會很方便，這是一個很重要的原因。

阿里的團隊是我建起來的，團隊來說我們是一個相當好的團隊。公司大有大量的好處，比如資金更充足資源更豐富一些，數據、計算能力這種技術環境會更好，但是思必馳專注只做一件事情的公司，這對我來講是有吸引力的。

其實也跟朋友聊是不是要創業，我覺得自己還沒有這個勇氣自己去創業，哈哈，這個過程太痛苦了。

但是加入一個思必馳這樣在創業過程的公司，對我來說逃避了最開頭的那一段，希望通過我的加入能幫助這家公司更快地成長。

雷鋒網：加入思必馳后，對于將來的工作有什么樣的規劃？

初敏：因為其實就是這兩天的事情。我們希望做的事情是，原來思必馳基本上的團隊是在蘇州，至少技術團隊是，北京這邊幾乎沒有技術人員，但是其實北京是人才最豐富的地方，所以我會在北京建立一個北京的研發院。

這個研發院會做一些核心技術的研發，也會做一些工程上的，包括真正在應用場景中的一些落地。不只是把原來的東西做得更精細，而是開辟出更多新場景，使整個語音交互為核心的技術能有更強更多的輻射面。

我們這些做技術出身的人，就是希望自己做的技術真的被很多人用，這是最大的成功。掙多少錢是附帶的，因為這個過程中不掙錢的話做不到那一步，只要能做到那步一定能掙到錢。但是最大的是自我的成就感，一定是來自于很多人用而且感覺很好。

雷鋒網：關于北京團隊的規劃您現在有比較詳細的一些想法嗎？

初敏：在規劃之中，主要思路是主要以研發人員為主，核心技術以及工程落地的，以后可能會有一些業務落地的。

希望在一年左右能招到50人左右，兩年左右可能是一百人的規模。

細的東西還要更細致地做工作以后才能把詳細計劃落實，但是現在開始我們也開始在招聘，包括北京新的HR開始要招募了。因為原來都是蘇州整個管掉，現在也會在這配套。

雷鋒網：語音識別公司現在是不是到了拼市場份額，合作案例經驗積累的時候了，研究上的進步只是錦上添花，不起決定作用？

初敏：我們建立的團隊不是一個純研究的團隊。今天我覺得中國所有的團隊都不是一個像以前在微軟MSRA一樣的研究團隊，包括iDST也不是。

北京的團隊我稱之為研發，有研究的成員，但最終一定是開發成一個完整的東西，然后這個東西是可以用的。

你剛才說的這個，我有非常多的實踐經驗，特別是在過去這幾年碰到了很多用戶的實際問題，的確是這樣子的。但是也不能說技術就是錦上添花，而是說這兩個腿都不能短。一個是核心技術的研發，一個是所謂的工程導向或者是產品導向。總而言之，要把產品用戶體驗做到完備兩個都必須有。

我們在兩塊都會做，思必馳不是定位在產業鏈條的某一個環節，而是希望至少把語音交互這個完整場景做出來，包含了鏈條中的每個環節。

因為這個過程是相輔相成的，過程有好多環節，這些環節是個鏈條，只要有一個鏈條出問題，最后的用戶體驗就會很差。所以要把整個鏈條閉合，從核心技術到平臺到產品一直到用戶體驗。

鏈條上的基礎建設，好多都是核心技術，比如語音識別本身深度學習的建模技術可以做到更好。

但是下一個問題是如果數據是在A場景采集的，拿到B場景不好了，模型換成B場景可能不太好了，那么要多快，用什么樣的數據規模，多長時間把它帶過去，這時候會有一個困難的轉移過程。可以從頭到尾訓，也可以做Transfer Learning，這個就是比核心技術了。

但是話又說回來，最終還是需要一個鏈條。最后希望達到的是，客戶給我上傳，比如說多少多少小時的一個標準數據，我很快就得到一個模型，那在他這個地方就好了。所以實際上是場景的適應能力，解決一些這樣的問題，最終才能大規模的把這個技術鋪開。

我在這邊也會去搭建這種基礎設施，核心實力我認為就是快。對于核心實力我一直認為，特別是在今天這種所謂的大數據時代，數據很多（理論上很多，但實際上分散在不同領域）。要把數據管理好，把不同場景的數據更好地用起來，包括在一個新的場景中用起來。這里就有核心算法的的提升空間了，也有很多工程上要把這件事情做順暢的方面。

還是剛才說的，這兩個腿都做起來，迭代效率快，那你將來去實施就很快，才真正具備商業化的能力，要不然都是A項目B項目C項目，做一個項目花的成本差不多，那就很辛苦。

我們要做到的是，做第一個項目，比如花費是1，第二個項目花費可能是0.5，第三個項目花費就是0.3了，以后可能每一個項目生成就是花個0.1、0.15的代價，甚至做到更低，這時候才能從一個到一百個或者到幾百個。

磨就是這個過程。每復制一次，成本都下降，實現規模化，最終產生經濟效益。

雷鋒網：對于場景落地這塊您有什么規劃嗎？

初敏：思必馳在一些現有的地方還是蠻強的，比如在汽車，特別是后裝，還有智能家居包括音箱，其實好多家用的都是我們的解決方案。

我希望我進來不是在這些地方添點磚加點瓦，而是會試圖去探索一些新場景，現在有很多可能性，是什么今天還沒有完全弄清楚。所以會從招聘開始，和底層一些技術建設，場景還是要慢慢看的，沒有那么快，但是一定會去探索更多的，我相信是很多的。

雷鋒網：有沒有想法做一個消費品牌？

初敏：目前還沒有，原因也比較清晰，就是實際上這個鏈條很長，如果我們什么都做了，很有可能做不好。而且做了這個端實際上和別的端是競爭的關系，所以今天我覺得可能不會往實際產品做，但是也不排除自己去做一兩個demo，更好地展示技術。

雷鋒網：您怎么看現在火爆的智能音箱？

初敏：我覺得蠻有爭議的，不是特別看好。首先，我覺得Echo是不是真的叫成功，就是看你怎么定義成功，如果從品牌、影響的角度來看，是挺成功的，因為它利用了這整個潮流，出了影響，一堆人跟著做。

但是我也跟有些人聊過，實際上它的粘性并不見得好，大家因好玩新鮮，所以買了一個回家，但是有多少人在買回家三個月后還在天天用，很少。換句話說這個音箱是不是真的解決了問題，變成一個必需品，這個問題沒有看到。

美國市場和中國市場也不太一樣，美國市場大概只聽到這兩個（Echo和Google Home）。中國沒有這樣的領導產品，一堆公司在做。中國今天最大的問題還是沒解決核心問題，很多人只是買它來玩一下，知道它能干啥，之后可能就沒興趣了，真的有什么事總找音箱做的很少。

有幾個原因，一是他上頭能干的事情真的太少了，一個東西必須讓我覺得能信賴他，至少一類事情我持續找它，它都能做，對這我才會養成習慣。所以我覺得這不光是語音技術的問題了，是背后他到底能干什么事。今天還大家還稱之為音箱，那就是聽音樂，那顯然這樣子的音箱聽音樂都不是最好的選擇，就是大幾百塊錢的音箱，也不是好到哪里的。

Echo稍微好一點，接入了很多控制功能，美國人房子大，在樓上關下樓下的燈什么的，這種需求可能還稍微強一點，在中國沒有這么強，當然從某種角度講還是存在的。

所以我覺得最后的爭論不是技術問題，不是說語音識別準不準（當然它也有問題），是說它能聽懂的話，我想干的事情里他能做多少，這是我覺得最關鍵的。

雷鋒網：這幾年智能語音交互借著新的AI技術實現了快速的發展，不過前段時間也看到一些觀點，說深度學習正遇到瓶頸。所以想問，您認為語音識別、NLP這塊，在接下來幾年技術上會有怎樣的發展，是否會遇到瓶頸？

初敏：深度學習到今天雖然已經很火了，好像已經到處都是了，一般相關的學術會議可能至少一半或者更高的論文都和它相關。但是我今天的觀點是還沒有到飽和期，技術的替代是一個過程。就像語音識別從深度學習獲得的第一步成功，是在原有的HMM框架后加了一塊，把原來的模型提升了。

所以這個（技術替代）過程中還是有很多嘗試可以做的。語音現在的這套統計的深度學習框架，不是一個完全的理論推導的技術，是有個基本的理論框架，最后它是否work，是靠實驗來做的。

包括它們的拓撲結構，建模單元的大小，因為起步都是依賴原來那套體系，所以后續能做的事情還有很多，比如變一變建模單元。會慢慢的把原來的那些東西換掉，然后去嘗試新的東西，像現在很多新的模型其實就是在改變單元，因為單元一大解碼速度就快很多。

另外一方面是場景適應，傳統我們叫它adaptation，或者你也可以叫它Transfer Learning，這塊也可以嘗試不同的方法。

還有，語音里頭現在更多是聲學模型上用了深度學習，語言模型上有嘗試，但沒有特別的成功，因為語言模型計算復雜度高。但是今天雞肋并不證明這個方法不對，而是還沒有做出最好的方法，這一部分也有很多人在嘗試。所以我覺得至少還有個五年、十年的空間它才會飽和。

但是，也不排除在這個過程中會長出新的分支，比這個看起來還更優秀，那也是有可能的，特別是在自然語言上，我覺得空間更大。

我覺得自然語言處理還處于非常早期的階段。語音的識別很難，但是他是一個定義非常清晰的問題，進去這段錄音出來就是這個字，沒有二義性，所以是最適合學習。自然語言是問題沒定義清楚，你可以這樣定義問題，把它定一個分類問題，也可以把它變成一個序列轉換問題，而且一個任務是由好多小問題組成，還是作為一個整體。所以在自然語言里還需要想怎么更好地使用深度學習，包括可能需要引入強化學習的概念，那么要怎么引入？

比如強化學習里一直擔心什么是reward，怎么定義成功失敗，有很多這些問題。這塊明顯的還能走更長，包括問題怎么定義法，以前分的小問題是不是可以用一個問題就能解等，這些地方我覺得有很多可嘗試的空間。

4月16日 20:30-21:30 ，雷鋒網旗下學術頻道 AI 科技評論聯合AI慕課學院、騰訊課堂邀請思必馳CMO龍夢竹為大家帶來一場直播分享！點擊鏈接報名參與吧！！

課程主題：《人工智能需要科學家，也需要普通人》

報名鏈接：https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。