1
2017 年 7 月 5 日,智能音箱的市場上又多了一個重磅玩家。
在預熱一周之后,淘寶的首任產品經理、現阿里人工智能實驗室負責人淺雪,終于在今天下午為大眾揭開了智能音箱天貓精靈 X1 的面紗。現場,阿里還請來了王自如對 X1 進行了實測。
目前來看,除了 499 元的價格之外,X1 最大的亮點在于解決了購物的支付驗證環節。

和市面上的大多數智能音箱產品一樣,天貓精靈 X1 也采用了圓柱形的設計,并有黑白兩種配色。
相比亞馬遜的 Echo 和蘋果的 HomePod,X1 的體積控制的比較好,高度 126mm,直徑 82mm,而亞馬遜 Echo 的尺寸為 235 mm x 84 mm 。
X1 的頂部中央,配有一枚靜音鍵,當用戶觸發此鍵時,X1 會立刻停止聲音播放,并停止識音功能。底部則設計了一圈隱藏指示燈,可以根據不同使用功能和場景配合進行提示。
在配置方面,采用的是聯發科在今年的谷歌 I/O 2017 開發者大會期間發布的 MT8516,而這款芯片主要面向智能語音助手設備(Voice Assistant Devices)和智能音響的系統設備。
據雷鋒網了解,MT8516 支持四核心 64 位 ARM Cortex-A35,主頻為 1.3GHz。該芯片還內建 WiFi 802.11 b/g/n 和支持藍牙 4.0。此外,MT8516 還支持多達 8 個 TDM 通道和 2 個 PDM 輸入,以支持來自多個源的音頻輸入,適用于遠場(Far-field)麥克風語音控制和智能音響設備。
至于麥克風陣列,雷鋒網從淺雪那了解到,X1 采用了思必馳的 6 麥克風環形陣列方案,能夠在家庭環境下實現 5 米范圍語音識別。
X1 的喚醒詞為 “天貓精靈”,淺雪表示,這是出于設計和市場推廣考慮。不過,初次使用的用戶,需要先在手機上安裝天貓精靈 App,用以綁定賬號。據淺雪介紹,X1 采用了一鍵聲波配網,聯網時間不到10秒,而市面上同類產品通常至少30秒。
播放音樂、查詢天氣、設定鬧鐘、朗讀故事、操控智能家電...... 這些都是大多數智能音箱已經具備的功能。除了這些意外,X1 還擁有一些特色功能,包括充話費、網上購物、查快遞等。
其中,網上購物尤為值得關注,因為 X1 不僅實現了聲紋識別,更為重要的是,打通了支付環節。
用戶先將自己的聲音注冊后生成聲音密碼,與機器綁定后,確認開啟聲紋購功能。隨后,當用火狐說出 “幫我買一箱牛奶” 這樣的需求時,天貓精靈會要求用戶跟著念一串隨機數字進行聲紋校驗,如果確認為用戶本人,天貓精靈會從用戶綁定的支付寶中進行扣款完成交易。
淺雪介紹,聲紋識別技術是生物識別的重要識別手段之一,結合服務鏈多重安全機制,已達到商用的級別。這也是阿里在語音深度學習領域的核心技術之一。據悉,天貓精靈目前最多可以識別 6 個人的身份。
作為對比,亞馬遜的 Echo 目前還不支持聲紋識別。
顯然,這些服務是需要聯網的。而在這些服務的背后,就是阿里的第一代中文人機交流系統 AliGenie。
據介紹,天貓精靈 X1 內置的 AliGenie,應用了阿里積累多年的自然語言理解和處理技術。
為了壯大 ALiGenie 的生態,阿里人工智能實驗室還同時發布了面向開發者和硬件廠商的 AliGenie 開發者平臺。
AliGenie 開發者平臺將向應用開發者免費開放 NLP 語義理解、TTS 語音合成等多項自然語言處理技術。開發者既可以創建技能,為更多的語音用戶提供服務,也可以將自己的設備接入云端服務,獲取語音交互能力。
目前,天貓超市、菜鳥、KEEP 等已推出基于 X1 的語音應用。現場,王自如專門測試了針對健身的 “倒計時” 功能,從現場的演示效果來看,這個功能并不智能。
針對內容創作者,AliGenie 還提供了語音公眾號功能,開發者只需將語音或文字上傳至后臺就可以完成應用的創建和發布,文字將通過語音合成引擎轉換為語音,用戶可以通過訂閱實現定時播放或者點播,開發者也可以進行主動推送。
此外,AliGenie 開發者平臺還為硬件制造企業準備了單麥克風到多麥克風陣列的參考設計方案,并提供包括喚醒詞定制,聲學結構,核心電路設計和芯片方案在內的相關套件的參考設計,以及云端服務和應用管理所必要的全套工具和用戶 APP SDK 組件。接入的硬件設備能夠快速具備人機語音交互能力,并共享應用商店的所有應用技能。
顯然,阿里做智能音箱的目的并不只是為了做智能音箱。
實際上,這并不是阿里首次涉足智能音箱領域。
早在兩年前,阿里巴巴旗下的阿里智能就分別與飛利浦與漫步者兩家廠商合作,分別推出了智能音箱產品 “小飛” 和“MA1/3/5”。
在宣傳時,阿里表示,這兩款音箱利用了阿里云大數據分析能力,可以了解用戶的聽音習慣和喜好,并號稱是會成長的智能音箱。
當時,中國市場上最火熱的還是 WiFi 音箱。
不過,這兩款產品的表現未能讓阿里滿意。淺雪在會后接受采訪的時候,也主動提到了當年的兩款音箱產品。
她表示, “其實做天貓精靈 X1 有一個很重要的原因,它需要的東西太多了,今天行業里面的硬件廠商單獨去打造(這樣)一個硬件產品,要整合那么多資源,還得要有 AI 的技術,(這)是很困難的。所以,我們其實是借著天貓精靈 X1,, 打造了這樣一套系統,阿里巴巴也非常愿意分享這樣的一個技術給到行業的。”
結合 AliGenie 開發者平臺為硬件制造企業準備的單麥克風到多麥克風陣列的參考設計方案,可以發現,阿里做音箱,真的不只是為了做音箱而已,倒是有點微軟推 Surface 的意思:既然大家都做不好,那么我就自己做一款產品,為那些 OEM 廠商提供一個模板。顯然,這是出于壯大 AliGenie 生態的考慮。
不過,中國市面上的智能音箱產品實在太多。美國市場上目前仍然是亞馬遜 Echo 一家獨大,然而中國市場的版圖仍然支離破碎,目前還沒有哪一家的產品能達到 Echo 在美國的高度。
而且,雖然 X1 只要 499 元,但是京東旗下的叮咚 TOP 智能音箱目前的售價為 299 元。也就是說,X1 不僅推的晚,而且在性價比方面并沒有太大的優勢。
不過,淺雪對 X1 很自信。在她看來,X1 的核心競爭力在于 AliGenie 人機交流系統。要做好人機交流系統,需要對很多不同領域的理解,而且還要有很多的服務。
當有記者問到科大訊飛時,淺雪表示,“到目前為止,很少見到科大訊飛在語言理解這部分開放相關的 SDK”,而這個卻是 AliGenie 很核心的一個點。
伴隨著 X1 的一同出現在公眾視野的,還有阿里人工智能實驗室——A.I. Labs。
據淺雪介紹,阿里人工智能實驗室(A.I. Labs)成立于 2016 年,主要負責阿里巴巴集團旗下消費級 AI 產品的研發,而 iDST 主要負責 AI 基礎技術的研發,兩者有所區分。
在發布會現場,雷鋒網也發現了阿里人工智能實驗室杰出科學家——王剛教授的身影。
由于王剛教授在計算機視覺方面有很深的造詣,之前有人猜測,阿里人工智能實驗室聘用王剛教授是不是要進行計算機視覺方面的研究。不過,淺雪表示,他們看中的是王剛教授對深度學習大領域的深刻理解。
此外,因為 Labs 是復數,很多人猜測著意味著 A.I. Labs 會分成語音識別、NLP、計算機視覺等多個實驗室。但是,淺雪表示,他們實際上是按算法實驗室、終端實驗室...... 這樣來分的。
不過,阿里方面對于人工智能實驗室后續有哪些產品計劃并不愿多談。顯然,阿里也還在如何實現 AI 商業化的道路上摸索。
在采訪環節結束后,淺雪講了一個小故事:當她在給馬老板演示 X1 是如何回答用戶的 “我是誰” 這個問題時,馬老板驚呆了。
不知道,當時的馬老板心里是不是在想,“So TMD What?”
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。