0
| 本文作者: 金紅 | 2017-10-12 15:54 | 專題:云棲大會(huì) 2017 |

編者按:Misa,中文名祝銘明,前阿里巴巴 M 工作室領(lǐng)頭人,負(fù)責(zé)深度學(xué)習(xí),視覺和自然語言處理的研發(fā),2014年離職創(chuàng)立人工智能企業(yè)Rokid(若琪)。10月12日,祝銘明作為云棲大會(huì)演講嘉賓再次現(xiàn)身,宣布Rokid將與阿里云攜手合作,共同推出全棧語音開放平臺(tái),為業(yè)界提供一站式語音解決方案,打造AI時(shí)代開放平臺(tái)的新標(biāo)配。此消息一出引起內(nèi)業(yè)廣泛關(guān)注,國內(nèi)語音方案提供商科大訊飛的股票也一度暴跌。
以下內(nèi)容為祝銘明演講內(nèi)容,雷鋒網(wǎng)進(jìn)行了編輯:
謝謝大家,三年我們都沒有參加云棲大會(huì),外界說我們一直在憋大招。在演講之前我先說一句話,我們沒有被收購,但仍然能夠跟阿里一起做出非常精彩的東西;今天的演講我希望大家更多地站在這一次我們發(fā)布之后給整個(gè)產(chǎn)業(yè)帶來什么樣的變革做一些思考。
我們是一家不知名的小公司,所以先簡單做一下介紹。Rokid在2014年成立之初就在中美兩地都設(shè)立了實(shí)驗(yàn)室,在北京有一個(gè)實(shí)驗(yàn)室專門從事人工智能的算法方面的研究;在美國有一個(gè)實(shí)驗(yàn)室從事一些新技術(shù)的探索和研究。在創(chuàng)業(yè)公司里邊,能夠在兩地設(shè)立專門的研究團(tuán)隊(duì)是比較少見的。在兩個(gè)實(shí)驗(yàn)室,我們有數(shù)十名年輕的科學(xué)家,非常有創(chuàng)意,非常有才華,一直在從事很多領(lǐng)域的研究,包括語音技術(shù)、信號(hào)處理、計(jì)算機(jī)視覺、電子工程、材料等諸多方面的研究。
在一家創(chuàng)業(yè)型公司,單位密度有這么多的科學(xué)家,這在中國是比較罕見的。
Rokid的數(shù)百名工程師在不斷努力地將科學(xué)研究成果轉(zhuǎn)換成用戶能看得到、摸得到、接觸得到的技術(shù)、工程及產(chǎn)品,這是我們的一大特點(diǎn)。
同時(shí),不僅僅止步于研究和工程,我們還有非常頂級(jí)的設(shè)計(jì)團(tuán)隊(duì),產(chǎn)品設(shè)計(jì)、產(chǎn)品定義、交互、材料、工業(yè)設(shè)計(jì),我們的團(tuán)隊(duì)一直在做。剛才主持人也提到了我們成立之后幾乎每年都拿獎(jiǎng),相信我們還會(huì)繼續(xù)拿獎(jiǎng)。CES組委會(huì)的一位朋友說你們再拿獎(jiǎng)就可以拿“終身榮譽(yù)獎(jiǎng)”了。
另外我們不僅僅是在技術(shù)層面,Rokid想要做的事情是將最好的層面,最邊界的技術(shù)用在老百姓看得到的產(chǎn)品上,所以我們不斷地向市場推出新的產(chǎn)品。我們每一年會(huì)給出新產(chǎn)品的體驗(yàn),有數(shù)萬用戶參與與Rokid的互動(dòng),這種互動(dòng)的價(jià)值在本質(zhì)上是怎樣能夠找到(好技術(shù)),因?yàn)楫a(chǎn)品與技術(shù)之間的鴻溝很大,你怎樣能夠找到很好的技術(shù)用在正確的方向上,怎樣傳遞技術(shù)的發(fā)展趨勢以及科技對生活的改變到底是怎樣的,這產(chǎn)生了一種交互,我們一直在摸索。
我們的團(tuán)隊(duì)有幾十個(gè)博士,大部分人都在自己的專業(yè)領(lǐng)域沉淀十年以上,包括語音、信號(hào)以及一整套全棧的基礎(chǔ)研究。
另外,在Rokid成立的這三年我們就做一件事情,從軟件到算法到硬件到產(chǎn)品,整個(gè)的端對端的打磨,我們不僅僅是簡單地提供某一解決方案或整個(gè)方案里邊的某幾個(gè)環(huán)節(jié),我們要做的是內(nèi)容和服務(wù),最后一直走到用戶終端體驗(yàn)上,我們要做端對端的打磨,這樣才能做出非常體驗(yàn)極致的產(chǎn)品,這是我們一直保持的宗旨。
做了這么多,我們的產(chǎn)品現(xiàn)在也已經(jīng)上市兩代了,銷量也非常不錯(cuò),我們的用戶反饋也非常地好。AI技術(shù)有一個(gè)特點(diǎn),這個(gè)特點(diǎn)是什么?當(dāng)你打造完一個(gè)產(chǎn)品以后,如果一家公司做端對端的細(xì)節(jié)打磨會(huì)沉淀出一個(gè)全棧的技術(shù)能力,這個(gè)能力一定是過剩的。因?yàn)锳I時(shí)代有一個(gè)特點(diǎn),無法像手機(jī)時(shí)代一樣以單一的產(chǎn)品形態(tài)去贏得整個(gè)戰(zhàn)場。所以當(dāng)一家公司不可能分散各種精力去做不同產(chǎn)品的時(shí)候,你要具備全棧能力的話要怎么辦?我們有三年的積累,以及我們對于用戶體驗(yàn)的理解和細(xì)化,我們將這種能力在今天通過阿里云的大平臺(tái)分享給整個(gè)產(chǎn)業(yè),所以這也是很多人意料之外的。Rokid是一家專注做產(chǎn)品的公司,今天為何會(huì)來這里跟大家溝通,而且我們選擇阿里云的IOT專場。我相信大家一定會(huì)很好奇,其實(shí)大家不用好奇,Rokid在成立的第一天,就與阿里云在緊密地合作,我自己也是從阿里云出來的。我們的高性能計(jì)算等很多服務(wù)都已經(jīng)跑在了阿里云的云計(jì)算上,在這方面我們已經(jīng)打磨了整整三年的時(shí)間了。
在這個(gè)月我們宣布一個(gè)重要的合作,阿里云和Rokid攜手向智能產(chǎn)業(yè)致敬,我們會(huì)形成比較好的合作。接下來向大家展示我們的一個(gè)產(chǎn)品,這是針對工程師、合作伙伴和一些科技愛好者的,包括你是企業(yè)的合作者或是一些感興趣的個(gè)人愛好者。如果做一個(gè)產(chǎn)品,以Rokid的風(fēng)格來講一定要做到極致,做到漂亮,很少有工程師和開發(fā)者做出非常漂亮的產(chǎn)品,大家認(rèn)為開發(fā)者就應(yīng)忍受零亂的線路,丑陋的開發(fā)板以及極其難用的開發(fā)環(huán)境,其實(shí)不然,我們要給大家極致的體驗(yàn)。
我們會(huì)將自己的整個(gè)語音智能解決方案分享給整個(gè)產(chǎn)業(yè),那么它跟其他人的智能解決方案有何不同?
其實(shí)非常簡單,我們就將我們在產(chǎn)品上這么多年打磨的能力分享給所有人,定位成一個(gè)ALL-IN-ONE全棧語音智能方案,也就是說除了之前硬件軟件以及端上的體驗(yàn),我們還包括云端的內(nèi)容跟阿里云合作,整個(gè)IOT都會(huì)打包在這個(gè)方案里邊給到大家。這么多的內(nèi)容給到大家,它會(huì)是一個(gè)什么樣的東西?就長成這樣(下圖)。上面是一個(gè)LED燈的指示,有12個(gè)LED燈可以指示方向和狀態(tài),我們有兩顆、四顆跟六顆麥克風(fēng),都集成在此。

整個(gè)解決方案包括通信、技術(shù)、藍(lán)牙、GPU、CPU以及麥克風(fēng)陣列、信號(hào)處理、整套算法,還包括跟云端的合作,跟IOT設(shè)備的互聯(lián)互通。接下來我們會(huì)詳細(xì)地講到我們在這方面的努力。
一個(gè)3.5毫米的音頻輸出,傳統(tǒng)的耳機(jī)輸出,這是接口。這么小的設(shè)備里邊可以接MicroHDMI顯示輸出,直接接電視接顯示。Type-C電源調(diào)試,還可以對外輸出充電。

所以我們就以這樣的極致之美向工程師致敬,在座的各位都是IOT方面的專家,大家可以認(rèn)真想象一下用這樣的產(chǎn)品可以做什么。
我們的合作伙伴的開發(fā)板,開發(fā)板可以用在一些交互比較復(fù)雜和豐富的產(chǎn)品上,電視、車載等任何比較有想象力的產(chǎn)品上。
用這樣的開發(fā)板開發(fā)會(huì)是一種什么樣的場景?你有一臺(tái)筆記本,可以進(jìn)行USB充電,接上耳機(jī),所有的東西都在了。
我們對產(chǎn)品的定義是精簡、漂亮、強(qiáng)勁、完整,這是一個(gè)完整的開發(fā)套件。在座的各位,你們可以不買Rokid產(chǎn)品,你們也可以不買任何其他的語音產(chǎn)品,如果你們用這個(gè)方案,也可以打造完全屬于自己的產(chǎn)品。如果大家不愿意做更多的變化,那么加一個(gè)外殼就可以了。
它的成本不能公布,但我可以告訴大家,一定是非常親民的價(jià)格。我們Rokid不會(huì)做非常低價(jià)格的產(chǎn)品,這是我們的定位,但我們并不排斥我們的合作伙伴去做一些更親民價(jià)格的產(chǎn)品,將自己的能力分享出去,這是我們的宗旨。
說到這里,工程師“最強(qiáng)的大腦”、“最好的語音方案”、“最完整的方案”都在這里了,你可以將它放進(jìn)去。工程師基本上就用這個(gè)在開發(fā)和享受的,甚至有愛好者拿這個(gè)東西,把他家里傳統(tǒng)的普通音箱變成了智能音箱,雖然沒有買我們的產(chǎn)品,但享受這份開心就夠了。這是我們對于開發(fā)套件的理解。
這種開發(fā)套件對有些人還不夠用,不用擔(dān)心,我們還有有很多自己的設(shè)備和規(guī)劃,未來我們要做玩具,要做機(jī)器人,還要做很多東西,沒關(guān)系,我們也有考慮。
這是我們的一個(gè)擴(kuò)展板,有一些特殊按鈕的操作,它有GPIO口,還有紅外遙控接收,還有USB2.0的擴(kuò)展口。當(dāng)然,我們還有Type-C。這是最基本的開發(fā)套件,它可以裝在你的口袋里帶走,這么漂亮的開發(fā)套件之外,我們還有擴(kuò)展板,這個(gè)套件大小是一樣的,這三樣足夠大家去做想要做的事情,我們能夠做好自己的1到2個(gè)產(chǎn)品就是非常不易了,所以我們也會(huì)專注在自己的產(chǎn)品方向,專注于做極致體驗(yàn)的產(chǎn)品,但我們也會(huì)將這種能力全面開放給大家。
在軟件之上,語音和語義大家比較關(guān)心,Rokid會(huì)將什么樣的能力開放給整個(gè)業(yè)界?集成了麥陣技術(shù)、信息分析處理、語音識(shí)別、語音合成、語義理解、自定義喚醒詞等功能,這個(gè)月底這些功能就會(huì)跟大家見面,每一個(gè)用戶不需要訓(xùn)練,就可以進(jìn)行直接地定義。也就是說這個(gè)產(chǎn)品,已經(jīng)不需要必須喊若琪激活,用戶想要叫它什么就可以叫什么,我家里已經(jīng)改成“二丫頭”或“四姨太”了。聲紋識(shí)別可以讓你認(rèn)識(shí)家里的每一個(gè)人,個(gè)性化語音合成,當(dāng)你用一個(gè)人的聲音3到5分鐘,訓(xùn)練的時(shí)候這臺(tái)設(shè)備就可以完全適應(yīng)。還有一個(gè)技術(shù)是語種識(shí)別,當(dāng)你跟它講中文,它就跟你講中文;當(dāng)你跟它講英文,它就跟你講英文,不需要重新配置和重啟。包括大家對于自己的特定場景的自然語言的一些對話,可以做醫(yī)療、咨詢、客服、餐飲等任何方面的東西,我們會(huì)提供這樣的引擎給大家。所有的東西都全面開放。

所以,Rokid有什么,你們就有什么。這個(gè)開發(fā)套件的整套方案將和Rokid共享整個(gè)平臺(tái),我們產(chǎn)品具備的能力第一天就同步出來。
今天我們不僅僅有這些基本的東西,還有內(nèi)容和服務(wù),如果大家有興趣還可以挑選很多內(nèi)容和服務(wù)。這里邊也列出來了一些,音樂、有聲書、兒童故事、新聞、IOT、實(shí)時(shí)翻譯、購物和支付、天氣、醫(yī)療、時(shí)間日歷、行事歷、鬧鐘、匯率、外賣、快遞等。最近美國實(shí)驗(yàn)室最新做了一個(gè)成果,完全支持無限制對話的語言游戲,購買我們的產(chǎn)品升級(jí)以后就可以玩游戲《狼人殺》,可以進(jìn)行主持,還可以做小孩的數(shù)學(xué)教學(xué)活動(dòng),這都是突破當(dāng)前語音和語義能力的無限制多人對話的技術(shù),這種技術(shù)都會(huì)提供給大家,就在這個(gè)套件里邊。

我們是一家不知名小公司,但我們對接了很多合作伙伴。IOT我可以拍胸脯說是今天大家能看到的接得最廣的一家公司,大家可以看到阿里小智、小米、Lifesmart、Broadink,以及正在洽談的合作伙伴,我們的產(chǎn)品已經(jīng)具備了這些能力。
大家在想拿這個(gè)套件做什么?是不是變成了Rokid的一個(gè)方案輸出商,或只是你們的一個(gè)生產(chǎn)商?其實(shí)我們不希望做成這樣,既然是開放,我們就用真正開放的心態(tài)去做這件事情,所以我們定義成全棧開放。
在端上,語音的結(jié)構(gòu)和麥陣與性能是直接相關(guān)的,這些東西有很多公司要花一年甚至兩年的時(shí)間才能夠調(diào)優(yōu),今天我連ME、EE都會(huì)用到它。包括AI端上計(jì)算(信號(hào)處理、自定義喚醒、噪音、回聲消除等)都會(huì)在架構(gòu)上完成。我們最近跟國芯合作,把激活、降噪、自身音源消除這些算法集成到一塊dsp芯片中,用來降低功耗和節(jié)省成本。在端上打磨我們的產(chǎn)品,從硬件芯片開始整合我們的AI技術(shù)。在保證計(jì)算能力的情況下,可以盡量地制造出更貼近老百姓價(jià)格的產(chǎn)品。
所有的設(shè)計(jì)都是開放的,如果你覺得Rokid不夠好,你覺得自己的能力夠強(qiáng),也可以將它換掉,我們會(huì)把所有的東西向大家開放。
當(dāng)然,這些能力還不足夠好,所以在端之外還有一個(gè)語音的概念。包括AI的計(jì)算服務(wù),語音識(shí)別、語義世界、語種識(shí)別等諸多的語音的計(jì)算,我們?nèi)繒?huì)在這兒公開。這里有兩套方案,一套是阿里自己的DST人工智能方案,一套是Rokid的方案。如果你有本事也可以換掉,因?yàn)檫@些都是開放的。包括我們的游戲、音樂、有聲讀物、新聞、天氣等智慧的東西都會(huì)向大家開放。第三方的內(nèi)容和服務(wù)也會(huì)有,我們有完整的全棧的開放,所有的東西都不會(huì)被綁死。
在座的各位如果有自己的訴求,要做自己的內(nèi)容,自己的服務(wù)以及自己的APP,要做自己垂直領(lǐng)域的東西,完全以這個(gè)開放價(jià)格去進(jìn)行定義。
70%操作系統(tǒng)和框架代碼,100%的EE和ME設(shè)計(jì)全部免費(fèi)。所以這是我們希望給產(chǎn)業(yè)帶來的一個(gè)不一樣的概念。


為什么要做這件事情?很簡單,智能不是一個(gè)可以賣的東西。
我們有智能手機(jī)、智能電視、智能汽車、智能音箱、智能行李箱、智能沙發(fā)、智能馬桶、智能燈泡;其實(shí),在未來將沒有這些名字。未來只會(huì)回歸到電視、行李箱、手機(jī)、音箱,智能將會(huì)是無所不在的東西,你沒有必要去強(qiáng)調(diào)這個(gè)概念。我希望在座的各位以及整個(gè)產(chǎn)業(yè)都參與進(jìn)來,我們跟阿里一起來講未來的世界,將智能化的世界快速發(fā)展起來。這次會(huì)議放出一個(gè)信號(hào)出來,在今天以后,整個(gè)產(chǎn)業(yè)會(huì)進(jìn)入一個(gè)新的布局,如果你只擁有單一的云技術(shù),你只有一些判斷的技術(shù),可能在未來并不會(huì)特別輕松。大家還是更多地讓產(chǎn)業(yè)里的每一個(gè)合作伙伴專注在給用戶提供更好的產(chǎn)品、更好的服務(wù)以及更好的體驗(yàn),真正去改變這個(gè)世界,而不需要花時(shí)間去想我怎么設(shè)計(jì)電路,怎么做語音識(shí)別,怎么去找到這一堆去進(jìn)行集成、調(diào)試、調(diào)優(yōu)再推向市場,這會(huì)耽誤很長的時(shí)間。我相信在座各位的聰明才智將花在如何設(shè)計(jì)和定義更好的產(chǎn)品,如何將它們賣出去,這是很大的要求,供大家思考。
我們并不限定它的應(yīng)用能力,這些都可以做,這遠(yuǎn)遠(yuǎn)不止,任何事情都會(huì)有智能,如果你愿意,也許你明天就能做到,這就是這一次對大家?guī)淼男碌臇|西。
當(dāng)然,我們也會(huì)開放我們的平臺(tái),我不想生產(chǎn)硬件,也不想生產(chǎn)終端產(chǎn)品,但我們有軟件開發(fā)能力。我們會(huì)提供這樣的開發(fā)者社區(qū),你可以把自己的內(nèi)容放進(jìn)去,如果在座的各位已經(jīng)生產(chǎn)了100類產(chǎn)品,有1000萬人,但上面的內(nèi)容和應(yīng)用會(huì)比較少的話,如果各位看重未來,愿意為這樣的智能產(chǎn)品去開發(fā)這樣的內(nèi)容和應(yīng)用,大家可以應(yīng)用這樣的平臺(tái)。這個(gè)平臺(tái)也是分享給整個(gè)產(chǎn)業(yè)的,所以你一旦進(jìn)這個(gè)APP,不僅僅是給Rokid,都可以自然獲得。除非你不愿意,除非合作者說不行,所以大家可以去定制整個(gè)的產(chǎn)品能力。
最后,愿智能與大家同在。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章