• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給黃善清
    發(fā)送

    0

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    本文作者: 黃善清 2018-11-09 17:35 專題:CNCC 2018
    導(dǎo)語:多模態(tài)技術(shù)有兩大應(yīng)用方向:一是會改變?nèi)藱C(jī)交互的方式,二是將使信息分發(fā)更加高效。
    活動
    企業(yè):快手
    操作:主題演講
    事項(xiàng):

    雷鋒網(wǎng) AI 科技評論按:在 CNCC2018「高通量媒體內(nèi)容理解論壇」上,快手科技多媒體內(nèi)容理解部負(fù)責(zé)人李巖發(fā)表了題為「多模態(tài)內(nèi)容生產(chǎn)與理解」的演講,講述了帶領(lǐng)多媒體內(nèi)容理解部在多模態(tài)研究上取得的一些進(jìn)展。

    李巖在演講中表示,多模態(tài)技術(shù)有兩大應(yīng)用方向,一是會改變?nèi)藱C(jī)交互的方式,二是將使信息分發(fā)更加高效;視頻本身就是一個多模態(tài)的問題,而快手則擁有海量的多模態(tài)數(shù)據(jù),多模態(tài)的研究對于快手來說是非常重要的課題;目前快手已經(jīng)在語音識別與合成、智能視頻配樂、通過 2D 圖像驅(qū)動 3D 建模特效、視頻精準(zhǔn)理解等領(lǐng)域?qū)Χ嗄B(tài)技術(shù)進(jìn)行研發(fā)應(yīng)用。

    以下為演講的主要內(nèi)容:

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    大家好,首先我來簡單介紹一下快手,在這個平臺,用戶能夠被廣闊的世界看到,也能夠看到廣闊的世界,我們可以看一下快手的數(shù)據(jù): 70 億條視頻總量、1500 萬日新增視頻,日均的使用時長超過 60 分鐘等,所以快手平臺上有非常多的多媒體數(shù)據(jù),同時也有非常多的用戶交互數(shù)據(jù),比如我們每天有 1.3 億用戶觀看超過 150 億次視頻的播放數(shù)據(jù)。

    我們知道視頻是視覺、聽覺、文本多種模態(tài)綜合的信息形式,而用戶的行為也是另外一種模態(tài)的數(shù)據(jù),所以視頻本身就是一個多模態(tài)的問題,再加上用戶行為就更是一種更加復(fù)雜的多模態(tài)問題。所以多模態(tài)的研究對于快手來說,是非常重要的課題。

    多模態(tài)技術(shù)兩大應(yīng)用方向:人機(jī)交互與信息分發(fā)

    我認(rèn)為多模態(tài)技術(shù)會有兩大主要的應(yīng)用。

    第一,多模態(tài)技術(shù)會改變?nèi)藱C(jī)交互的方式,我們與機(jī)器交互的方式將會越來越貼近于更令人舒適、更自然的方式。

    第二,多模態(tài)技術(shù)會使得信息的分發(fā)更加高效。

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    多模態(tài)技術(shù)研究的三個難點(diǎn):語義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失

    其實(shí)在目前來看,多模態(tài)研究難度還是非常高的。

    其中大家談得比較多的是語義鴻溝,雖然近十年來深度學(xué)習(xí)和大算力、大數(shù)據(jù)快速發(fā)展,計算機(jī)視覺包括語音識別等技術(shù)都取得了非常大的進(jìn)展,但是截至現(xiàn)在,很多問題還沒有得到特別好的解決,所以單模態(tài)的語義鴻溝仍然是存在的。

    再者,由于引入了多種模態(tài)的信息,所以怎樣對不同模態(tài)之間的數(shù)據(jù)進(jìn)行綜合建模,會是一個異構(gòu)鴻溝的問題。

    另外,做語音、做圖像是有很多數(shù)據(jù)集的,大家可以利用這些數(shù)據(jù)集進(jìn)行刷分、交流自己算法的研究成果。但是多模態(tài)的數(shù)據(jù)集是非常難以構(gòu)建的,所以我們在做多模態(tài)研究時是存在數(shù)據(jù)缺失的問題的。

    下面我會分享我們在多模態(tài)這個方面所做的事情,以及這些技術(shù)是怎么樣幫助快手平臺獲得更好的用戶體驗(yàn)和反饋的。

    多模態(tài)技術(shù)如何實(shí)現(xiàn)更好的記錄

    首先,多模態(tài)技術(shù)將實(shí)現(xiàn)更好的記錄。隨著智能手機(jī)的出現(xiàn),每個人都可以用手機(jī)上攝像頭去記錄周圍的世界,用麥克風(fēng)去存儲周圍的音頻信息;而在以前,生成視頻,尤其生成一些比較專業(yè)的視頻,都是導(dǎo)演干的事情。但現(xiàn)在,我們通過手機(jī)就能夠做到,這里面會有非常多的多模態(tài)技術(shù)研究來輔助人們更好地記錄。

    我們希望整個記錄過程是更加便捷、個性化、有趣,同時也是普惠的,具體我將分別通過四個案例分享。

    1、語音轉(zhuǎn)文字打造便捷字幕生成體驗(yàn)

    一個視頻里,音頻部分對于整個視頻的信息傳遞是非常重要的。網(wǎng)上有很多帶有大量字幕的、以講述為主的視頻,這樣的視頻制作其實(shí)是一件很麻煩的事情,因?yàn)橐粋€一個去輸入文字是很痛苦的,像過去在廣電系統(tǒng)專業(yè)工作室就需要很多用于字幕編輯的工具軟件。而如果我們通過語音識別技術(shù),把語音直接轉(zhuǎn)成文字,就可以很輕松地通過手機(jī)編輯生成一個帶字幕視頻。

    2、語音合成實(shí)現(xiàn)個性化配音

    另外一個技術(shù)叫做個性化配音,假如在一個視頻中,你不喜歡聽男性配音,而希望聽到由一位女士配音,我們就可以通過語音合成技術(shù)滿足個性化的訴求。

    語音識別及合成技術(shù)都會使我們記錄的過程變得更加便捷、有趣,但這兩個技術(shù)在做視覺或者多媒體的圈子里面關(guān)注度不是特別高,只是偶爾會在做語音的圈子里去聊這些問題。包括在語音圈子里面,語音識別和合成現(xiàn)在往往是兩波人在做。

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),語音識別和合成這兩個問題其實(shí)在某種程度上是非常對稱的,因?yàn)檎Z音識別是從語音到文字,語音合成是從文字到語音。語音識別的時候,我們提取一些聲學(xué)的特征,經(jīng)過編碼器或者 Attention 的機(jī)制,實(shí)現(xiàn)從語音到文字的轉(zhuǎn)化;語音合成的技術(shù)和算法,其實(shí)也涉及編碼器或者 Attention 的機(jī)制,二者形成了比較對稱的網(wǎng)絡(luò)。所以我們把語音識別和合成看成是一個模態(tài)轉(zhuǎn)換的特例,從神經(jīng)網(wǎng)絡(luò)建模角度來看,是一個比較一致、容易解決的問題。

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    具體神經(jīng)網(wǎng)絡(luò)在設(shè)計的時候,雖然二者內(nèi)容機(jī)制其實(shí)還是有一些不同,但更大的趨勢是這里面將來會有更多的趨同,因?yàn)槲覀冎离S著相關(guān)算法的發(fā)展,計算一定是朝著一個更加簡化,更加統(tǒng)一的方向發(fā)展。就像深度學(xué)習(xí)的出現(xiàn),其實(shí)就是通過計算的方式取代了手工來獲取有效的特征。多模態(tài)的轉(zhuǎn)換領(lǐng)域里面也出現(xiàn)了這樣的特點(diǎn),這是一件非常有意思的事情。

    3、根據(jù)視頻內(nèi)容自動生成音樂

    音樂也是短視頻非常重要的一部分,有錄視頻經(jīng)驗(yàn)的同學(xué)可以感受到,為一個場景配合適的音樂是一個很難的事情。過去,有不少用戶為了與音樂節(jié)拍一致,努力配合音樂節(jié)奏拍攝,極大限制了拍攝的自由度。我們希望用戶可以隨意按照自己想要的節(jié)奏錄制,所以讓機(jī)器通過用戶拍攝的視頻內(nèi)容,自動生成符合視頻節(jié)奏的音樂,這樣視頻畫面與音樂節(jié)奏就會更匹配、更一致。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    音樂生成涉及很多具體的技術(shù),我們也做了非常多的研究,其中一個問題是懂音樂的不懂計算機(jī)科學(xué),懂計算機(jī)科學(xué)的人不懂音樂。想要把短視頻配樂這個問題研究好,需要要有做音樂和做 AI 的人一起集成創(chuàng)新,這方面我們也做了非常多的工作。

    4、2D 圖像驅(qū)動 3D 建模實(shí)現(xiàn) Animoji 效果

    通過蘋果的發(fā)布會,大家應(yīng)該都了解 Animoji 這項(xiàng)技術(shù),iphoneX 有一個標(biāo)志性的功能,就是通過結(jié)構(gòu)光攝像頭實(shí)現(xiàn) Animoji,現(xiàn)在國內(nèi)手機(jī)廠商也越來越多地采用結(jié)構(gòu)光的方式去實(shí)現(xiàn) Animoj。而快手是國內(nèi)較早實(shí)現(xiàn)不使用結(jié)構(gòu)光,只用 RGB 圖像信息就實(shí)現(xiàn) Animoji 效果的企業(yè)。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    用戶不必去花上萬元去買 iphoneX,只要用一個千元的安卓手機(jī),就可在快手的產(chǎn)品上體驗(yàn) Animoji 的特效,從而能夠在不暴露臉部信息的同時展現(xiàn)細(xì)微的表情變化,例如微笑、單只眼睛睜單只眼睛閉等,讓原來一些羞于表演自己才藝的人,也可以非常自如地表達(dá)。我們覺得做技術(shù)有一個非常快樂的事情,就是讓原來少數(shù)人才能用的技術(shù),變得更普惠。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    其實(shí)解決這樣一個問題是非常難的,因?yàn)榧词故窍裉O果這樣的公司,也是采用了結(jié)構(gòu)光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術(shù),快手面臨著硬件的約束,只能通過 2D 的 RGB 視覺信息對問題進(jìn)行建模、求解,這里面包括了像 Landmark 人臉關(guān)鍵點(diǎn)檢測、實(shí)時重建人臉三維模型等技術(shù),把 2D 和 3D 兩種不同模態(tài)的信息做建模、做對齊。

    我們也能看到現(xiàn)在市場上可能有一些小型的 APP 在做類似的事情,但體驗(yàn)很差,而我們的整體體驗(yàn)還是非常好非常流暢的,這也需要?dú)w功于深度神經(jīng)網(wǎng)絡(luò)模型的量化,通過壓縮和加速解決手機(jī)性能問題,可適配任意機(jī)型。

    多模態(tài)技術(shù)如何實(shí)現(xiàn)精準(zhǔn)理解視頻內(nèi)容

    剛才我講的是我們多模態(tài)技術(shù)怎樣去幫助用戶更好地記錄,我們同時也希望通過一個更好的分享機(jī)制,讓用戶發(fā)布的視頻能夠被更多感興趣的人看到。這也涉及視頻推薦里面多模態(tài)的一些問題。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    對視頻內(nèi)容的理解其實(shí)是非常難的,這個里面我做了兩個比較有意思的事情。

    第一,我們強(qiáng)調(diào)音頻和視覺的多模態(tài)綜合的建模,而不是僅僅是單獨(dú)的視覺或者音頻,視覺和聽覺兩種媒體的融合,會是未來一個非常重要的事情。

    第二,在工業(yè)界做的事情和在學(xué)術(shù)界做的事情有很大不同,我們有非常多的用戶數(shù)據(jù),這些用戶數(shù)據(jù)是不在傳統(tǒng)多媒體內(nèi)容研究范疇里面的,但是工業(yè)界可以很好地利用這些數(shù)據(jù),更好地做內(nèi)容理解。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    給大家舉個例子,一個男子表演口技的視頻中,如果關(guān)閉聲音,僅憑畫面信息,我們并不知道他是在做什么,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,你可能無法獲得真實(shí)的信息。我們對世界的理解一定是多模態(tài)的理解,而不僅僅是視覺的理解。

    像這樣的視頻在快手?jǐn)?shù)據(jù)庫中有 70 億,想要理解這么多的視頻內(nèi)容,必須借助多模態(tài)技術(shù)。所以我們在這方面也做了非常多的工作,從文本、視覺、聽覺角度去做了很多單模態(tài)的建模,包括多模態(tài)的綜合建模、有序與無序,以及多模態(tài)特征之間怎樣進(jìn)行異構(gòu)的建聯(lián),在很多任務(wù)內(nèi)部的分類上也做了改進(jìn)。

    第二點(diǎn)需要強(qiáng)調(diào)的是,像 ImageNET 等很多的學(xué)術(shù)界研究內(nèi)容理解的任務(wù)有非常好的標(biāo)注數(shù)據(jù)集,但是這個數(shù)據(jù)集對于工業(yè)界來說還是太小,且多樣性不夠。我們平臺每天有 1.3 億多用戶以及超過 150 億次的視頻播放,這個數(shù)據(jù)是非常大的。如果有 150 億的標(biāo)注數(shù)據(jù),做算法就會有很大的幫助,但是現(xiàn)實(shí)上是不具備的。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    那怎樣將研究分析技術(shù)與海量數(shù)據(jù)更好地做到兩者的融合呢?我們通過融合行為數(shù)據(jù)和內(nèi)容數(shù)據(jù),進(jìn)行綜合建模,同樣大小的人工標(biāo)注量,利用海量的用戶行為數(shù)據(jù),能夠獲得比純內(nèi)容模型更好的性能,對視頻有了一個更好的理解,進(jìn)而在多媒體內(nèi)容的理解和分析方面的算法研究有了非常大的進(jìn)展,這就使我們在工業(yè)界和傳統(tǒng)學(xué)術(shù)界做這個事情時會更有優(yōu)勢。

    未來多模態(tài)研究的熱點(diǎn):特征表達(dá)與特征對齊

    總結(jié)一下,多模態(tài)內(nèi)容解決的問題里面涉及一些模態(tài)的轉(zhuǎn)化,比如怎樣通過 2D 圖像驅(qū)動 3D,怎樣通過語音生成文本或者通過文本生成語音,怎樣通過視覺驅(qū)動音樂。另外一個應(yīng)用是我們怎樣通過融合更多信息來驅(qū)動內(nèi)容的理解,其實(shí)都是一個多模態(tài)的問題。在學(xué)術(shù)界有很多研究還是停留在單模態(tài),但我個人認(rèn)為未來多模態(tài)會成為更有價值的研究方向。

    多模態(tài)研究會有兩個難點(diǎn)或者說熱點(diǎn):

    第一是多模態(tài)的特征表達(dá),也就是在多模態(tài)研究框架下怎樣設(shè)計單模態(tài)的特征,這是一個非常重要的問題。

    第二是多模態(tài)特征之間如何對齊,也就是有沒有更好的算法對視覺、聽覺和行為的部分進(jìn)行統(tǒng)一的建模,這是未來的一個熱點(diǎn)。 快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    幾個總結(jié)

    第一,多模態(tài)未來會持續(xù)帶來更新的人機(jī)交互方式,比如我們剛才講的 Animoji 技術(shù),其實(shí)它帶來的是一種可以通過人臉控制手機(jī)自動生成 Avatar(虛擬動畫)的體驗(yàn)。原來實(shí)現(xiàn)這些效果,需要在好萊塢專門設(shè)一個特效室來實(shí)現(xiàn)這一點(diǎn),而現(xiàn)在普通用戶都能享受這樣的技術(shù),所以人機(jī)交互會由原來重的、貴的、笨的方式轉(zhuǎn)變?yōu)楸阋说摹⒚總€人都能參與的而且便捷的方式。

    第二,我認(rèn)為多模態(tài)技術(shù)會帶來新的內(nèi)容形態(tài),原來接入信息更多是從文本、頁面中獲得,現(xiàn)在有視頻,未來可能還會有 AR 或者其它的形式。我覺得多模態(tài) AR 很重要的一點(diǎn)就是強(qiáng)調(diào)沉浸感,這種沉浸感其實(shí)是通過聽覺和視覺綜合作用才能產(chǎn)生的。

    第三,我認(rèn)為多模態(tài)亟需新的算法和大型的數(shù)據(jù),因?yàn)檫@兩者可能會是一個某種意義上可以相互折算的問題。以目前的機(jī)器學(xué)習(xí)算法來講,需要海量的數(shù)據(jù)才能解決好這個問題,因?yàn)楝F(xiàn)在深度學(xué)習(xí)、內(nèi)容理解的成果,某種意義上是監(jiān)督學(xué)習(xí)的成果,有足夠的樣本、算力,所以現(xiàn)在的算法能力基本上還停留在對算力和數(shù)據(jù)有著非常大要求的階段。而多模態(tài)的大型數(shù)據(jù)是非常難建的,而且多模態(tài)解的空間是更大的。因?yàn)橐粋€模態(tài)解的空間是 n,另外一個是 m,它最后是一個乘積、一個指數(shù)級的變化,所以數(shù)據(jù)集要多大才足夠是一個很難的這個問題,可能需要新的算法來對這個問題進(jìn)行建模。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    快手科技李巖:多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用與未來展望 | CNCC 2018

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲无码A视频在线| 亚洲www永久成人网站| 视频二区制服丝袜人妻欧美| 亚洲大尺度无码专区尤物| 激情亚洲内射一区二区三区| 影音先锋在线观看资源影音av下载| 日韩欧美在线观看一区二区视频 | 人妻丰满熟妇av无码片| 一区二区视频| 免费一级特黄a大片| 日韩a∨无码中文无码电影| 国产91小视频在线观看| 超碰福利电影| 亚洲欧美另类久久久精品能播放的 | 天堂一区| AV无码免费不卡在线观看| 无码熟妇人妻AV影音先锋| 一级毛片无毒不卡直接观看| 国产精品原创不卡在线| av天堂亚洲天堂亚洲天堂| 操碰91| 亚洲第一色区| 女同互玩中文字幕久久| 欧美人与禽2o2o性论交| 欧美色熟妇| 亚洲AV成人精品一区二区三区在线播放| 亚洲人成绝费网站色www吃脚| 亚洲情综合五月天| 91巨炮在线| 精品无码国产一区二区三区AV| 影音先锋女人AV鲁色资源网久久| 樱桃视频影院在线播放| 国产99在线 | 欧美| 熟女视频一区二区在线观看| 视频一区视频二区亚洲免费观看| 亚洲天堂在线观看完整版| 一区二区三区成人| 99无码人妻一区二区三区免费| 成人神马九九| 在线不卡中文字幕福利| 久久不见久久见免费视频观看|