小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

本文作者：蔣寶尚

2020-04-05 15:54

導語：同一個世界，同一個視覺

作者 | 蔣寶尚

當兩個語言不通的人進行交流時候，手勢和眼神自然就成了溝通神器。有時候，手勢和眼神在表達意思的時候能勝過千言萬語。

能不能將這種類似的優(yōu)勢用在機器翻譯？

近日，來自DeepMind、牛津大學以及卡內(nèi)基梅隆的研究者合力發(fā)表了論文《Visual Grounding in Video for Unsupervised Word Translation》，提出用視覺基礎(chǔ)改善無監(jiān)督的單詞映射。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

（雷鋒網(wǎng)）此篇論文也被收錄到CVPR 2020。論文下載地址：https://arxiv.org/pdf/2003.05078.pdf

論文的基本思想是：地球上的人類可能說著數(shù)千種不同的語言，但用“眼”看到的世界確是只有一個，有了這個視覺基礎(chǔ)，就可以彌合語言之間的差距。

總體思路：利用教學視頻獲取共享視覺

作者在論文用的方法也很簡單，模型通過“觀看”視頻，能夠在兩種語言之間建立共同的視覺表征，即在給定共享嵌入情況下構(gòu)建視覺-文本混合映射算法。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

（雷鋒網(wǎng)）雖多種語言，描述的是同一種事物

舉個簡單的例子，兒童在學習語言的時候，更多的是觀察環(huán)境并與周圍的人互動，在這過程中，并不需要任何明確的指導和監(jiān)督。他們在學習多門語言的時候，可以利用不同情況下的相似情境：他在周一聽到“狗在吃東西”時候看到景象，與周五聽到“l(fā)e chien mange”句子時候看到的景象是類似的。

作者們在構(gòu)建無監(jiān)督翻譯系統(tǒng)的時候，就借鑒了上述思路：向系統(tǒng)提供不同國家人做事情的視頻，同時用他們本國語言解釋他們在做什么。選用內(nèi)容大致相似的教學視頻，比如雖然是不同語種，但是都是在教人如何榨橙汁的教學類視頻。

教學視頻在YouTube上大量存在，并且內(nèi)容相似度非常高，所以作者使用了教學視頻作為訓練數(shù)據(jù)。
雖然使用自動語言識別技術(shù)能夠得到了很多視頻和相應的字幕，但收集的數(shù)據(jù)有很多瑕疵：首先對教學視頻中的內(nèi)容進行聚類并不容易，其次有時候教學視頻中的“講師”說著與主題無關(guān)的廢話。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

雖然有挑戰(zhàn)，但是這種共享視覺促進了翻譯的精準度。如上圖所示，作者在論文提出的英法翻譯。據(jù)說，通過看視頻，在翻譯常用詞和視覺詞時能達到28.0%和45.3%的正確率，對比基于檢索翻譯方法正確率12.5%和18.6%高了不少。

模型架構(gòu)：多語言無監(jiān)督學習

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

（雷鋒網(wǎng)）

如上圖所示，整個模型包括3個編碼器，一個是針對語言X的，一個是針對Y的，一個是針對視頻Z的。這三個編碼器組成的模型，經(jīng)過訓練之后，其目標是能夠視頻Z建立X語言與Y語言的映射。

語言X編碼器由3部分組成：1、詞嵌入層；2、簡單的位置的全連接前饋網(wǎng)絡(luò)層（a position-wise fully connected feed-forward layer）；3、一個線性層。其中詞嵌入層的作用是將序列轉(zhuǎn)換成維度向量；全連接前饋網(wǎng)絡(luò)層作用是現(xiàn)在單詞上進行最大池化，然后生成序列維度向量；線性層的作用是建立聯(lián)合嵌入空間與中間表示（Intermediate Representation）的映射。

對于語言Y的編碼器，作者使用了跨語言共享模型權(quán)重，即語言X和語言Y編碼器之間共享前饋層和最后一個線性層的權(quán)重。為了將不同的語言輸入到共享層，作者在語言Y中的單詞嵌入層之后添加一個名為AdaptLayer的線性層。

AdaptLayer的作用是改變語言Y的單詞嵌入空間，使語言Y中的單詞嵌入盡可能地與語言X中的單詞嵌入相似。

關(guān)于視頻編碼器，作者使用了標準I3D模型，再加上一個將輸出映射到聯(lián)合嵌入空間中的線性層。
編者注：I3D模型可以理解為基于2D卷積網(wǎng)絡(luò)的增強版，全稱是Two-Stream Inflated 3D ConvNet，其論文被2017年CVPR收錄。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

f、g、h分別對應語言X、Y以及視頻Z的嵌入函數(shù)，L定義為損失函數(shù)。

整個模型的優(yōu)化目標如上公式所示，據(jù)作者介紹，通過定義上面公式，能夠?qū)⒂柧毑呗詳U展到多語言情況。

上述公式L(f,h)定義如下：

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

NCE定義如下：

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

通過最小化上述聯(lián)合損失函數(shù)訓練模型能夠建立兩種語言的映射關(guān)系，即對于給定的x∈X，能夠找到y(tǒng)∈Y。

實驗：“我”的模型更加穩(wěn)健

在實驗部分，對比當前能夠達到SOTA的基于文本的翻譯模型，作者發(fā)現(xiàn)他們的模型在翻譯方面更加優(yōu)秀。

在實驗過程中，作者對視頻的轉(zhuǎn)錄本進行了token化，把每種語言的65536個最常用的單詞匯聚到了一個詞匯庫。經(jīng)過預處理，作者使用了word2vec訓練單語單詞嵌入，并在MUVE（作者文章中提出的算法）、MUSE和VecMap模型中使用這些預訓練的嵌入。

在訓練時，作者從給定的數(shù)據(jù)集中抽取一個視頻片段及其相應的旁白。每個訓練批包括來自任一語種語言的片段，而NCE損失中的每個元素的負值是來自該批中的其他相同語言的元素。

另外，對于視頻編碼器，作者在Kinetics-400數(shù)據(jù)集上預訓練的I3D模型進行微調(diào)，對于語言模型作者在相應的HowToW-Text數(shù)據(jù)集上預訓練了單詞嵌入層。

作者使用了Adam優(yōu)化器，初始學習率設(shè)置為10^-3，批處理量為128，并在2個Cloud TPU上訓練模型200k次迭代。

在研究能否提高單詞翻譯質(zhì)量方面，作者將自己的模型另外兩個基線進行比較。第一個基線（Random Chance）采用的是在不使用視頻的情況下檢索出的翻譯，第二個基采用了視頻檢索（Video Retrieval），使用視頻創(chuàng)建兩種語言之間的并行語料庫。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

如上圖在英語到法語翻譯上，作者的模型在這兩個基準上的表現(xiàn)明顯優(yōu)于基準線。另外，MUVE（第4行）比單獨的基礎(chǔ)模型（第3行）有了顯著的改進（在字典和簡單詞基準上分別有+19.8%和+30.3%的絕對改進）

那么，模型能在多大程度上改進基于文本的單詞翻譯方法？作者實驗了三種無監(jiān)督方法和一種有監(jiān)督方法，所有的方法都使用了在HowToW-Text上訓練的單詞嵌入方法。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

如上，作者在對比英語和法語、韓語和日語之間的翻譯結(jié)果之后，作者的MUVE方法最優(yōu)，英韓和英日之間的翻譯比基于文本的方法有著非常大的改進。

但這也表明了單純的基于文本的方法更適合“長相”類似的語言，如英語和法語。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

無監(jiān)督單詞翻譯的穩(wěn)健性如何？如上圖所示，作者展示了MUVE、MUSE[10]、VecMap[4]在英法字典數(shù)據(jù)集中Recall@10的表現(xiàn)，并用JS距離（ jensen-shannon，上表中用~表示）測量異同度。

結(jié)果顯示，當當語料庫相似時（例如Wiki-En和Wiki-FR），所有的方法都表現(xiàn)良好。當語料庫不相似的時候，MUVE明顯優(yōu)于其他方法，也更加穩(wěn)健。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

當訓練數(shù)據(jù)量不同的時候，模型表現(xiàn)如何呢？上圖展示了用原數(shù)據(jù)集體量的100%、10%、1%數(shù)據(jù)訓練的結(jié)果，用 Recall@10衡量時，顯然作者的方法在低資源（訓練語料不足）情況下表現(xiàn)更好。

小狗Puppy都是狗！DeepMind大招，以視覺為媒介，做無監(jiān)督機器翻譯，效果極好

另外，當詞匯量變化的時候，如上圖所示，只有MUSE方法的性能沒有下降。其他基于文本的方法都依賴于詞匯量大小。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

蔣寶尚

編輯

發(fā)私信

當月熱門文章