谷歌 AI：語義文本相似度研究進(jìn)展

本文作者： AI研習(xí)社-譯站

2018-06-13 10:16

導(dǎo)語：帶你解讀兩篇谷歌發(fā)表的關(guān)于語義表示研究的論文，了解研究最新進(jìn)展。

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原標(biāo)題 Advances in Semantic Textual Similarity，作者為 Google AI 的軟件工程師與技術(shù)主管 Yinfei Yang。

翻譯 | 張韻晨馬力群整理 | 凡江

插播一則小廣告：NLP領(lǐng)域的C位課程，斯坦福CS224n正在AI慕課學(xué)院持續(xù)更新中，無限次免費(fèi)觀看！

最近基于神經(jīng)網(wǎng)絡(luò)的自然語言理解的研究的迅速發(fā)展，尤其是關(guān)于學(xué)習(xí)文本語義表示的研究，使一些十分新奇的產(chǎn)品得到了實(shí)現(xiàn)，比如智能寫作與可對話書籍。這些研究還可以提高許多只有有限的訓(xùn)練數(shù)據(jù)的自然語言處理任務(wù)的效果，比如只利用 100 個標(biāo)注的數(shù)據(jù)搭建一個可靠的文本分類器。

接下來，我們將討論兩篇最近由谷歌發(fā)表的關(guān)于語義表示研究的論文，這兩個新的模型可以從 TensorFlow Hub （https://www.tensorflow.org/hub/）上下載，我們期待開發(fā)者可以利用他們搭建新的令人激動的應(yīng)用程序。

語義文本相似度
在 Learning Semantic Textual Similarity from Conversations （https://arxiv.org/abs/1804.07754）這篇論文中，我們提出了一個新的方法來學(xué)習(xí)用來計(jì)算語義文本相似度的句子表示方法。從直覺上來說，如果兩個句子有相近的關(guān)于回復(fù)信息的分布，那么它們的語義是相近的。例如，「你多大了？」與「你的年齡是多少？」都是關(guān)于年齡的問題，都有相近的回答，比如「我 20 歲了」。與此相反，「你最近怎么樣？」（How are you?）與「你的多大了？」（How old are you?）包含了幾乎相同的單詞，但它們有不同的含義以及會引導(dǎo)出不同的回答。

如果多個句子有相同的回答，那么他們在語義上是相近的。否則，他們在語義上是不同的。

在這一工作中，我們的目標(biāo)是通過一個回答分類任務(wù)來學(xué)習(xí)語義相似度：給定一輪對話作為輸入，我們希望從一批隨機(jī)選擇的回答中挑選出正確的回答。但是，我們最終的目標(biāo)是學(xué)習(xí)一個可以返回表示各種自然語言間關(guān)系的編碼的模型，這些自然語言間的關(guān)系包括相似度與關(guān)聯(lián)性。通過加入另一個預(yù)測任務(wù)（在這一任務(wù)中，采用 SNLI entailment 數(shù)據(jù)集）與利用共享的編碼層增強(qiáng)兩者，我們在相似度衡量任務(wù)上得到了十分不錯的表現(xiàn)，比如 STSBenchmark（一個句子相似度衡量的基準(zhǔn)）與 CQA task B（一個問題與問題間相似度衡量的任務(wù)）。這是因?yàn)檫壿嬌系奶N(yùn)含與簡單的等價(jià)關(guān)系完全不同，而且邏輯上的蘊(yùn)含提供了更多用來學(xué)習(xí)復(fù)雜的語義表示的信息。

對于給定的輸入，分類被認(rèn)為是一個針對潛在選擇的排名問題。

通用的句子編碼器
在 Universal Sentence Encoder （https://arxiv.org/abs/1803.11175）這篇論文中，我們提出了一個模型，這個模型通過添加更多的任務(wù)來擴(kuò)展上述的多任務(wù)訓(xùn)練，采用類似于 skip 思想的預(yù)測給定的文本選項(xiàng)周圍的句子的模型共同訓(xùn)練這些任務(wù)。然而，我們采用了一個只有編碼器的結(jié)構(gòu)來代替原來的 skip 思想中編碼器-解碼器的結(jié)構(gòu)，我們的結(jié)構(gòu)通過一個共享的編碼器來驅(qū)動預(yù)測任務(wù)。采用這種方法，訓(xùn)練時(shí)間顯著減少的同時(shí)仍保留了在各種遷移任務(wù)上的表現(xiàn)，包括情感與語義相似度分類。模型的目標(biāo)是提供一個單獨(dú)的編碼器，它可以盡可能廣泛地支持各種應(yīng)用，包括改寫檢測、關(guān)聯(lián)性、聚類以及自定義文本分類。

通過 TensorFlow Hub 上的通用句子編碼器的輸出進(jìn)行句對語義相似度比較。

正如我們在這篇論文中所表述的，一個版本的通用句子編碼器模型使用了深度均值網(wǎng)絡(luò)（ DAN ）編碼器。而第二個版本則使用了一個更為復(fù)雜的自主網(wǎng)絡(luò)結(jié)構(gòu)——轉(zhuǎn)換器。

正如《通用句子編碼器》論文中所表述的多任務(wù)訓(xùn)練，各種任務(wù)以及任務(wù)結(jié)構(gòu)通過共享編碼器層/參數(shù)而結(jié)合（如上圖中灰色框）。

通過使用更加復(fù)雜的結(jié)構(gòu)，模型與結(jié)構(gòu)更簡單的深度均值網(wǎng)絡(luò)模型相比在各種情感和相似度分類任務(wù)上表現(xiàn)更好，而在短句子的表現(xiàn)上僅僅是表現(xiàn)的稍微慢一些。然而，隨著句子長度的增加，使用轉(zhuǎn)換器模型的計(jì)算時(shí)間顯著增加，而深度均值網(wǎng)絡(luò)（ DAN ）編碼器模型的計(jì)算時(shí)間幾乎保持不變。

新模型

除了上述的通用句子編碼器模型之外，我們還在 TensorFlow Hub 上共享了兩個新模型：大型通用句子編碼器以及精簡版通用句子編碼器。這些是預(yù)訓(xùn)練的 Tensorflow 模型，可以返回可變長度文本輸入的語義編碼。這些編碼可用于語義相似性度量，相關(guān)性，分類或自然語言文本的聚類。

大型通用句子編碼器使用我們第二篇論文中介紹的轉(zhuǎn)換器編碼器進(jìn)行訓(xùn)練。它針對需要高精度語義表示的場景以及以犧牲速度和大小為代價(jià)獲取最佳性能的模型。
小模型使用句子片段而不是單詞進(jìn)行訓(xùn)練，這樣大幅度降低了詞匯的大小，這是模型大小得主要決定因素。它針對內(nèi)存和CPU等資源有限的場景，例如基于手持設(shè)備或基于瀏覽器的實(shí)現(xiàn)。

我們很高興與社區(qū)分享這項(xiàng)研究和這些模型。我們相信我們在這里展示的只是一個開始，況且還有重要的研究問題需要解決。例如將這一技術(shù)擴(kuò)展到更多語言（上述模型目前支持英語）。我們也希望進(jìn)一步開發(fā)這種技術(shù)，以便能夠理解段落甚至文檔級別的文本。在實(shí)現(xiàn)這些任務(wù)時(shí)，可能會制作出真正”通用”的編碼器。

致謝

感謝Daniel Cer、Mario Guajardo-Cespedes、 Sheng-Yi Kong、Noah Constant 進(jìn)行了模型訓(xùn)練，Nan Hua、Nicole Limtiaco、Rhomni St. John 進(jìn)行了任務(wù)遷移， Steve Yuan、Yunhsuan Sung、Brian Strope、Ray Kurzweil 參加了模型結(jié)構(gòu)的討論。特別對 Sheng-Yi Kong 和 Noah Constant 訓(xùn)練小模型所做的工作進(jìn)行感謝。

博客原址：https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html

谷歌 AI：語義文本相似度研究進(jìn)展

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

AI研習(xí)社-譯站

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學(xué)習(xí)知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章