無需依賴英語數據，100種語言互譯，臉書推出「 M2M-100」模型

本文作者： AI研習社-譯站

2020-11-19 11:24

導語：機器翻譯（MT）能夠打破語言障礙，將不同語種的人團結起來，為不同人群提供有關COVID的權威信息以幫助他們避免感染。

譯者：AI研習社（季一帆）

雙語原文鏈接：Is The Data Science Profession At Risk of Automation?

無需依賴英語數據，100種語言互譯，臉書推出「 M2M-100」模型

Facebook AI首次提出多語言機器翻譯（MMT）模型——M2M -100，該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。
由于英語訓練數據非常廣泛，之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型，通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據，以更好保留語義。計算BLEU指標，表明其高于以英語中轉的系統約10個百分點。
M2M-100總共使用2200種語言進行訓練，這比之前最好的以英語為中心的多語言模型要多10倍。通過M2M-100模型，將有助于十億人的翻譯工作，對于低資源語言的翻譯提升更加顯著。
Facebook AI經多年在機器翻譯方面的耕耘，如今終于實現該里程碑式的結果。接下來，我們將介紹具體的研究工作，包括為100種語言建立的翻譯訓練數據、模型的細節和訓練。同時，我們還將開源該模型，并發布模型的訓練和評估設置，以方便其他研究人員的復現，以此為基礎進一步推動多語言模型的發展。

機器翻譯（MT）能夠打破語言障礙，將不同語種的人團結起來，為不同人群提供有關COVID的權威信息以幫助他們避免感染。得益于我們在低資源機器翻譯及翻譯質量評估的最新研究與進展，現在，我們每天能夠在Facebook News Feed上提供近200億次翻譯。

典型的MT系統需要對不同語言和任務單獨構建翻譯模型，然而，這樣的方式卻并不適合Facebook，因為在Facebook上，有超過160種語言發布的數十億條內容?，F在的多語言系統雖然可以一次處理多種語言，但卻是通過英語數據作為源語言和目標語言之間的中轉，從而降低了準確性。因此，我們需要一個真正的多語言機器翻譯（MMT）模型，該模型可以在任何語言之間直接進行翻譯，這將為我們的社區提供更好的服務。

我們已經在Facebook對MT進行了多年的研究，現在終于可以自豪的宣布：我們首次構建了一個的大型MMT模型，該模型可以在100種不同語言之間直接進行翻譯，而無需依賴英語作為中轉語言。同時，我們的多語言模型的表現完全不弱于傳統的雙語模型，甚至要比以英語為中轉的多語言模型提高了10個BLEU點。

通過新穎的挖掘策略，我們首次構建了一個真正的“多對多”翻譯數據集，該數據集有75億個句子，涵蓋100種不同語言。最終，我們構建了一個具有150億個參數的通用模型，該模型可以捕獲相關語言的信息，并能夠學習更加多樣化的語言和形態特征。開源地址見此。

不同語言的億萬訓練語句挖掘

建立多對多MMT模型的最大障礙之一是訓練數據，即不同語言之間直接的高質量翻譯數據，而不是以英語作為中間語言。然而現實情況是，比起法語和中文的直接翻譯數據，中文和英文以及英語和法語的翻譯數據更易獲取。此外，訓練所需的數據量與支持語言的數量成正比，例如，如果每種語言需要需要10M句子對，那么10種語言就是1B句子對，100種語言需要100B句子對。

構建包含100種語言的75億句子對的多對多MMT數據集是艱巨的任務，由于我們多年來積累了不同的數據挖掘資源，包括ccAligned，ccMatrix和LASER，因此構建該數據集是可行的。為此，我們創建了新的LASER 2.0，改進了fastText語言識別，從而提高挖掘質量，相關的訓練與評估腳本也會開源。當然，所有這些數據都是開源合法的。

Facebook AI提出的多對多的多語言模型是多年研究的結晶，MT模型、數據資源和優化技術等方面均是開創性的。本文會重點介紹一些主要成就。除此之外，我們通過挖掘ccNET創建了龐大的訓練數據集，該數據集是基于fastText的（fastText是處理單詞表示的重要方法）；基于CCMatrix的LASER庫可將句子嵌入多語言嵌入空間中；CCAligned則能夠根據URL匹配來對齊文檔。進一步，我們開發了改進版本LASER 2.0。

即使使用LASER 2.0等先進技術，挖掘100種不同語言/4450種可能語言對中的任意一類訓練數據也需要大量的計算。由于數據規模巨大，為方便管理，我們首先關注翻譯請求最多的語言。因此，我們綜合數據規模和數據質量對挖掘目標進行優先排序，舍棄了對極冷門語言的數據挖掘，如冰島語-尼泊爾語或僧伽羅語-爪哇語。

接下來，我們引入一種新的過渡挖掘策略，該策略根據地理和文化相似性將語言分為14個語言組。之所以這樣做，是因為相同國家或地區中的人們會有更多的交流，這樣的翻譯數據質量更高。例如，將印度地區的語言分為一組，包括孟加拉語，北印度語，馬拉地語，尼泊爾語，泰米爾語和烏爾都語。類似的，我們系統挖掘了不同組的全部語言對。

為了在不同組的語言之間建立聯系，我們從每組中選擇少量過渡語言，一般是一到三種主要語言。在上端的示例中，我們選擇印地語，孟加拉語和泰米爾語作為印度雅-利安語言的過渡語言。然后，我們并行挖掘了過渡語言2200種組合的所有數據，最終得到包含75億條數據的訓練集。由于翻譯數據是可以在兩種語言之間相互進行訓練的（如en-> fr和fr-> en），因此我們的挖掘策略采用高效的稀疏挖掘方式，通過一個模型就能實現100x100（共9,900個）種組合的數據挖掘工作。

在并行挖掘過程中，會得到一些低質量、低資源的翻譯數據，基于此，我們采用反向翻譯方法對這類數據進行擴充，該方法幫助我們在2018年和2019年的WMT國際機器翻譯比賽中獲得第一名。具體而言，如果我們的目標是訓練漢語到法語的翻譯模型，那么我們首先會訓練法語到漢語的模型，然后將法語反譯成漢語。我們發現，在數據規模較大時（如上億語句）該方法非常有效。本研究中，我們使用反向翻譯的合成數據對挖掘數據集進行擴充，同時，我們還使用反向翻譯為那些未標注的語言對創建訓練數據。

總體而言，相比僅依賴挖掘數據訓練的模型，結合過渡策略和反向翻譯的訓練數據學習到的模型在100個反向翻譯任務中BLEU平均提升約1.7。有了豐富、高質量的訓練數據集，多對多翻譯模型成為可能。

此外。我們還發現，對于沒有訓練數據的一個語言對，零樣本（zero-shot）想過顯著。例如，如果模型的訓練數據只有法語-英語和德語-瑞典語，通過zero-shot我們可以在法語和瑞典語之間實現翻譯。我們的M2M-100模型也表明，對于沒有訓練數據的語言對，融合zero-shot的多語言模型表現優于以英語作為過渡的多語言模型。

MMT模型-150億參數，翻譯快又準

多語言翻譯中的一個挑戰是，單一模型必須要能夠從不同語言獲取信息。為此，通常的方法是增大模型，添加面向特定語言類型的參數。同時，過量訓練數據訓練的模型包含一些無關參數，舍棄這類參數不僅會壓縮模型，還避免了這些參數對翻譯任務的干擾。最終，我們當將模型大小縮放到含120億參數，發現在不同語言的翻譯任務中BLEU平均提升約1.2，但隨著參數的繼續減少，模型性能開始下降。這樣，通用多語言翻譯模型含120參數，加上面向特定語言的32億稀疏參數，最終的模型有150億參數。

無需依賴英語數據，100種語言互譯，臉書推出「 M2M-100」模型

我們將該模型與雙語基準模型和以英語作為過渡的多語言模型進行比較，如上圖所示。第一行表示由24個編碼器層和24個解碼器層組成的包含12億參數的基線模型，第二行是以英語為過渡的的多語言翻譯模型。接下來，分別是包含12億參數和120億參數的M2M-100模型，可以看到，更多參數的模型BLEU提升1.2。

通過增加Transformer的層數以及每層的寬度，我們訓練得到更大的模型，該模型依然訓練高效、收斂快遞。值得注意的是，該多對多翻譯系統首次應用了Fairscale——一個是專用于pipeline和張量并行運算的新的PyTorch庫。我們建立了通用架構，以通過Fairscale并行訓練大型模型，避免了單GPU的限制。同時，我們應用ZeRO優化器，層內模型并行和pipeline模型并行來加快模型訓練。

然而，120億參數的多語言翻譯模型是不夠的，我們要訓練更準確高效的模型?，F在有許多研究工作使用多模型集成方法，即訓練多個模型，并將其用于相同源語句進行翻譯。為降低多個模型訓練的復雜性和計算量，我們引入多源自組技術，該技術將源句子翻譯成多種語言以提高翻譯質量。參照LayerDrop和Depth-Adaptive，我們訓練得到一個具有公共主干和不同語言特定參數集的模型。該方法能夠按語言對或語言族將模型進行分塊，非常適用多對多模型。最終，將壓縮的多語言模型參數（12B）與特定語言參數（約3B）相結合，我們的模型不僅能像大型模型那樣具有廣泛擴展性，同時還能面向不同語言進行針對處理。

全力打破不同語言間的壁壘

多年來，人工智能研究人員一直在努力構建一個能夠理解所有語言的通用模型。這樣一個支持所有語言或方言的通用模型將為所有人提供更好的服務，令人滿意的翻譯將打破數十億人的語言壁壘，讓他們更加平等的了解這個世界。這項工作使我們更加接近了這一目標。

在長久的研究中，我們在預訓練語言模型，微調和自我監督學習等方面發展迅速，研究成果振奮人心。這一系列的研究將進一步提高我們的系統使用未標記的數據來理解低資源語言文本的能力。例如，XLM-R是一個強大的多語言模型，它可以僅從一種語言數據中進行學習，然后擴展到100種語言。針對多語言BART任務，mBART是首次預訓練全模型之一。最近，我們提出新的自我監督方法CRISS，通過許多不同語言的未標記數據來挖掘不同語言的并行句子，迭代訓練更好的多語言模型。

我們將持續關注前沿進展，學習最新技術，探索MT系統的部署方式以及更加專業的計算架構，以繼續改進翻譯模型。