• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    本文作者: 我在思考中 2021-08-06 11:00 專題:ICML 2019
    導語:本文提出了一個新的損失函數,混合交叉熵損失,用于替代在機器翻譯的兩種訓練方式里常用的交叉熵損失函數。
    神經機器翻譯的混合交叉熵損失函數 | ICML 2021
    作者 | 李浩然、陸巍
    編輯 | 青暮

    本文提出了一個新的損失函數,混合交叉熵損失(Mixed CE),用于替代在機器翻譯的兩種訓練方式(Teacher Forcing和 Scheduled Sampling)里常用的交叉熵損失函數(CE)。

    Mixed CE實現簡單,計算開銷基本和標準的CE持平,并且在多個翻譯數據的多種測試集上表現優于CE。這篇文章我們簡要介紹Mixed CE的背景和一些主要的實驗結果。

    文章和附錄:http://proceedings.mlr.press/v139/li21n.html

    代碼:https://github.com/haorannlp/mix


    1

    背景

    本節簡單介紹一下 Teacher Forcing Scheduled Sampling 的背景。

    Teacher Forcing[1]訓練方式指的是當我們在訓練一個自回歸模型時(比如RNN,LSTM,或者Transformer的decoder部分),我們需要將真實的目標序列(比如我們想要翻譯的句子)作為自回歸模型的輸入,以便模型能夠收斂的更快更好。通常在Teacher Forcing(TF)這種訓練方式下,模型使用的損失函數是CE:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    值得注意的是,機器翻譯(MT)本身是一個一對多的映射問題,比如同樣一句中文可以翻譯成不同的英文,而使用CE的時候,因為每個單詞使用一個one-hot encoding去表示的,這種情況下MT是被我們當作了一個一對一的映射問題。這種方式可能會限制模型的泛化能力,因為使用CE的模型學到的條件分布 神經機器翻譯的混合交叉熵損失函數 | ICML 2021更接近于一個one-hot encoding,而非數據真實的條件分布神經機器翻譯的混合交叉熵損失函數 | ICML 2021。但不可否認的是,即使模型用CE訓練,它在實踐中也取得了很好的效果。CE在實踐中的成功意味著模型學習到的條件分布神經機器翻譯的混合交叉熵損失函數 | ICML 2021可能也包含著部分真實分布神經機器翻譯的混合交叉熵損失函數 | ICML 2021的信息。我們能不能在訓練的時候從 提取 神經機器翻譯的混合交叉熵損失函數 | ICML 2021的信息呢?這就是我們的Mixed CE所要完成的目標。

    雖然TF訓練方式簡單,但它會導致exposure bias的問題,即在訓練階段模型使用的輸入來自于真實數據分布,而在測試階段模型每一時刻使用的輸入來自于模型上一時刻的預測結果,這兩個輸入分布之間的差異被稱作exposure bias。

    因此,研究者們進而提出了Scheduled Sampling[2](SS)。在自回歸模型每一時刻的輸入不再是來自于真實數據,而是隨機從真實數據或模型上一時刻的輸出中采樣一個點作為輸入。這種方法的本質是希望通過在訓練階段混入模型自身的預測結果作為輸入,減小其與測試階段輸入數據分布的差異。也就是說,SS所做的是讓訓練輸入數據分布近似測試輸入數據的分布,從而減輕exposure bias。

    而另一種減輕exposure bias的思想是,即使訓練和測試階段輸入來自不同的分布,只要模型的輸出是相似的,這種輸入的差異性也就無關緊要了。我們的Mixed CE就是想要達到這樣的目標。

    需要注意的一點是,SS本來是用于RNN的,但由于Transformer的興起,后續的研究者們提出了一些改進的SS以便適用于Transformer decoder在訓練階段能夠并行計算的特性。即運行Transformer deocder兩次,第一次輸入真實的數據神經機器翻譯的混合交叉熵損失函數 | ICML 2021,然后從t時刻的輸出分布里采樣一個數據點神經機器翻譯的混合交叉熵損失函數 | ICML 2021, 最終得到一個序列 神經機器翻譯的混合交叉熵損失函數 | ICML 2021。接著,將神經機器翻譯的混合交叉熵損失函數 | ICML 2021和目標序列神經機器翻譯的混合交叉熵損失函數 | ICML 2021里面的元素隨機進行混合,得到新序列神經機器翻譯的混合交叉熵損失函數 | ICML 2021 。然后把神經機器翻譯的混合交叉熵損失函數 | ICML 2021作為decoder的輸入,按照正常方式進行訓練。


    2

    方法

    我們提出的Mixed CE可以同時用于TF和SS兩種訓練方式中。

    在TF中,為了應用MixedCE,我們首先做出一個假設:如果模型當前預測的概率最大的token和目標token不一致,那我們認為預測的token很有可能是目標token的同義詞或者同義詞的一部分。

    我們做出這個假設是因為在實際中的平行語料庫里,同樣一個源語言的單詞在目標語言會有多種不同的翻譯方式。如果這些不同的翻譯在語料庫里出現的頻率相差不多,那么在預測該源語言單詞時,模型非常有可能給這些不同的翻譯相似的概率,而概率最大的那種翻譯方式恰好是目標token的同義詞。

    具體來說,Mixed CE的公式如下:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    這里的是模型在當前時刻模型預測的最有可能的結果,而根據我們之前的假設,有可能是的同義詞。Mixed CE通過以 神經機器翻譯的混合交叉熵損失函數 | ICML 2021 作為目標進行優化,有效利用了神經機器翻譯的混合交叉熵損失函數 | ICML 2021中含有的真實分布神經機器翻譯的混合交叉熵損失函數 | ICML 2021的信息。同時,這里的神經機器翻譯的混合交叉熵損失函數 | ICML 2021 ,    神經機器翻譯的混合交叉熵損失函數 | ICML 2021是當前訓練的iteration,total_iter代表了總的訓練輪數。隨著訓練的進行,模型的效果越來越好,神經機器翻譯的混合交叉熵損失函數 | ICML 2021會不斷增大,Mixed CE中第二項的權重也就越大。

    在SS中,Mixed CE的形式類似于上述公式:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    這里的 神經機器翻譯的混合交叉熵損失函數 | ICML 2021是對第一次運行Transformer decoder的輸出進行greedy采樣的結果。第一次運行Transformer decoder時的輸入是真實的目標序列,而第二次運行時的輸入是序列神經機器翻譯的混合交叉熵損失函數 | ICML 2021。通過優化這個目標函數的第二部分,無論模型輸入是神經機器翻譯的混合交叉熵損失函數 | ICML 2021還是神經機器翻譯的混合交叉熵損失函數 | ICML 2021,模型總是能夠輸出相似的結果,也就是說,模型能夠忽略輸入分布的差異,從而減輕了exposure bias的問題。

    值得注意的是,相比于CE,Mixed CE在訓練期間只增加很少的計算量,額外的計算量來自于尋找模型預測結果的最大值。


    3

    實驗

    由于篇幅有限,我們只列出幾個重要的實驗結果,更詳細的實驗結果可以在原文中找到。

    在TF訓練方式中,我們在WMT’14 En-De上的multi-reference test set上面進行了測試。在這個測試集中,每個源語言的句子有10種不同的reference translation,我們利用beam search為每一句源語言句子生成10個candidate translations,并且計算了每一個Hypothesis相對于每一種reference translation的BLEU分數,并且取它們的平均值或者最大值。結果如下:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    我們可以看到Mixed CE在所有reference上面始終優于標準CE。

    另外,我們也在一個paraphrased reference set(WMT’19 En-De)上面進行了測試。這個測試集里面的每一個reference都是經過語言專家的改寫,改寫后的句子結構和詞匯的使用都變得更復雜。結果如下:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    Mixed CE仍然優于CE。通常在這個測試集上,0.3~0.4 BLEU的提升就表明效果就很顯著了。

    由于Mixed CE的形式類似于label smoothing,所以我們也具體比較了Mixed CE和label smoothing。我們利用Pairwise-BLEU(PB)衡量模型輸出分布的平滑程度,PB越大,輸出分布越陡峭,反之則越平滑。結果如下:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    可以看到,加入label smoothing之后,輸出分布變得更加平滑,而Mixed CE使得輸出分布變得更加陡峭。所以Mixed CE和label smoothing是不同的。并且從BLEU的分數可以看出, label smoothing和Mixed CE并不是一個互斥的關系,兩者共用效果會更好。

    在SS中,我們以SS和word oracle(SS的一個變種)作為Baseline。結果如下:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    可以看到Mixed CE總是好于CE。此外,我們在論文中還提供了ablation study,以確認Mixed CE中的第二項對性能的提升是必不可少的。

    此外,我們在附錄中也列出了一些關于domain adaptation的初步實驗,歡迎大家繼續探索Mixed CE在其他領域的應用。


    4

    結論

    在本文中我們提出了Mixed CE,用于替換在teacher forcing和scheduled sampling中使用CE損失函數。實驗表明在teacher forcing里,Mixed CE在multi-reference, paraphrased reference set上面的表現總是優于CE。同時,我們也對比了label smoothing和Mixed CE,發現它們對輸出分布的影響是不同的。在scheduled sampling當中,Mixed CE能夠更有效的減輕exposure bias的影響。

    參考文獻
    [1]. Williams, R. J. and Zipser, D. A learning algorithm for continually running fully recurrent neural networks. Neural Computation, 1(2):270–280, 1989.
    [2]. Bengio, S., Vinyals, O., Jaitly, N., and Shazeer, N. Scheduled sampling for sequence prediction with recurrent neural networks. In Advances in Neural Information Processing Systems, volume 28, pp. 1171–1179. 2015.

    掃碼加入ICML2021交流群:

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    若二維碼過期或群內滿200人時,添加小助手微信(AIyanxishe3),備注ICML2021拉你進群。

    雷鋒網雷鋒網雷鋒網


    雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

    神經機器翻譯的混合交叉熵損失函數 | ICML 2021

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产午夜伦伦伦午夜伦| 国产免费午夜福利在线观看| 国产高清国产精品国产专区 | 一本精品99久久精品77| 国产精品自在自线免费观看| 成人网站国产在线视频内射视频| 亚洲熟妇无码成人A片| 成人免费无码大片a毛片抽搐| 中文国产不卡一区二区| 在线看无码的免费网站| 黑人异族巨大巨大巨粗| 亚洲欧美日韩精品91综合网| 亚洲乱理伦片在线观看中字| 亚洲人成小说网站色在线| 国自产偷精品不卡在线| 久久久久久久综合综合狠狠| 扒开女人内裤猛进猛出免费视频| 激情偷乱人成视频在线观看| 久久久午夜精品福利内容 | 亚洲精品一区二区麻豆| 亚洲精品人人| 中文字幕午夜AV福利片| 99re6免费精品视频播放| 人妻少妇邻居少妇好多水在线 | 自拍偷自拍亚洲精品偷一| 鲁啊鲁www.| 男女交性过程视频无遮挡网站| 亚洲成人Aⅴ| 重口SM一区二区三区视频| 四虎女优在线视频免费看| 91视频精选| 豆国产96在线 | 亚洲| 一本到在线dvd国产观看不卡| 白丝美女被狂躁免费视频网站| 亚洲色欲网| 韩国精品久久久久久无码| 午夜成人理论无码电影在线播放| 国内A片| 国产高清精品在线91| 99re6热精品视频在线播放| 国产精品白浆无码流出|