0
雷鋒網 AI 科技評論消息,微軟亞洲研究院(MSRA)劉鐵巖團隊近日在arXiv上傳了一篇論文,論文標題為“Dual Supervised Learning”(對偶監督學習)。據了解,這篇論文已經被即將于今年8月舉行的ICML接受。論文中展示了對偶監督學習的機器學習范式在機器雙語翻譯、圖像分類與生成、情感分析與分析三組任務中都可以為原模型帶來明顯的提升。

另一方面,去年微軟亞研有一篇NIPS論文“Dual Learning for Machine Translation”(用于機器翻譯的對偶學習),雷鋒網硬創公開課也曾邀請到論文作者之一的微軟亞研主管研究員秦濤博士給大家做了詳細的分享( 微軟亞洲研究院秦濤:對偶學習的對稱之美,秦濤博士同樣也是今年新論文的作者之一)。

那么,NIPS2016論文的“對偶學習”與今年ICML2017論文的“對偶監督學習”有何異同點?對沒有接觸過的讀者,對偶學習又是怎樣的一種范式?雷鋒網 AI 科技評論在本文中會先介紹和回顧對偶學習,然后再講解對偶監督學習的新特點。
在 AI 發展面臨的關于數據、時間、解釋性、協作性的眾多挑戰中,對偶學習的提出主要是為了解決依賴大量數據的問題。相比標簽傳播(Label Propagation)、多任務學習(Multi-task Learning)、遷移學習(Transfer Learning)這樣利用數據相似性的解決方法,對偶學習(Dual Learning)利用的是 AI 任務中自然出現的對稱性。比如:
機器翻譯,有英翻中和中翻英的對稱;
語音處理,需要語音轉文字(語音識別),也有文本轉語音(語音合成)的任務;
圖像理解,圖像描述(image captioning)與圖像生成 (image generation)是一個對稱的過程;
對話任務,問題回答(Question answering)與問題生成(Question generation);
搜索引擎,文本匹配查詢(Query-document matching)與廣告關鍵詞推薦服務(Query/keyword suggestion)
如上這些任務以往都是單獨訓練的,而且要利用大量的有標簽數據才能訓練。那么如果考慮到任務的對稱性,一個英文句子被翻譯成英文,再從中文翻譯成英文,還能跟一開始的句子非常相近的話,就可以認為“英翻中”和“中翻英”兩個翻譯器都表現很好;而且所用的句子還可以是無標簽的。

如圖就是對偶學習的模型示意圖,主任務 f 把無標注英文句子 x 翻譯為中文 y,對偶任務 g 把中文 y 翻譯回中文 x'。模型從過程中得到兩個反饋,一個部分反饋是來自懂中文的智能體,評價中文 y 的翻譯質量如何;另一個反饋是來自懂英文的智能體,比較 x 和 x' 獲得反饋。這樣,一個流程結束以后,模型就可以獲得完整反饋。

有了反饋,就可以把強化學習的一些方法直接用于訓練更新模型 f 和 g 。論文中所用的方法為策略梯度 policy gradient,對主任務 f 和對偶任務 g 求梯度,增加好的行為出現的概率,降低不好的行為出現的概率。
另一方面,由于只有單一輸入,由兩個智能體自己產生反饋,不需要把翻譯結果與輸入對應的標簽對比,所以這是一種無監督學習方法。
對偶學習的效果如何呢? 在使用了1200萬個雙語標注句的英法翻譯實驗中,相比于2016年時效果最好的基于深度神經網絡的機器翻譯算法(Neural Machine Translation),對偶學習只需要其中10%的雙語數據就可以達到NMT采用了全部數據進行訓練的準確度。訓練所需數據量可以減少90%,很好地達成了預期效果。

根據秦濤博士介紹,對偶學習有一個問題是很難冷啟動,即需要先對主任務和對偶任務的兩個智能體進行一定的訓練后才能夠利用對偶學習進行聯合反饋訓練,否則模型收斂會變得很慢。
既然以上的無監督對偶學習有這么好的效果,要如何運用于監督學習中呢?
還是以翻譯為例,在監督學習中,當知道主任務 f 應該得到的正確翻譯為 y 之后,就可以用最大似然準則更新 f,使 y 出現的概率越大越好。
對于對偶監督學習,需要主任務 f 和對偶任務 g 都能出現正確翻譯 y 與 x,這樣就會存在一個聯合概率 P( x,y )。如果 f 與 g 的更新是同步的,通過 f 和 g 都可以單獨計算出這個聯合概率。但如果 f 和 g 是根據監督學習分開訓練的,就不能保證單獨計算出的聯合概率相同。
為了解決這個問題,論文中為對偶監督學習增加了一項正則化項。

這個正則化項的含義是將 f 得到正確結果 y 和 g 得到正確結果 x 兩個概率的差值最小化,從而通過結構的對稱性加強了監督學習過程,讓兩個互為對稱的任務共同進行學習。
在學習過程中共優化三個損失函數:
1) 從帶標簽輸入 x 經主任務 f 得到 y 的對數似然
2) 從對偶輸入 y 經對偶任務 g 得到 x 的對數似然
3) 以上兩個對數似然的差值,即正則化項。
這與SVM正則化項的區別在于,SVM的正則化項與模型有關,與數據無關;但對偶監督學習中討論的正則化像還與數據相關。由于具有了這樣的正則化項,每個訓練數據都能夠參與到正則化項中,而且主任務、對偶任務的兩個模型可以互相影響。
根據優化過程的特點,論文中還一并指出了對偶監督學習的適用條件:
1) 有兩個任務,它們之間具有對稱性
2) 主任務和對偶任務都是可訓練的
3) 模型出現理想結果的經驗概率是可求的
如文章開頭所述,圖像、文本、語音相關的許多任務是滿足這些條件的。
論文中在機器翻譯、圖像分類、情感分析三種任務測試了對偶監督學習的效果,都證明了可以帶來顯著的提升。
機器翻譯
論文中先分別對主任務、對偶任務的模型進行一定訓練后,用對偶監督學習的方法進行聯合訓練。與目前翻譯效果最好的NMT與MRT神經網絡機器翻譯相比,BLEU分數得到了進一步提升。

圖像分類
與機器翻譯不同,圖像分類與圖像生成的過程存在信息損失。這導致目前圖像生成的效果不盡如人意而且提高困難。根據對偶監督學習能夠減少兩個任務間概率差值的特點,我們可以期待對偶監督學習能夠更好地從標簽恢復圖像。
表現對比中選用的基準模型是PixelCNN++,不出意外地,基于CIFAR-10的bpd分數從2.94進步到了2.93,即便只有0.01的提高也非常難得。實際生成的圖像對比如下圖:

每一橫行的圖像是從同一個類別標簽生成的結果;左邊五個來自基準模型,右邊五個來自對偶監督學習模型。圖像質量有可見的提升,尤其對于第3、4、6行的鳥、貓、狗。
不止是生成,經過對偶監督學習訓練后的 ResNet-32 和 ResNet-110 兩種不同復雜度的網絡識別效果也都得到了提升。

情感分析
對句子做正向/負向情感分析,或者根據給定的正向/負向情感反向生成句子,這個過程中的信息損失非常嚴重,只留下了1bit的信息而已。論文中認為對句子做情感分析的結果提升比較微小,這是其中的原因之一。基準模型選用的是LSTM。

不過到了反向生成句子的時候,經過對偶監督學習的模型展現出了強大的表現力,對簡單短句的使用變少了,并且選用的單詞、詞語、句式表達出的情感更強烈、更具體。

論文在結尾處表示,以上的例子已經可以說明對偶監督學習的提升效果,后續也會在更多任務中進行嘗試(比如文本/語音轉換)。同時,如何把無標簽對偶學習和對偶監督學習結合起來,利用無標簽數據繼續提升模型表現,以及嘗試把對偶監督學習與對偶推理(dual inference)結合起來以便利用結構對稱性來增強訓練和推理過程也是劉鐵巖團隊后續打算研究的方向。
論文地址:https://arxiv.org/abs/1707.00415 , 雷鋒網 AI 科技評論編譯
相關文章: