UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

本文作者： camel

2018-04-30 19:59

專題：ACL 2018

導語：BLUE、METEOR高分能代表好模型嗎？真的難說！

雷鋒網 AI 科技評論按：近日，圣塔芭芭拉加州大學 王威廉教授 團隊在 arXiv 上貼出一篇論文《No Metrics Are Perfect: Adversarial Reward Learning or Visual Storytelling》。這篇論文指出，在「看圖講故事」這樣比較主觀的任務中，現行的評價體系（例如METEOR、BLEU等）會失效。由此他們提出了對抗獎勵學習框架，通過逆向強化學習來獲得最佳的獎勵函數。實驗結果表明，在自動評價體系里，這種方法能夠獲得與GAN、強化學習等模型相同或稍高一點的結果；而在人工評價體系里，則要比它們的結果好很多。

目前，該論文已被自然語言處理頂級會議 ACL 2018 錄取。

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

話說，放在兩年前，「看圖說話」（視覺字幕，Visual Captioning）還是一個讓人比較興奮的研究熱點，而現在已經出現了許多「看圖講故事」（視覺敘事，Visual Storytelling）的研究工作。這兩項任務的區別和難度顯而易見。以下面這幾幅圖為例：

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

「看圖說話」要求檢測圖片中出現的人和物，然后用自然語言把它表述出來。針對上面的圖片其輸出結果為：

(a) A small boy and a girl are sitting together.
(b) Two kids sitting on a porch with their backpacks on.
(c) Two young kids with backpacks sitting on the porch.
(d) Two young children that are very close to one another.
(e) A boy and a girl smiling at the camera together.

而「看圖講故事」則需要更進一步，它需要提取出圖片的主要思想，然后將多張連續圖片的內容連貫成一個完整的故事。這就意味著不僅僅是要描述圖片包含的物體，還需要“發揮想象”說出圖像中沒有明確表達的信息，例如人的情緒、潛在的物體等（如下面彩色字體所示）。針對上面5張系列圖片的輸出結果為：

Story #1: The brother and sister were ready for the first day of school. They were excited to go to their first day and meet new friends. They told their mom how happy they were. They said they were going to make a lot of new friends . Then they got up and got ready to get in the car .

Story #2: The brother did not want to talk to his sister. The siblings made up. They started to talk and smile. Their parents showed up. They were happy to see them

顯然「看圖講故事」的主觀性很大，這也就造成這個任務缺少標準的模板，例如上面一組圖片可以編成兩個完全不同的故事。

早期（其實也就16、17年）的視覺敘事研究主要還是受啟于視覺字幕的成功，仍然是通過訓練來最大化觀測數據對的似然值，這導致的結果就是由于數據庫中的表達模式有限，生成的敘事結果也非常的簡單和平淡。為了解決這個問題，同時生成更類似于人類描述的故事，Rennie等人曾提出一種增強學習的框架。但是，由于在視覺敘事的任務中，常見的增強學習方法主要基于字符串匹配的手工獎勵（BLEU、METEOR、ROUGE、CIDEr等），這對于推動策略搜索來說要么是有偏差的，要么就過于稀疏。舉例來說，本文作者在文章中作為對比，使用ROUGE分數作為獎勵來強化其策略學習時，他們發現當ROUGE得分顯著提高時，其他分數（例如BLEU, CIDEr等）卻并不隨之而改善，甚至可能會降到0。

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

（中間四行是基于手工獎勵的增強學習模型，XE-ss和AREL（該論文所提出的模型）后文會講到。）

一個對抗性的例子如下：

We had a great time to have a lot of the. They were to be a of the. They were to be in the. The and it were to be the. The, and it were to be the.

其平均 METEOR 得分高達 40.2，但其他得分卻很低。這說明，傳統的這些手工獎勵不能勝任「看圖講故事」任務的獎勵機制。

為了解決這個問題，作者受啟于「逆增強學習」，提出了對抗獎勵學習（Adversarial REward Learning，AREL)的框架。和先前方法相比不同的是，這里不再使用傳統的手工獎勵方式，而是加入一個獎勵模型，這個獎勵模型通過人類的示例來學習隱式獎勵函數，從而來優化策略模型的生成結果。AREL框架圖如下所示：

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

那么這個模型框架好不好呢？

作者使用2016年 Ting-Hao K. Huang等人發布的 Visual Storytelling (VIST) 數據集來做檢驗。VIST數據集是首個 sequential vision-to-language 任務（包括視覺敘事任務）的數據集，其中包含有 10117 個 Flickr 相冊（網絡相冊）和 210819 張獨立的照片。

好與不好取決于評價的標準。針對「視覺敘事」這項任務，傳統上來說就是用 BLEU (B), METEOR (M), ROUGH-L (R), and CIDEr (C) 的分數作為評價指標。作為對比，作者除了選用 Huang et al 和 Yu et al 兩個結果作為對比外，還選用了目前來看最好的兩個模型，一個是 XE-ss，另一個是 GAN 模型。本文的 AREL 模型采用了與 XE-ss 相同的策略模型，不同點在于 XE-ss 模型使用交叉熵作為獎勵函數，而 AREL 有專門的獎勵學習模型。

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

從實驗結果可以看出，當采用傳統的指標來做評價時，AREL 至少達到了 state-of-art 的標準，甚至還有些微的提升。

但是作者內心似乎已經不再相信在「視覺敘事」任務中這些傳統的指標能夠成為好的評價標準，他們更傾向于認為在這種創造性的工作中應該讓人類來判斷好壞。因此他們選擇在亞馬遜土耳其機器人上進行了兩種不同的人類評估實驗：圖靈測試（Turing test）和成對人類評估（pairwise human evaluation）。

在圖靈測試中，每一個評價人員（worker）會同時給一個人工注釋的樣本和一個機器生成的樣本，讓他判斷哪個是人類/機器生成的。作者針對 XE-ss、BLEU-RL、CIDEr- RL、GAN 和 AREL 五個模型分別獨立做了圖靈測試：

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

可以看出，AREL模型的結果在人類評價中的表現遠遠優于其他模型的結果，Win+Unsure的比例已經非常接近50%了。

為了進一步地比較不同算法在故事語義特征之間的差異，作者又進行了四種成對比較測試：AREL分別與XE-ss、BLEU-RL、CIDEr-RL、GAN之間的比較。比較的流程就是：向評價人員同時呈現兩個生成的故事，要求他們從三個方面（關聯性、表現力和具體性）進行投票。例如下面這個樣本（實驗中沒有Human-created story，這里作為參考出現）：

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

在關聯性、表現力和具體性三方面，（AREL：XE-ss：平局）的投票結果分別為5：0：0，4：0：1，5：0：0。整個實驗的結果如下：

UCSB新作：「看圖講故事」中，現行的評價體系會失效 | ACL 2018

這種壓倒性的結果表明（至少是經驗性地表明），AREL模型生成的故事在關聯性、表現力和具體性方面更優異，而這在自動度量評估中并沒有被明確地反映出來。

不得不強調一點：以上的這些結果也從側面說明了，在主觀性較大的任務（例如視覺敘事）中傳統評價標準在一定程度上是不可靠的。所以，一方面在任務中使用傳統的自動評價標準時，要慎行；另一方面，即使你得到一個非常高的分數，也不一定說明你的模型就是好的。

雷鋒網總結這篇論文的意義：

1、這篇論文指出了一點：即在主觀性較強的任務中，傳統的自動度量無論在訓練還是評估方面都不一定合適；

2、針對以上問題，作者提出了一種對抗獎勵學習的框架，這種框架在人類評估測試中表現良好。

論文地址：https://arxiv.org/abs/1804.09160

論文摘要

近來雖然在視覺字幕任務中取得了令人印象深刻的結果，但從照片流中生成抽象故事的任務仍然是一個難題。與字幕不同，故事具有更多語言表達風格，并且包含許多不存在于圖像中的虛構概念。因此它對行為克隆算法提出了挑戰。此外，由于評估故事質量的自動指標的局限性，手工獎勵的強化學習方法在獲得整體性能提升方面也面臨困難。因此，我們提出了一個對抗獎勵學習（AREL）框架，以從人類示例中學習一個隱式獎勵函數，然后利用這個學習到的獎勵函數來優化策略搜索。雖然自動評估顯示我們的方法在克隆專家行為中性能只比最先進的（SOTA）方法略有提升，但人類評估顯示我們的方法在生成更類人的故事中性能要比SOTA系統有顯著地提升。

via 雷鋒網AI科技評論

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。