「2018 機器閱讀理解技術(shù)競賽」落下帷幕，看奇點機智如何從 800 多支隊伍中殺出重圍

本文作者：汪思穎

編輯：郭奕欣

2018-05-30 09:41

導(dǎo)語：奇點機智在此次比賽中獲得第一，在兩個評價標(biāo)準(zhǔn) ROUGE-L 和 BLEU-4 上，分別獲得 63.38 和 59.23 的得分，均高出第二名超過兩分。

雷鋒網(wǎng) AI 研習(xí)社按，日前，由中國中文信息學(xué)會 (CIPS)、中國計算機學(xué)會 (CCF) 和百度公司聯(lián)合舉辦的「2018 機器閱讀理解技術(shù)競賽」落下帷幕，Naturali 奇點機智從國內(nèi)外 800 多支隊伍中脫穎而出，獲得第一名。在兩個評價標(biāo)準(zhǔn) ROUGE-L 和 BLEU-4 上，奇點機智分別獲得 63.38 和 59.23 的得分，均高出第二名超過兩分。（目前，奇點機智憑借在「2018 機器閱讀理解技術(shù)競賽」上獲得冠軍以及比賽專訪，在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中獲得 13 分。）

迄今為止，世界機器閱讀理解領(lǐng)域經(jīng)典賽事多集中在英文領(lǐng)域，比如由斯坦福大學(xué)發(fā)起的 SQuAD 挑戰(zhàn)賽以及微軟的 MS MARCO 機器閱讀理解測試，而此次賽事基于百度 DuReader 中文數(shù)據(jù)集，對中文閱讀理解有著里程碑式的意義。

奇點機智是一家提供定制化語音交互解決方案的公司，談及參賽原因，他們對雷鋒網(wǎng) AI 研習(xí)社說道，「機器閱讀理解是推動人工智能未來發(fā)展的核心。機器能夠并且應(yīng)該去理解人類，而不是人類去理解機器。閱讀理解是奇點機智關(guān)注的問題，公司的 NLP 團隊在相關(guān)領(lǐng)域有所積累，希望嘗試將開發(fā)的基礎(chǔ)組件應(yīng)用到實際問題的解決中，也想借此比賽驗證公司在自然語言處理方面的技術(shù)實力?！?/p>

比賽介紹

本次比賽數(shù)據(jù)集來自搜索引擎真實應(yīng)用場景，其中的問題為百度搜索用戶的真實問題，每個問題對應(yīng) 5 個候選文檔文本及人工整理的優(yōu)質(zhì)答案。

數(shù)據(jù)集共包含 30 萬問題（27 萬訓(xùn)練集、1 萬開發(fā)集和 2 萬測試集），其中 20 萬來源于百度 DuReader 數(shù)據(jù)集（18 萬訓(xùn)練集、1 萬開發(fā)集和 1 萬測試集）。

DuReader 是迄今為止最大的面向真實應(yīng)用場景的中文閱讀理解數(shù)據(jù)集，它包含來自百度搜索的 30 萬個真實問題，數(shù)據(jù)集中標(biāo)注了問題類型、實體和觀點等豐富信息。

在這次比賽中，對于給定問題 q 及其對應(yīng)的文本形式的候選文檔集合 D=d1, d2, ..., dn，要求參評閱讀理解系統(tǒng)自動對問題及候選文檔進行分析，輸出能夠滿足問題的文本答案 a。目標(biāo)是 a 能夠正確、完整、簡潔地回答問題 q。

此次比賽評價指標(biāo)采用 ROUGH-L 和 BLEU4，ROUGH-L 為主評價指標(biāo)。針對是非及實體類型問題，主辦方對 ROUGE-L 和 BLEU4 評價指標(biāo)進行了微調(diào)，適當(dāng)增加了正確識別是非答案類型及匹配實體的得分獎勵，這在一定程度上彌補了傳統(tǒng) ROUGE-L 和 BLEU4 指標(biāo)對是非和實體類型問題評價不敏感的問題。

奇點機智表示，長時間以來，自然語言處理的研究都是基于句子級別的閱讀理解，例如理解句子中的主謂賓、定狀補，時間、地點、事件等等。然而，基于篇章的長文本理解一直是一個技術(shù)難題，因為涉及到更高難度的研究內(nèi)容，例如句子之間的連貫、上下文、推理等等，這也正是此次競賽面臨的挑戰(zhàn)。

雖然目前機器閱讀理解與人類還存在差距，但此次比賽中，他們的答案與人工標(biāo)注的答案非常接近，甚至有些比人工答案更全面，這也算是一大進步。下面是奇點機智答案與人工標(biāo)注答案的對比：

問題：昆特牌什么時候公測（實體類）

奇點機智答案：「巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日?！?/p>

人工答案：「時間為 6 月 6 日，暫定為期兩周，即 6 月 6 日-6 月 19 日。」

問題：肩袖損傷能自愈嗎（判斷類）

奇點機智答案：「肩周炎是可以治愈的，但是需要鍛煉，不然的話。時間長了肩周炎，就很難活動了?！?/p>

人工答案：「肩周炎是可以治愈的，但是需要鍛煉，不然的話。時間長了肩周炎，就很難活動了?！? 「一般是不可以治愈的，需要外用膏藥，結(jié)合活血化瘀的藥品治療。」

問題：蘭陵王妃大結(jié)局是什么（描述類）

奇點機智答案：「女主選擇了蘭陵王高長恭，離開了北周，但是女主最后被蕭洛云殺了，當(dāng)時她和蘭陵王高長恭在一起，所以宇文邕并不知道最后她死了，但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕。」

人工答案：「女主選擇了蘭陵王高長恭，離開了北周，但是女主最后被蕭洛云殺了，當(dāng)時她和蘭陵王高長恭在一起，所以宇文邕并不知道最后她死了，但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕?！? 「高長恭最終抱的美人歸，與元清鎖共度生死?！?/p>

從直觀感覺上來說，奇點機智的回答比較完整和合理，從指標(biāo)上來說，在比賽中 BLEU 超越第二名兩分也是非常難得的。

參賽細節(jié)

將中文閱讀理解與英文相對比，中文存在分詞問題，也缺少像 GloVe 這樣在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練好的詞向量。此外，中文的成語典故、俗語、一詞多義、歧義等都增加了機器閱讀的難度。那么面對這些挑戰(zhàn)，奇點機智在比賽中是如何完成這看似不可能的任務(wù)的呢？

據(jù)奇點機智介紹，這次比賽主要是由技術(shù)團隊的兩名同事做系統(tǒng)實驗，其他同事提供相關(guān)幫助。

他們對雷鋒網(wǎng) AI 研習(xí)社表示，比賽數(shù)據(jù)集都是用戶的真實問答，有些問題在百度搜索里沒有答案，而且問題不一定很直接。比如「響一聲就說正在通話中」，這表面上并不是一個問題，用戶描述了一個現(xiàn)象，這種問題回答起來更具挑戰(zhàn)性。

由于競賽給定了文檔全文，有的文檔可能會非常長，為了不超出內(nèi)存占用和保證訓(xùn)練效率，他們采取了簡單有效的啟發(fā)式方法預(yù)先對每個文檔抽取可能包含答案的部分內(nèi)容。

他們針對判斷類問題訓(xùn)練了一個額外的分類模型，除此之外，比賽數(shù)據(jù)集中有一部分?jǐn)?shù)據(jù)來源于百度搜索，一部分?jǐn)?shù)據(jù)來源于百度知道，針對問題來源，他們也做了一些策略調(diào)整。

在特征的選擇上，他們使用了詞向量、詞性標(biāo)注向量、以及篇章中的詞是否出現(xiàn)在問題中。

在模型選擇上，他們閱讀了大量論文，參考和借鑒了很多經(jīng)典 MRC 模型，比如 BIDAF、Match-LSTM、R-Net、DCN 等。最終的模型基于 BIDAF，他們嘗試引入了多個答案的信息。

此外，他們也發(fā)現(xiàn)，一些 NLP 的底層基礎(chǔ)部件，比如分詞和詞向量表示等也會對系統(tǒng)性能產(chǎn)生一定影響。

而從公布數(shù)據(jù)到最終結(jié)果提交只有兩個月左右的時間，雖然時間上比較緊迫，但公司內(nèi)部有自己的實驗系統(tǒng)和比較充足的硬件資源。

奇點機智表示，「在這次比賽中，公司在自然語言處理方面的技術(shù)積累，團隊超強的執(zhí)行力和學(xué)習(xí)力，良好的硬件資源和實驗平臺都是奪得冠軍的因素?！?/p>

值得一提的是，參與競賽的兩位技術(shù)人員平時在奇點機智是做機器學(xué)習(xí)、語音識別相關(guān)工作，參賽之前沒有特別接觸過閱讀理解。能在短短兩個月左右快速上手并最終奪冠，這也在一定程度上反應(yīng)了團隊超強的學(xué)習(xí)力和執(zhí)行力。

未來

他們表示，在比較干凈的數(shù)據(jù)集上，機器模型已經(jīng)可以做到非常好，比如在維基百科上，機器的表現(xiàn)已經(jīng)可以超過人類。如果數(shù)據(jù)集比較原始，依然會有不錯的表現(xiàn)，但挑戰(zhàn)更大，這也是他們愿意去挑戰(zhàn)的難題。閱讀理解在一定程度上會給語音助手、問答系統(tǒng)等帶來諸多利好，這也是他們的研究重點。

這次比賽使得他們對閱讀理解任務(wù)有了更深入的理解，包括任務(wù)可能運用的場景、問題難點等。下一步，他們一方面將在性能上嘗試對模型進一步優(yōu)化，另一方面，將在工程上考慮將機器閱讀引入實際商業(yè)場景和產(chǎn)品中。參賽團隊對雷鋒網(wǎng) AI 研習(xí)社說道，希望通過此次真實用戶問答數(shù)據(jù)，訓(xùn)練優(yōu)質(zhì)實用的模型，將領(lǐng)先的機器閱讀理解技術(shù)應(yīng)用于今后的產(chǎn)品以及各個領(lǐng)域中。

在采訪的最后，奇點機智 CTO 林德康表示，「我們對過去的積累非常有信心，我們愿意去做有意義的、有挑戰(zhàn)性的事情，同時，我們也會經(jīng)常組織大家一起學(xué)習(xí)、讀論文，進行小組討論。沒有什么可以阻止我們不斷學(xué)習(xí)，獲取最先進的理念和技術(shù)?！?/p>

對奇點機智感興趣的同學(xué)，歡迎將簡歷投至 jobs@naturali.io

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章