• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給汪思穎
    發(fā)送

    0

    「2018 機器閱讀理解技術(shù)競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍

    本文作者: 汪思穎 編輯:郭奕欣 2018-05-30 09:41
    導(dǎo)語:奇點機智在此次比賽中獲得第一,在兩個評價標(biāo)準(zhǔn) ROUGE-L 和 BLEU-4 上,分別獲得 63.38 和 59.23 的得分,均高出第二名超過兩分。

    雷鋒網(wǎng) AI 研習(xí)社按,日前,由中國中文信息學(xué)會 (CIPS)、中國計算機學(xué)會 (CCF) 和百度公司聯(lián)合舉辦的「2018 機器閱讀理解技術(shù)競賽」落下帷幕,Naturali 奇點機智從國內(nèi)外 800 多支隊伍中脫穎而出,獲得第一名。在兩個評價標(biāo)準(zhǔn) ROUGE-L 和 BLEU-4 上,奇點機智分別獲得 63.38 和 59.23 的得分,均高出第二名超過兩分。(目前,奇點機智憑借在「2018 機器閱讀理解技術(shù)競賽」上獲得冠軍以及比賽專訪,在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中獲得 13 分。)

    迄今為止,世界機器閱讀理解領(lǐng)域經(jīng)典賽事多集中在英文領(lǐng)域,比如由斯坦福大學(xué)發(fā)起的 SQuAD 挑戰(zhàn)賽以及微軟的 MS MARCO 機器閱讀理解測試,而此次賽事基于百度 DuReader 中文數(shù)據(jù)集,對中文閱讀理解有著里程碑式的意義。

    奇點機智是一家提供定制化語音交互解決方案的公司,談及參賽原因,他們對雷鋒網(wǎng) AI 研習(xí)社說道,「機器閱讀理解是推動人工智能未來發(fā)展的核心。機器能夠并且應(yīng)該去理解人類,而不是人類去理解機器。閱讀理解是奇點機智關(guān)注的問題,公司的 NLP 團隊在相關(guān)領(lǐng)域有所積累,希望嘗試將開發(fā)的基礎(chǔ)組件應(yīng)用到實際問題的解決中,也想借此比賽驗證公司在自然語言處理方面的技術(shù)實力?!?/p>

    比賽介紹

    本次比賽數(shù)據(jù)集來自搜索引擎真實應(yīng)用場景,其中的問題為百度搜索用戶的真實問題,每個問題對應(yīng) 5 個候選文檔文本及人工整理的優(yōu)質(zhì)答案。

    數(shù)據(jù)集共包含 30 萬問題(27 萬訓(xùn)練集、1 萬開發(fā)集和 2 萬測試集),其中 20 萬來源于百度 DuReader 數(shù)據(jù)集(18 萬訓(xùn)練集、1 萬開發(fā)集和 1 萬測試集)。

    DuReader 是迄今為止最大的面向真實應(yīng)用場景的中文閱讀理解數(shù)據(jù)集,它包含來自百度搜索的 30 萬個真實問題,數(shù)據(jù)集中標(biāo)注了問題類型、實體和觀點等豐富信息。

    在這次比賽中,對于給定問題 q 及其對應(yīng)的文本形式的候選文檔集合 D=d1, d2, ..., dn,要求參評閱讀理解系統(tǒng)自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案 a。目標(biāo)是 a 能夠正確、完整、簡潔地回答問題 q。

    此次比賽評價指標(biāo)采用 ROUGH-L 和 BLEU4,ROUGH-L 為主評價指標(biāo)。針對是非及實體類型問題,主辦方對 ROUGE-L 和 BLEU4 評價指標(biāo)進行了微調(diào),適當(dāng)增加了正確識別是非答案類型及匹配實體的得分獎勵,這在一定程度上彌補了傳統(tǒng) ROUGE-L 和 BLEU4 指標(biāo)對是非和實體類型問題評價不敏感的問題。

    奇點機智表示,長時間以來,自然語言處理的研究都是基于句子級別的閱讀理解,例如理解句子中的主謂賓、定狀補,時間、地點、事件等等。然而,基于篇章的長文本理解一直是一個技術(shù)難題,因為涉及到更高難度的研究內(nèi)容,例如句子之間的連貫、上下文、推理等等,這也正是此次競賽面臨的挑戰(zhàn)。

    雖然目前機器閱讀理解與人類還存在差距,但此次比賽中,他們的答案與人工標(biāo)注的答案非常接近,甚至有些比人工答案更全面,這也算是一大進步。下面是奇點機智答案與人工標(biāo)注答案的對比:

    • 問題:昆特牌什么時候公測(實體類)

    奇點機智答案:「巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日, 暫定為期兩周,即 6 月 6 日-6 月 19 日?!?/p>

    人工答案:「時間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日。」

    • 問題:肩袖損傷能自愈嗎(判斷類)

    奇點機智答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了?!?/p>

    人工答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了?!? 「一般是不可以治愈的,需要外用膏藥,結(jié)合活血化瘀的藥品治療。」

    • 問題:蘭陵王妃大結(jié)局是什么(描述類)

    奇點機智答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當(dāng)時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕。」

    人工答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當(dāng)時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕?!? 「高長恭最終抱的美人歸,與元清鎖共度生死?!?/p>

    從直觀感覺上來說,奇點機智的回答比較完整和合理,從指標(biāo)上來說,在比賽中 BLEU 超越第二名兩分也是非常難得的。

    參賽細節(jié)

    將中文閱讀理解與英文相對比,中文存在分詞問題,也缺少像 GloVe 這樣在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練好的詞向量。此外,中文的成語典故、俗語、一詞多義、歧義等都增加了機器閱讀的難度。那么面對這些挑戰(zhàn),奇點機智在比賽中是如何完成這看似不可能的任務(wù)的呢?

    據(jù)奇點機智介紹,這次比賽主要是由技術(shù)團隊的兩名同事做系統(tǒng)實驗,其他同事提供相關(guān)幫助。

    他們對雷鋒網(wǎng) AI 研習(xí)社表示,比賽數(shù)據(jù)集都是用戶的真實問答,有些問題在百度搜索里沒有答案,而且問題不一定很直接。比如「響一聲就說正在通話中」,這表面上并不是一個問題,用戶描述了一個現(xiàn)象,這種問題回答起來更具挑戰(zhàn)性。

    由于競賽給定了文檔全文,有的文檔可能會非常長,為了不超出內(nèi)存占用和保證訓(xùn)練效率,他們采取了簡單有效的啟發(fā)式方法預(yù)先對每個文檔抽取可能包含答案的部分內(nèi)容。

    他們針對判斷類問題訓(xùn)練了一個額外的分類模型,除此之外,比賽數(shù)據(jù)集中有一部分?jǐn)?shù)據(jù)來源于百度搜索,一部分?jǐn)?shù)據(jù)來源于百度知道,針對問題來源,他們也做了一些策略調(diào)整。

    在特征的選擇上,他們使用了詞向量、詞性標(biāo)注向量、以及篇章中的詞是否出現(xiàn)在問題中。

    在模型選擇上,他們閱讀了大量論文,參考和借鑒了很多經(jīng)典 MRC 模型,比如 BIDAF、Match-LSTM、R-Net、DCN 等。最終的模型基于 BIDAF,他們嘗試引入了多個答案的信息。

    此外,他們也發(fā)現(xiàn),一些 NLP 的底層基礎(chǔ)部件,比如分詞和詞向量表示等也會對系統(tǒng)性能產(chǎn)生一定影響。

    而從公布數(shù)據(jù)到最終結(jié)果提交只有兩個月左右的時間,雖然時間上比較緊迫,但公司內(nèi)部有自己的實驗系統(tǒng)和比較充足的硬件資源。

    奇點機智表示,「在這次比賽中,公司在自然語言處理方面的技術(shù)積累,團隊超強的執(zhí)行力和學(xué)習(xí)力,良好的硬件資源和實驗平臺都是奪得冠軍的因素?!?/p>

    值得一提的是,參與競賽的兩位技術(shù)人員平時在奇點機智是做機器學(xué)習(xí)、語音識別相關(guān)工作,參賽之前沒有特別接觸過閱讀理解。能在短短兩個月左右快速上手并最終奪冠,這也在一定程度上反應(yīng)了團隊超強的學(xué)習(xí)力和執(zhí)行力。

    未來

    他們表示,在比較干凈的數(shù)據(jù)集上,機器模型已經(jīng)可以做到非常好,比如在維基百科上,機器的表現(xiàn)已經(jīng)可以超過人類。如果數(shù)據(jù)集比較原始,依然會有不錯的表現(xiàn),但挑戰(zhàn)更大,這也是他們愿意去挑戰(zhàn)的難題。閱讀理解在一定程度上會給語音助手、問答系統(tǒng)等帶來諸多利好,這也是他們的研究重點。

    這次比賽使得他們對閱讀理解任務(wù)有了更深入的理解,包括任務(wù)可能運用的場景、問題難點等。下一步,他們一方面將在性能上嘗試對模型進一步優(yōu)化,另一方面,將在工程上考慮將機器閱讀引入實際商業(yè)場景和產(chǎn)品中。參賽團隊對雷鋒網(wǎng) AI 研習(xí)社說道,希望通過此次真實用戶問答數(shù)據(jù),訓(xùn)練優(yōu)質(zhì)實用的模型,將領(lǐng)先的機器閱讀理解技術(shù)應(yīng)用于今后的產(chǎn)品以及各個領(lǐng)域中。

    在采訪的最后,奇點機智 CTO 林德康表示,「我們對過去的積累非常有信心,我們愿意去做有意義的、有挑戰(zhàn)性的事情,同時,我們也會經(jīng)常組織大家一起學(xué)習(xí)、讀論文,進行小組討論。沒有什么可以阻止我們不斷學(xué)習(xí),獲取最先進的理念和技術(shù)?!?/p>

    對奇點機智感興趣的同學(xué),歡迎將簡歷投至 jobs@naturali.io

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

    「2018 機器閱讀理解技術(shù)競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍

    分享:
    相關(guān)文章

    編輯

    關(guān)注AI學(xué)術(shù),例如論文
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 美日韩在线视频一区二区三区| 亚洲伊人久久精品影院| 顺平县| 精品国产亚洲人成在线| 精品超清无码视频在线观看| 四虎亚洲精品高清在线观看| 成人精品日韩专区在线观看| 另类天堂天堂av| 色色97| 五月婷婷色色| 国产精品一区二区日韩精品| 国产精品自在线拍国产手青青机版 | 久久国产精品亚洲精品99| 国产草草影院ccyycom| 亚洲日本国产精品一区| 色综合久久88色综合天天免费 | 视频一区二区三区四区五区| 麻豆成人精品国产免费| 国产最新AV在线播放不卡| 成人在线亚洲| 激情文学亚洲| 日本中文一二区有码在线| 欧美日激情日韩精品嗯| 色视频不卡一区二区三区| 国产一区二区日韩在线| 国产AV一卡| www.啪啪白浆| 日韩一区二区三区三级| 亚洲午夜免费福利视频| 国产综合色在线精品| 蜜臀av日韩精品一区二区| 日韩乱码人妻无码中文字幕视频| 四虎福利视频| A成片人| 国产免费一级高清淫日本片| 国产小视频在线播放| 国产suv精品一区二区33| 91亚洲一线产区二线产区| 午夜福利在线观看6080| 亚洲狠狠婷婷综合久久蜜芽| 夜夜嗨av|