• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    醫療科技 正文
    發私信給hain
    發送

    0

    機器學習問答數據集:這是保險領域首個開放的QA語料庫

    本文作者: hain 編輯:金美琴 2017-08-10 15:20
    導語:這是一個具有真正價值的語料。

    保險行業語料庫

    該語料庫包含從網站Insurance Library 收集的問題和答案。

    據我們所知,這是保險領域首個開放的QA語料庫:

    該語料庫的內容由現實世界的用戶提出,高質量的答案由具有深度領域知識的專業人士提供。 所以這是一個具有真正價值的語料,而不是玩具。

    在上述論文中,語料庫用于答復選擇任務。 另一方面,這種語料庫的其他用法也是可能的。 例如,通過閱讀理解答案,觀察學習等自主學習,使系統能夠最終拿出自己的看不見的問題的答案。

    數據集分為兩個部分“問答語料”和“問答對語料”。問答語料是從原始英文數據翻譯過來,未經其他處理的。問答對語料是基于問答語料,又做了分詞和去標去停,添加label。所以,"問答對語料"可以直接對接機器學習任務。如果對于數據格式不滿意或者對分詞效果不滿意,可以直接對"問答語料"使用其他方法進行處理,獲得可以用于訓練模型的數據。

    歡迎任何進一步增加此數據集的想法。

    快速開始

    語料地址

    https://github.com/Samurais/insuranceqa-corpus-zh

    在Python環境中,可以使用pip安裝

    兼容py2, py3

    pip install --upgrade insuranceqa_data

    問答語料


    問題答案詞匯(英語)
    訓練12,889 21,325  107,889   
    驗證  2,000   3354  16,931    
    測試 2,000  3308

      16,815  

     每條數據包括問題的中文,英文,答案的正例,答案的負例。案的正例至少1項,基本上在1-5條,都是正確答案。答案的負例有200條,負例根據問題使用檢索的方式建立,所以和問題是相關的,但卻不是正確答案。

    {
       "INDEX": {
           "zh": "中文",
           "en": "英文",
           "domain": "保險種類",
           "answers": [""] # 答案正例列表
           "negatives": [""] # 答案負例列表
       },
       more ...
    }


    訓練:corpus/pool/train.json.gz

    驗證:corpus/pool/valid.json.gz

    測試:corpus/pool/test.json.gz

    答案:corpus/pool/answers.json 一共有 27,413 個回答,數據格式為 json:

    {
       "INDEX": {
           "zh": "中文",
           "en": "英文"
       },
       more ...
    }

    中英文對照文件

    問答對

    格式 INDEX ++$++ 保險種類 ++$++ 中文 ++$++ 英文

    corpus/pool/train.txt.gz, corpus/pool/valid.txt.gz, corpus/pool/test.txt.gz.

    答案

    格式 INDEX ++$++ 中文 ++$++ 英文

    corpus/pool/answers.txt.gz

    語料庫使用gzip進行壓縮以減小體積,可以使用zmore, zless, zcat, zgrep等命令訪問數據。

    zmore pool/test.txt.gz

    加載數據

    import insuranceqa_data as insuranceqa
    train_data = insuranceqa.load_pool_train()
    test_data = insuranceqa.load_pool_test()
    valid_data = insuranceqa.load_pool_valid()# valid_data, test_data and train_data share the same propertiesfor x in train_data:    print('index %s value: %s ++$++ %s ++$++ %s' % \
        (x, d[x]['zh'], d[x]['en'], d[x]['answers'], d[x]['negatives']))

    answers_data = insuranceqa.load_pool_answers()for x in answers_data:    print('index %s: %s ++$++ %s' % (x, d[x]['zh'], d[x]['en']))

    問答對語料

    使用"問答語料",還需要做很多工作才能進入機器學習的模型,比如分詞,去停用詞,去標點符號,添加label標記。所以,在"問答語料"的基礎上,還可以繼續處理,但是在分詞等任務中,可以借助不同分詞工具,這點對于模型訓練而言是有影響的。為了使數據能快速可用,insuranceqa-corpus-zh提供了一個使用HanLP分詞和去標,去停,添加label的數據集,這個數據集完全是基于"問答語料"。

    import insuranceqa_data as insuranceqa
    train_data = insuranceqa.load_pairs_train()
    test_data = insuranceqa.load_pairs_test()
    valid_data = insuranceqa.load_pairs_valid()# valid_data, test_data and train_data share the same propertiesfor x in test_data:    print('index %s value: %s ++$++ %s ++$++ %s' % \
        (x['qid'], x['question'], x['utterance'], x['label']))

    vocab_data = insuranceqa.load_pairs_vocab()
    vocab_data['word2id']['UNKNOWN']
    vocab_data['id2word'][0]
    vocab_data['tf']
    vocab_data['total']

    vocab_data包含word2id(dict, 從word到id), id2word(dict, 從id到word),tf(dict, 詞頻統計)和total(單詞總數)。 其中,未登錄詞的標識為UNKNOWN,未登錄詞的id為0。

    train_data, test_data 和 valid_data 的數據格式一樣。qid 是問題Id,question 是問題,utterance 是回復,label 如果是 [1,0] 代表回復是正確答案,[0,1] 代表回復不是正確答案,所以 utterance 包含了正例和負例的數據。每個問題含有10個負例和1個正例。

    train_data含有問題12,889條,數據 141779條,正例:負例 = 1:10 test_data含有問題2,000條,數據 22000條,正例:負例 = 1:10 valid_data含有問題2,000條,數據 22000條,正例:負例 = 1:10

    句子長度:

    max len of valid question : 31, average: 5(max)
    max len of valid utterance: 878(max), average: 165(max)
    max len of test question : 33, average: 5
    max len of test utterance: 878, average: 161
    max len of train question : 42(max), average: 5
    max len of train utterance: 878, average: 162
    vocab size: 24997

    可將本語料庫和以下開源碼配合使用

    DeepQA2: https://github.com/Samurais/DeepQA2

    InsuranceQA TensorFlow: https://github.com/l11x0m7/InsuranceQA

    Chatbot Retrieval: https://github.com/dennybritz/chatbot-retrieval

    聲明

    聲明1 : insuranceqa-corpus-zh

    本數據集使用翻譯 insuranceQA而生成,代碼發布證書 GPL 3.0。數據僅限于研究用途,如果在發布的任何媒體、期刊、雜志或博客等內容時,必須注明引用和地址。

    InsuranceQA Corpus, Hai Liang Wang, https://github.com/Samurais/insuranceqa-corpus-zh, 07 27, 2017

    任何基于insuranceqa-corpus衍生的數據也需要開放并需要聲明和“聲明1”和“聲明2”一致的內容。

    聲明2 : insuranceQA

    此數據集僅作為研究目的提供。如果您使用這些數據發表任何內容,請引用我們的論文:

    Applying Deep Learning to Answer Selection: A Study and An Open Task。Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015


    “TensorFlow & 神經網絡算法高級應用班”開課了!

    最受歡迎的谷歌TensorFlow 框架,ThoughtWorks大牛教你玩轉深度學習!

    課程鏈接:http://www.mooc.ai/course/82

    加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長



    相關文章:

    基于 AI-DR 來談, AI 醫療影像該如何落地?

    機器學習如何“著陸”醫療行業?三位行業專家談關鍵四點

    雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章

    專欄作者

    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 四虎库影成人在线播放| 刺激性视频黄页| 日韩一区二区三区无码| 久热这里只有精品12| 自拍偷拍网| 中文字幕日韩wm二在线看| 国产一区二区三区免费观看| 无码人妻系列| 亚洲午夜精品少妇潮喷| 精品国产自线午夜福利| 日韩人妻无码精品系列| 国内精品久久久久久久小说| 伊人久久大香线蕉综合5g | 丁香五月天堂| 红杏av在线dvd综合| 国产99久久亚洲综合精品西瓜tv| 无套内内射视频网站| 又紧又大又爽精品一区二区| 欧美丰满妇大ass| 久久亚洲欧美日本精品| 国产午夜成人久久无码一区二区| 亚洲色一二三| 麻豆av传媒蜜桃天美传媒| 亚洲国产日韩A在线亚洲| 色猫咪av在线观看| 超碰人人人| 历史| 欧美在线观看免费做受视频| 97免费公开在线视频| 884aa四虎影成人精品| 日日艹| 中文字幕人妻中文AV不卡专区 | 麻豆成人久久精品二区三| 中文字幕自拍| 亚洲老熟女一区二区三区| 亚洲精品无播放器在线看观看| 国产色婷婷视频在线观看| 成人国产精品日本在线观看| 四虎影院176| 亚洲一区二区三区激情在线| 中国亚洲无码|