• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給王悅
    發(fā)送

    0

    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    本文作者: 王悅 2024-03-14 15:40
    導(dǎo)語:百里挑一“萃取”數(shù)據(jù)精華


    近日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)發(fā)布新一代高質(zhì)量大模型預(yù)訓(xùn)練語料“萬卷CC”(WanJuan-CC),首批開源的語料覆蓋過去十年互聯(lián)網(wǎng)上的公開內(nèi)容,包含1千億字符(100B token),約400GB的高質(zhì)量英文數(shù)據(jù)。作為“大模型語料數(shù)據(jù)聯(lián)盟”今年首發(fā)的開源語料,WanJuan-CC將為學(xué)界和業(yè)界提供大規(guī)模、高質(zhì)量的數(shù)據(jù)支撐,助力構(gòu)建更智能可靠的AI大模型。

    預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量對大模型整體性能至關(guān)重要。當(dāng)前,CommonCrawl(CC)數(shù)據(jù)集因其規(guī)模大、跨度廣而成為國際主流大模型訓(xùn)練數(shù)據(jù)的重要來源。與此同時,其原始數(shù)據(jù)格式復(fù)雜、數(shù)據(jù)質(zhì)量低等問題,或?qū)?dǎo)致模型訓(xùn)練效率低,甚至可能引發(fā)價(jià)值觀對齊等方面的隱患。

    中國科研人員通過原創(chuàng)的數(shù)據(jù)清洗技術(shù),從CC數(shù)據(jù)庫中抽取約1300億份原始數(shù)據(jù)文檔進(jìn)行再處理,“萃取”出其中約1.38%的高質(zhì)量內(nèi)容,構(gòu)建成WanJuan-CC語料庫。實(shí)驗(yàn)結(jié)果顯示,WanJuanCC具有高文本質(zhì)量、高信息密度的特點(diǎn),可滿足當(dāng)前大模型訓(xùn)練對大規(guī)模高質(zhì)量語料的需求。

    上海AI實(shí)驗(yàn)室發(fā)布的書?·浦語2.0(InternLM2)即以WanJuan-CC為關(guān)鍵數(shù)據(jù)作支撐,使訓(xùn)練效率和語言建模能力大幅提升,綜合性能領(lǐng)先開源社區(qū)。

    開源數(shù)據(jù):https://opendatalab.com/OpenDataLab/WanJuanCC


    高質(zhì)量語料驅(qū)動,效率性能雙提升

    近期,上海AI實(shí)驗(yàn)室發(fā)布了新一代大語言模型書?·浦語2.0(InternLM2)。回歸語言建模本質(zhì),InternLM2綜合性能達(dá)到同量級開源模型的領(lǐng)先水平。模型基座語言建模能力的提升,則得益于預(yù)訓(xùn)練文本質(zhì)量及信息密度的增強(qiáng)。作為InternLM2的關(guān)鍵預(yù)訓(xùn)練語料,WanJuan-CC的文本質(zhì)量和高信息密度經(jīng)過了模型實(shí)際驗(yàn)證。在InternLM2的訓(xùn)練過程中,在僅使用約60%的訓(xùn)練數(shù)據(jù)情況下,模型即獲得了與此前使用1T token相同的性能表現(xiàn),大幅提升訓(xùn)練效率,并使模型在相同語料規(guī)模上取得了更好的性能。

     上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    綠色曲線為InternLM2使用WanJuan-cc作為預(yù)訓(xùn)練語料,在不同數(shù)據(jù)規(guī)模上取得的任務(wù)性能分布,結(jié)果顯示,WanJuan-CC可大幅提升模型訓(xùn)練效率

    研究團(tuán)隊(duì)通過對CC原始數(shù)據(jù)進(jìn)行清洗,去除了網(wǎng)頁代碼和重復(fù)內(nèi)容,同時利用分類模型剔除了廣告和質(zhì)量較差的信息,并通過內(nèi)容一致性、語法正確性、數(shù)據(jù)噪聲和信息價(jià)值等四個維度,對語言的流暢性進(jìn)行評估。為驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)使用WanJuan-CC和RefineWeb(從CommonCrawl中抽取并構(gòu)建的主流英文預(yù)訓(xùn)練語料)分別重新訓(xùn)練了參數(shù)量1B的模型,并進(jìn)行評測。結(jié)果顯示,由WanJuan-CC作為訓(xùn)練數(shù)據(jù)的模型在多項(xiàng)驗(yàn)證中取得了更優(yōu)效果。

     上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    基于WanJuan-CC訓(xùn)練的1B模型在Pile驗(yàn)證集評測效果更優(yōu),這表明由WanJuan-CC訓(xùn)練的模型在不同領(lǐng)域和各類知識上擁有更強(qiáng)能力

     

    四重處理, 百里挑一“萃取”高質(zhì)量數(shù)據(jù)

    為從浩如煙海的CC數(shù)據(jù)庫中“精選”最可靠的信息,研究團(tuán)隊(duì)搭建了高性能分布式數(shù)據(jù)處理基礎(chǔ)設(shè)施,通過啟發(fā)式規(guī)則過濾、多層級數(shù)據(jù)去重、內(nèi)容安全過濾、數(shù)據(jù)質(zhì)量過濾等四個步驟,從原始數(shù)據(jù)中“萃取”出高質(zhì)量數(shù)據(jù),數(shù)據(jù)留存率僅為原數(shù)據(jù)的1.38%。


    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    通過原創(chuàng)技術(shù),對CC原始數(shù)據(jù)進(jìn)行多階段處理,得到了高信息密度的WanJuan-CC

    研究團(tuán)隊(duì)首先從CC中抽取了約1300億份原始數(shù)據(jù)文檔,然后基于高性能數(shù)據(jù)處理工作流得到2.2T token(35.8億個文檔)安全數(shù)據(jù),最后,根據(jù)質(zhì)量排序精選出1T token(3.6億個文檔)質(zhì)量最高的數(shù)據(jù),構(gòu)建成WanJuan-CC。如以下柱狀圖所示,在WanJuan-CC構(gòu)建過程中的每一階段,均進(jìn)行了大比例的數(shù)據(jù)去除。對于僅占原CC數(shù)據(jù)比例2.76%的安全信息,研究人員再次“篩”掉五成低質(zhì)內(nèi)容,最終呈現(xiàn)出“百里挑一”的高質(zhì)量數(shù)據(jù)。

    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    各清洗階段的文檔保留率和去除率(本圖使用對數(shù)坐標(biāo)軸)

     

    數(shù)據(jù)質(zhì)量高,模型更可靠

    為推動訓(xùn)練更智能可靠的AI大模型,研究團(tuán)隊(duì)以保障數(shù)據(jù)安全性為前提,在數(shù)據(jù)處理的各環(huán)節(jié)均實(shí)施了多項(xiàng)安全加固措施,使WanJuan-CC成為目前開源CC語料中首個在毒性(Toxic)、色情(Porn)和個人隱私三方面同時進(jìn)行了安全加固的英文語料,因而在價(jià)值對齊方面具有更高的可靠性。


    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    與部分開源CC語料多維度對比,在毒性、色情和個人隱私等方面,WanJuan-CC均進(jìn)行了安全加固

     研究人員分別對WanJuan-CC、Redpajama和Refineweb數(shù)據(jù)集進(jìn)行了10萬條數(shù)據(jù)的抽樣,從毒性、侮辱、恐嚇等7個維度進(jìn)行評分,以驗(yàn)證各數(shù)據(jù)集的信息安全性。結(jié)果顯示,WanJuan-CC在各維度上的體現(xiàn)出最高安全性。

    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    WanJuan-CC與其他開源英文CC語料安全性對比

    高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)已成為支持當(dāng)前人工智能大模型發(fā)展的重要基石。WanJuan-CC的主要構(gòu)建團(tuán)隊(duì)——OpenDataLab致力于建設(shè)面向人工智能開發(fā)者的超大規(guī)模、高質(zhì)量、多模態(tài)開放數(shù)據(jù)服務(wù)平臺,目前已匯聚高質(zhì)量多模態(tài)數(shù)據(jù)集超6500個,涵蓋大模型研發(fā)應(yīng)用所需的各類語料數(shù)據(jù)。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


    下載更多開源語料,請登錄大模型語料數(shù)據(jù)聯(lián)盟開源數(shù)據(jù)服務(wù)指定平臺:

    https://opendatalab.com

    上海AI實(shí)驗(yàn)室開源發(fā)布高質(zhì)量語料“萬卷CC”

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产xxxx做受视频| 久久亚洲精品无码va白人极品| 福利所导航| 四虎精品一区二区三区| 国产日韩精品视频一区| 国产啪视频免费观看视频| 99精品视频免费观看| 精品日韩亚洲av无码| 亚洲欧美另类久久久精品| 高中女无套中出17p| 国产成人午夜福利院| 中文日韩亚洲欧美字幕| 亚洲中文字幕日产无码2021| 性久久久久久| 亚洲欧美自偷自拍视频图片| 天堂中文在线资源| 亚洲AV无码码潮喷在线观看| 亚洲中文在线观看| 丁香五月天综合缴情网| 亚洲国产精品一区二区三| 日本精品欧美一区二区三区| 精品中文字幕制服中文| 精品国产乱来一区二区三区| 亚洲欧美另类在线| 国产综合11p| 丁香五月亚洲综合在线国内自拍| 亚洲欧洲自偷自拍图片 | 久久中文字幕人妻熟女| 99精品国产精品一区二区| 免费偷拍| 亚洲人妻精品无码| A级毛片高清免费视频播放出要看| 日本一道一区二区视频| 亚洲欧美精品在线| 毛多水多高潮高清视频| 亚洲成人黄色一级大片| 亚洲AV成人无码精品电影在线| 亚洲18禁| 老熟妇网| 内射老阿姨1区2区3区4区| 人妻少妇看a偷人无码|