• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給三川
    發(fā)送

    0

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    本文作者: 三川 2017-02-24 18:31
    導語:身為 AI 開發(fā)者,如果不知道這些公共數(shù)據(jù)庫就真的 OUT 了。

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    開發(fā) AI 和機器學習系統(tǒng)從來沒有像現(xiàn)在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具,在 AI 開發(fā)者群體中已是無處不在。再加上亞馬遜 AWS、Google Cloud 等云服務帶來的海量計算能力,將來使用筆記本電腦來訓練 ML 模型或許不再難以想象。

    公眾對 AI 的遐想,總忽視了數(shù)據(jù)的角色。但海量被標記、注解過的數(shù)據(jù),是當下 AI 革命當之無愧的主要推手之一。業(yè)內研究團隊和公司機構,均明白“數(shù)據(jù)民主化”的意義——使任何開發(fā)者都能獲取高質量的數(shù)據(jù)來訓練、測試模型,是加速 AI 技術發(fā)展的必要措施。

    但就雷鋒網(wǎng)所知,大多數(shù)涉及機器學習和 AI 的產(chǎn)品依賴于專有數(shù)據(jù)庫( proprietary datasets)。它們大多是不被公開的,以保護知識產(chǎn)權以及防范安全風險。

    即便你幸運地找到了相關公共數(shù)據(jù)庫,判斷后者的價值和可靠程度,又是一項讓很多開發(fā)者頭痛的問題。對于概念論證是如此;對于潛在的產(chǎn)品或者特性驗證同樣如此——在收集你的專有數(shù)據(jù)之前,決定該驗證需要何種數(shù)據(jù)集。

    有經(jīng)驗的開發(fā)者都知道,機器學習系統(tǒng)在樣本數(shù)據(jù)集上展示出的優(yōu)異性能,并不能保證其實際效果。許多 AI 從業(yè)人員似乎已經(jīng)忘記了,數(shù)據(jù)采集和標記才是開發(fā) AI 解決方案最難的一環(huán)。標準的數(shù)據(jù)集,可被用作驗證集,或作為開發(fā)更偏向私人訂制方案的起始點。

    本周,Vai Technologies 的創(chuàng)始人、前斯坦福 SLAC 實驗室 CNN 算法架構師 Luke de Oliveira,和其他幾名機器學習專家談到了這個問題。雷鋒網(wǎng)了解到,他們最后決定做一張表單,把 AI 領域含金量最高的開源數(shù)據(jù)庫羅列出來,與大家分享。

    計算機視覺

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    MNIST

    標簽:學術基準 經(jīng)典 較舊

    合理性測試(sanity check)最常用的數(shù)據(jù)庫。規(guī)格為 25x25、中心的、B&W 手寫數(shù)字。用 MNIST 測試非常容易,但不要因為你的模型在 MNIST 運行良好,就認為它事實上可用。

    地址:https://pjreddie.com/projects/mnist-in-csv/

    CIFAR 10 & CIFAR 100

    標簽:經(jīng)典 較舊

    32x32 彩色圖像。雖然用得人比以前少了很多,但仍然能用它做有趣的合理性測試。

    地址:https://www.cs.toronto.edu/~kriz/cifar.html

    ImageNet

    標簽:實用 學術基準 經(jīng)典

    這個用不著介紹,新算法的首選圖像數(shù)據(jù)集。Luke de Oliveira 表示,許多圖像 API 公司從 REST 交互界面搞來的標記,與 ImageNet 1000 目錄中的 WordNet 層級很接近,讓人懷疑。

    地址:http://image-net.org/

    LSUN

    標簽:無

    場景理解,許多其它附加任務(比如房間布局預估,顯著性預測 “saliency prediction”),以及與之關聯(lián)的競賽。

    地址:http://lsun.cs.princeton.edu/2016/

    PASCAL VOC

    標簽:學術基準

    一般性的圖像分割和分類。對于創(chuàng)建現(xiàn)實世界中的圖像注解并不是十分有用,但作為基準很不錯。

    地址:http://host.robots.ox.ac.uk/pascal/VOC/

    SVHN

    標簽:學術基準

    谷歌街景視圖中的住宅號。可以把它當做野生的遞歸( recurrent) MNIST。

    地址:http://ufldl.stanford.edu/housenumbers/

    MS COCO

    標簽:無

     一般性的圖像理解/說明,有相關競賽。

    地址:http://mscoco.org/

    Visual Genome

    標簽:實用

    非常細致的視覺知識庫,對超過十萬張圖像有深度注解。

    地址:http://visualgenome.org/

    Labeled Faces in the Wild

    標簽:實用 學術基準 經(jīng)典 較舊

    修剪過的面部區(qū)域(使用 Viola-Jones),用一個 name identifier 做過標記。其中每一個展示的人在數(shù)據(jù)集中有兩個圖像,這是作為他的子集。開發(fā)者經(jīng)常用它來訓練面部匹配系統(tǒng)。

    地址:http://vis-www.cs.umass.edu/lfw/

    自然語言

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    Text Classification Datasets

    標簽:實用 學術基準

    來自論文 Zhang et al., 2015。這是有八個文字分類數(shù)據(jù)集組成的大型數(shù)據(jù)庫。對于新的文字分類基準,它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數(shù)據(jù)集。

    地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

    WikiText

    標簽:實用 學術基準

    源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。

    地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

    Question Pairs

    標簽:實用

    Quora 發(fā)布的第一個數(shù)據(jù)集,包含副本/語義近似值標記。

    地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

    SQuAD

    標簽:實用 學術基準

    斯坦福的問答社區(qū)數(shù)據(jù)集——適用范圍較廣的問題回答和閱讀理解數(shù)據(jù)集。每一個回答都被作為一個 span,或者一段文本。

    地址:https://rajpurkar.github.io/SQuAD-explorer/

    CMU Q/A Dataset

    標簽:無

    人工創(chuàng)建的仿真陳述問題/回答組合,還有維基百科文章的難度評分。

    地址:http://www.cs.cmu.edu/~ark/QA-data/

    Maluuba Datasets

    標簽:實用

    為 NLP 研究人工創(chuàng)建的復雜數(shù)據(jù)集。

    地址:https://datasets.maluuba.com/

    Billion Words

    標簽:實用 學術基準

    大型、通用型建模數(shù)據(jù)集。時常用來訓練散布音(distributed)的詞語表達,比如 word2vec 或  GloVe。

    地址:http://www.statmt.org/lm-benchmark/

    Common Crawl

    標簽:實用 學術基準

    PB(拍字節(jié))級別的網(wǎng)絡爬蟲。最經(jīng)常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網(wǎng)的信息采集,是一個比較有用的網(wǎng)絡數(shù)據(jù)集。

    地址:http://commoncrawl.org/the-data/

    bAbi

    標簽:學術基準 經(jīng)典

    Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數(shù)據(jù)集。

    地址:https://research.fb.com/projects/babi/

    The Children's Book Test

    標簽:學術基準

    Project Gutenberg(一項正版數(shù)字圖書免費分享工程)兒童圖書里提取的成對數(shù)據(jù)(問題加情境,回答)基準。對問答、閱讀理解、仿真陳述(factoid)查詢比較有用。

    地址:https://research.fb.com/projects/babi/

    Stanford Sentiment Treebank

    標簽:學術基準 經(jīng)典 較舊

    標準的情緒數(shù)據(jù)集,對每一句話每一個節(jié)點的語法樹,都有細致的情感注解。

    地址:http://nlp.stanford.edu/sentiment/code.html

    20 Newsgroups

    標簽:經(jīng)典 較舊

    一個較經(jīng)典的文本分類數(shù)據(jù)集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準,在這方面比較有用。

    地址:http://qwone.com/~jason/20Newsgroups/

    Reuters

    標簽:經(jīng)典 較舊

    較老的、基于純粹分類的數(shù)據(jù)集。文本來自于路透社新聞專線。常被用于教程之中。

    地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

     IMDB

    標簽:經(jīng)典 較舊

    較老的、相對比較小的數(shù)據(jù)集。用于情緒分類。但在文學基準方面逐漸失寵,讓位于更大的數(shù)據(jù)集。

    地址:http://ai.stanford.edu/~amaas/data/sentiment/

    UCI’s Spambase

    標簽:經(jīng)典 較舊

    較老的、經(jīng)典垃圾郵件數(shù)據(jù)集,源自于 UCI Machine Learning Repository。由于數(shù)據(jù)集的管理細節(jié),在學習私人訂制垃圾信息過濾方面,這會是一個有趣的基準。

    地址:https://archive.ics.uci.edu/ml/datasets/Spambase

    語音

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    大多數(shù)語音識別數(shù)據(jù)庫都是專有的——這些數(shù)據(jù)對其所有公司而言有巨大價值。絕大部分該領域的公共數(shù)據(jù)集已經(jīng)很老了。

    2000 HUB5 English

    標簽:學術基準 較舊

    只包含英語的語音數(shù)據(jù)。最近一次被使用是百度的深度語音論文。

    地址:https://catalog.ldc.upenn.edu/LDC2002T43

    LibriSpeech

    標簽:學術基準

    有聲圖書數(shù)據(jù)集,包含文字和語音。接近 500 個小時的清楚語音,來自于多名朗讀者和多個有聲讀物,根據(jù)圖書章節(jié)來組織。

    地址:http://www.openslr.org/12/

    VoxForge

    標簽:實用 學術基準

    帶口音英語的清晰語音數(shù)據(jù)集。如果你需要有強大的不同口音、語調識別能力,會比較有用。

    地址:http://www.voxforge.org/

    TIMIT

    標簽:學術基準 經(jīng)典

    只含英語的語音識別數(shù)據(jù)集。

    地址:https://catalog.ldc.upenn.edu/LDC93S1

    CHIME

    標簽:實用

    含大量噪音的語音識別挑戰(zhàn)杯數(shù)據(jù)集。它包含真實、模擬和清晰的錄音:真實,是因為該數(shù)據(jù)集包含四個說話對象在四個不同吵鬧環(huán)境下接近 9000 段的錄音;模擬,是通過把多個環(huán)境與語音結合來生成;清晰,是指沒有噪音的清楚錄音。

    地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

    TED-LIUM

    標簽:無

    TED 演講的音頻轉錄。包含 1495 場 TED 演講,以及它們的完整字幕文本。

    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

    推薦和排名系統(tǒng)

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    Netflix Challenge

    標簽:經(jīng)典 較舊

    第一個 Kaggle 模式的數(shù)據(jù)挑戰(zhàn)。由于盜版問題只能獲得非官方版本。

    地址:http://www.netflixprize.com/

    MovieLens

    標簽:實用 學術基準 經(jīng)典

    不同大小的電影點評數(shù)據(jù)——一般作為協(xié)同過濾的基準。

    地址:https://grouplens.org/datasets/movielens/

    Million Song Dataset

    標簽:無

    Kaggle 上的大型、富含原數(shù)據(jù)的開源數(shù)據(jù)集。對于試驗混合推薦系統(tǒng)有價值。

    地址:https://www.kaggle.com/c/msdchallenge

    Last.fm

    標簽:實用

    音樂推薦數(shù)據(jù)集,并關聯(lián)相關社交網(wǎng)絡和其他元數(shù)據(jù)。對混合系統(tǒng)有用處。

    地址:http://grouplens.org/datasets/hetrec-2011/

    網(wǎng)絡和圖

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    Amazon Co-Purchasing 和 Amazon Reviews

    標簽:學術基準

    從亞馬遜“買了這個的用戶還買了XXX”功能抓取的數(shù)據(jù),還有相關商品的評價數(shù)據(jù)。對于試驗網(wǎng)絡中的推薦系統(tǒng)有價值。

    地址:http://snap.stanford.edu/data/#amazon

    http://snap.stanford.edu/data/amazon-meta.html

    Friendster 社交網(wǎng)絡數(shù)據(jù)集

    標簽:無

    在成為游戲網(wǎng)站之前,F(xiàn)riendster 發(fā)布了 103,750,348 名用戶朋友名單的匿名數(shù)據(jù)。

    地址:https://archive.org/details/friendster-dataset-201107

    地理空間數(shù)據(jù)

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    OpenStreetMap

    標簽:實用

    整個地球的矢量數(shù)據(jù),處于免費協(xié)議下。它的舊版本包含美國人口統(tǒng)計部門的 TIGER 數(shù)據(jù)。

    地址:http://wiki.openstreetmap.org/wiki/Planet.osm

    Landsat8

    標簽:實用

    整個地球表面的衛(wèi)星拍照,每隔幾周更新一次。

    地址:https://landsat.usgs.gov/landsat-8

    NEXRAD

    標簽:實用

    多普勒天氣雷達對美國大氣情況的掃描。

    地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

    后話

    人們經(jīng)常認為,能在一個數(shù)據(jù)集上解決問題,就等同于有了一個能用的產(chǎn)品。開發(fā)者可以使用這些數(shù)據(jù)集作為驗證集,或用作概念論證;但別忘了測試,或創(chuàng)建模擬產(chǎn)品運行的原型機。獲取更新、更真實的數(shù)據(jù)來改善模型非常關鍵。雷鋒網(wǎng)了解到,成功的數(shù)據(jù)驅動型公司,往往擅長收集新的專有數(shù)據(jù),以及改善產(chǎn)品性能增強競爭優(yōu)勢。而這往往是競爭對手難以直接 copy 的。

    via medium

    相關文章:

    2017年,開發(fā)者需要關注哪些AI國際峰會?看這篇就夠了

    機器學習模型開發(fā)必讀:開源數(shù)據(jù)庫最全盤點

    分享:

    用愛救世界
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 天天爱天天躁XXXXAAAA| 综合激情网一区二区三区| 3p露脸在线播放| 777午夜福利理论电影网| 欧日韩不卡在线视频| 天天看片天天av免费观看| 在线a亚洲老鸭窝天堂| 日韩大香蕉| 色噜噜人妻丝袜AⅤ资源| 亚洲视频在线观看第一页| 无套内谢少妇毛片aaaa片免费| 亚洲精品麻豆一二三区| 麻豆国产va免费精品高清在线| 久久精品国产精品一区二区| 亚洲中文字幕2022| 国产成人一区二区三区视频免费| 熟女中字在线| 午夜福利理论片高清在线| 欧美黑人性受xxxx精品| 中文字幕影院一区二区毛片| 久久国产精品成人免费| 亚洲午夜亚洲精品国产成人| 亚洲国产成人资源在线| 欧美极品少妇×XXXBBB| 国产色亚洲| 国产成人乱色伦区小说| 亚洲午夜香蕉久久精品| 99久久无码私人网站| 日本深夜福利在线观看| 亚洲人BBwBBwBBWBBw| 欧美激情一区二区亚洲专区| 国产精品午夜福利视频234区| 亚洲一二三区精品与老人| 国产xxx| 国产精品66| 成人免费无码a毛片| 国产成人高清在线重口视频| 欧美乱码精品一区二区三区| 欧美一级鲁丝片免费一区| 久久99久久久无码国产精品色戒 | 国产一区二区三区黄色片|