• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給三川
    發送

    0

    機器學習模型開發必讀:開源數據庫最全盤點

    本文作者: 三川 2017-02-24 18:31
    導語:身為 AI 開發者,如果不知道這些公共數據庫就真的 OUT 了。

    機器學習模型開發必讀:開源數據庫最全盤點

    開發 AI 和機器學習系統從來沒有像現在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具,在 AI 開發者群體中已是無處不在。再加上亞馬遜 AWS、Google Cloud 等云服務帶來的海量計算能力,將來使用筆記本電腦來訓練 ML 模型或許不再難以想象。

    公眾對 AI 的遐想,總忽視了數據的角色。但海量被標記、注解過的數據,是當下 AI 革命當之無愧的主要推手之一。業內研究團隊和公司機構,均明白“數據民主化”的意義——使任何開發者都能獲取高質量的數據來訓練、測試模型,是加速 AI 技術發展的必要措施。

    但就雷鋒網所知,大多數涉及機器學習和 AI 的產品依賴于專有數據庫( proprietary datasets)。它們大多是不被公開的,以保護知識產權以及防范安全風險。

    即便你幸運地找到了相關公共數據庫,判斷后者的價值和可靠程度,又是一項讓很多開發者頭痛的問題。對于概念論證是如此;對于潛在的產品或者特性驗證同樣如此——在收集你的專有數據之前,決定該驗證需要何種數據集。

    有經驗的開發者都知道,機器學習系統在樣本數據集上展示出的優異性能,并不能保證其實際效果。許多 AI 從業人員似乎已經忘記了,數據采集和標記才是開發 AI 解決方案最難的一環。標準的數據集,可被用作驗證集,或作為開發更偏向私人訂制方案的起始點。

    本周,Vai Technologies 的創始人、前斯坦福 SLAC 實驗室 CNN 算法架構師 Luke de Oliveira,和其他幾名機器學習專家談到了這個問題。雷鋒網了解到,他們最后決定做一張表單,把 AI 領域含金量最高的開源數據庫羅列出來,與大家分享。

    計算機視覺

    機器學習模型開發必讀:開源數據庫最全盤點

    MNIST

    標簽:學術基準 經典 較舊

    合理性測試(sanity check)最常用的數據庫。規格為 25x25、中心的、B&W 手寫數字。用 MNIST 測試非常容易,但不要因為你的模型在 MNIST 運行良好,就認為它事實上可用。

    地址:https://pjreddie.com/projects/mnist-in-csv/

    CIFAR 10 & CIFAR 100

    標簽:經典 較舊

    32x32 彩色圖像。雖然用得人比以前少了很多,但仍然能用它做有趣的合理性測試。

    地址:https://www.cs.toronto.edu/~kriz/cifar.html

    ImageNet

    標簽:實用 學術基準 經典

    這個用不著介紹,新算法的首選圖像數據集。Luke de Oliveira 表示,許多圖像 API 公司從 REST 交互界面搞來的標記,與 ImageNet 1000 目錄中的 WordNet 層級很接近,讓人懷疑。

    地址:http://image-net.org/

    LSUN

    標簽:無

    場景理解,許多其它附加任務(比如房間布局預估,顯著性預測 “saliency prediction”),以及與之關聯的競賽。

    地址:http://lsun.cs.princeton.edu/2016/

    PASCAL VOC

    標簽:學術基準

    一般性的圖像分割和分類。對于創建現實世界中的圖像注解并不是十分有用,但作為基準很不錯。

    地址:http://host.robots.ox.ac.uk/pascal/VOC/

    SVHN

    標簽:學術基準

    谷歌街景視圖中的住宅號。可以把它當做野生的遞歸( recurrent) MNIST。

    地址:http://ufldl.stanford.edu/housenumbers/

    MS COCO

    標簽:無

     一般性的圖像理解/說明,有相關競賽。

    地址:http://mscoco.org/

    Visual Genome

    標簽:實用

    非常細致的視覺知識庫,對超過十萬張圖像有深度注解。

    地址:http://visualgenome.org/

    Labeled Faces in the Wild

    標簽:實用 學術基準 經典 較舊

    修剪過的面部區域(使用 Viola-Jones),用一個 name identifier 做過標記。其中每一個展示的人在數據集中有兩個圖像,這是作為他的子集。開發者經常用它來訓練面部匹配系統。

    地址:http://vis-www.cs.umass.edu/lfw/

    自然語言

    機器學習模型開發必讀:開源數據庫最全盤點

    Text Classification Datasets

    標簽:實用 學術基準

    來自論文 Zhang et al., 2015。這是有八個文字分類數據集組成的大型數據庫。對于新的文字分類基準,它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數據集。

    地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

    WikiText

    標簽:實用 學術基準

    源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。

    地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

    Question Pairs

    標簽:實用

    Quora 發布的第一個數據集,包含副本/語義近似值標記。

    地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

    SQuAD

    標簽:實用 學術基準

    斯坦福的問答社區數據集——適用范圍較廣的問題回答和閱讀理解數據集。每一個回答都被作為一個 span,或者一段文本。

    地址:https://rajpurkar.github.io/SQuAD-explorer/

    CMU Q/A Dataset

    標簽:無

    人工創建的仿真陳述問題/回答組合,還有維基百科文章的難度評分。

    地址:http://www.cs.cmu.edu/~ark/QA-data/

    Maluuba Datasets

    標簽:實用

    為 NLP 研究人工創建的復雜數據集。

    地址:https://datasets.maluuba.com/

    Billion Words

    標簽:實用 學術基準

    大型、通用型建模數據集。時常用來訓練散布音(distributed)的詞語表達,比如 word2vec 或  GloVe。

    地址:http://www.statmt.org/lm-benchmark/

    Common Crawl

    標簽:實用 學術基準

    PB(拍字節)級別的網絡爬蟲。最經常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網的信息采集,是一個比較有用的網絡數據集。

    地址:http://commoncrawl.org/the-data/

    bAbi

    標簽:學術基準 經典

    Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數據集。

    地址:https://research.fb.com/projects/babi/

    The Children's Book Test

    標簽:學術基準

    Project Gutenberg(一項正版數字圖書免費分享工程)兒童圖書里提取的成對數據(問題加情境,回答)基準。對問答、閱讀理解、仿真陳述(factoid)查詢比較有用。

    地址:https://research.fb.com/projects/babi/

    Stanford Sentiment Treebank

    標簽:學術基準 經典 較舊

    標準的情緒數據集,對每一句話每一個節點的語法樹,都有細致的情感注解。

    地址:http://nlp.stanford.edu/sentiment/code.html

    20 Newsgroups

    標簽:經典 較舊

    一個較經典的文本分類數據集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準,在這方面比較有用。

    地址:http://qwone.com/~jason/20Newsgroups/

    Reuters

    標簽:經典 較舊

    較老的、基于純粹分類的數據集。文本來自于路透社新聞專線。常被用于教程之中。

    地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

     IMDB

    標簽:經典 較舊

    較老的、相對比較小的數據集。用于情緒分類。但在文學基準方面逐漸失寵,讓位于更大的數據集。

    地址:http://ai.stanford.edu/~amaas/data/sentiment/

    UCI’s Spambase

    標簽:經典 較舊

    較老的、經典垃圾郵件數據集,源自于 UCI Machine Learning Repository。由于數據集的管理細節,在學習私人訂制垃圾信息過濾方面,這會是一個有趣的基準。

    地址:https://archive.ics.uci.edu/ml/datasets/Spambase

    語音

    機器學習模型開發必讀:開源數據庫最全盤點

    大多數語音識別數據庫都是專有的——這些數據對其所有公司而言有巨大價值。絕大部分該領域的公共數據集已經很老了。

    2000 HUB5 English

    標簽:學術基準 較舊

    只包含英語的語音數據。最近一次被使用是百度的深度語音論文。

    地址:https://catalog.ldc.upenn.edu/LDC2002T43

    LibriSpeech

    標簽:學術基準

    有聲圖書數據集,包含文字和語音。接近 500 個小時的清楚語音,來自于多名朗讀者和多個有聲讀物,根據圖書章節來組織。

    地址:http://www.openslr.org/12/

    VoxForge

    標簽:實用 學術基準

    帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力,會比較有用。

    地址:http://www.voxforge.org/

    TIMIT

    標簽:學術基準 經典

    只含英語的語音識別數據集。

    地址:https://catalog.ldc.upenn.edu/LDC93S1

    CHIME

    標簽:實用

    含大量噪音的語音識別挑戰杯數據集。它包含真實、模擬和清晰的錄音:真實,是因為該數據集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音;模擬,是通過把多個環境與語音結合來生成;清晰,是指沒有噪音的清楚錄音。

    地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

    TED-LIUM

    標簽:無

    TED 演講的音頻轉錄。包含 1495 場 TED 演講,以及它們的完整字幕文本。

    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

    推薦和排名系統

    機器學習模型開發必讀:開源數據庫最全盤點

    Netflix Challenge

    標簽:經典 較舊

    第一個 Kaggle 模式的數據挑戰。由于盜版問題只能獲得非官方版本。

    地址:http://www.netflixprize.com/

    MovieLens

    標簽:實用 學術基準 經典

    不同大小的電影點評數據——一般作為協同過濾的基準。

    地址:https://grouplens.org/datasets/movielens/

    Million Song Dataset

    標簽:無

    Kaggle 上的大型、富含原數據的開源數據集。對于試驗混合推薦系統有價值。

    地址:https://www.kaggle.com/c/msdchallenge

    Last.fm

    標簽:實用

    音樂推薦數據集,并關聯相關社交網絡和其他元數據。對混合系統有用處。

    地址:http://grouplens.org/datasets/hetrec-2011/

    網絡和圖

    機器學習模型開發必讀:開源數據庫最全盤點

    Amazon Co-Purchasing 和 Amazon Reviews

    標簽:學術基準

    從亞馬遜“買了這個的用戶還買了XXX”功能抓取的數據,還有相關商品的評價數據。對于試驗網絡中的推薦系統有價值。

    地址:http://snap.stanford.edu/data/#amazon

    http://snap.stanford.edu/data/amazon-meta.html

    Friendster 社交網絡數據集

    標簽:無

    在成為游戲網站之前,Friendster 發布了 103,750,348 名用戶朋友名單的匿名數據。

    地址:https://archive.org/details/friendster-dataset-201107

    地理空間數據

    機器學習模型開發必讀:開源數據庫最全盤點

    OpenStreetMap

    標簽:實用

    整個地球的矢量數據,處于免費協議下。它的舊版本包含美國人口統計部門的 TIGER 數據。

    地址:http://wiki.openstreetmap.org/wiki/Planet.osm

    Landsat8

    標簽:實用

    整個地球表面的衛星拍照,每隔幾周更新一次。

    地址:https://landsat.usgs.gov/landsat-8

    NEXRAD

    標簽:實用

    多普勒天氣雷達對美國大氣情況的掃描。

    地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

    后話

    人們經常認為,能在一個數據集上解決問題,就等同于有了一個能用的產品。開發者可以使用這些數據集作為驗證集,或用作概念論證;但別忘了測試,或創建模擬產品運行的原型機。獲取更新、更真實的數據來改善模型非常關鍵。雷鋒網了解到,成功的數據驅動型公司,往往擅長收集新的專有數據,以及改善產品性能增強競爭優勢。而這往往是競爭對手難以直接 copy 的。

    via medium

    相關文章:

    2017年,開發者需要關注哪些AI國際峰會?看這篇就夠了

    機器學習模型開發必讀:開源數據庫最全盤點

    分享:

    用愛救世界
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 日本在线中文字幕三区| 色狠狠一区二区| 无码人妻精品一区二区三区下载| 日本高清在线观看WWW色| 久久99精品久久久久久不卡| 亚州无码精品| 久久久久无码精品国91| 精品人妻夜夜爽一区二区人| 欧美极品色午夜在线视频| 亚洲综合国产成人丁香五| www.大熟女| 天堂а√在线中文在线新版| 在线免费观看视频一区二区| 欧美日韩国产在线成人网| 丝袜制服无码国产| 日韩av片无码一区二区不卡| 中文字幕人妻无码一区二区三区| 欧美18在线观看| 国产亚洲精品综合99久久| 少妇又紧又色又爽又刺激视频| 亚洲蜜桃av一区二区三区| 岳乳丰满一区二区三区| 亚洲精品人妻中文字幕| 成人一区二区不卡国产| 欧美日韩精品免费一区二区三区| 伊人日韩亚洲| 男女在线免费视频网站| 亚洲精品线在线观看| 99热这里只有精品免费播放| 深夜福利国产精品中文字幕| 精品无码国产日韩制服丝袜| 午夜福利视频网站| 996aV| 国产成年无码AⅤ片在线| 嫩草国产露脸精品国产| 国产又粗又猛又爽又黄 | 亚洲深夜| 亚洲精品国产一区黑色丝袜| 在线观看AV凹凸资源站| 国产高清无密码一区二区三区| 国产成人av电影在线观看第一页|