機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

本文作者：三川

2017-02-24 18:31

導語：身為 AI 開發(fā)者，如果不知道這些公共數(shù)據(jù)庫就真的 OUT 了。

開發(fā) AI 和機器學習系統(tǒng)從來沒有像現(xiàn)在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具，在 AI 開發(fā)者群體中已是無處不在。再加上亞馬遜 AWS、Google Cloud 等云服務帶來的海量計算能力，將來使用筆記本電腦來訓練 ML 模型或許不再難以想象。

公眾對 AI 的遐想，總忽視了數(shù)據(jù)的角色。但海量被標記、注解過的數(shù)據(jù)，是當下 AI 革命當之無愧的主要推手之一。業(yè)內研究團隊和公司機構，均明白“數(shù)據(jù)民主化”的意義——使任何開發(fā)者都能獲取高質量的數(shù)據(jù)來訓練、測試模型，是加速 AI 技術發(fā)展的必要措施。

但就雷鋒網(wǎng)所知，大多數(shù)涉及機器學習和 AI 的產(chǎn)品依賴于專有數(shù)據(jù)庫（ proprietary datasets）。它們大多是不被公開的，以保護知識產(chǎn)權以及防范安全風險。

即便你幸運地找到了相關公共數(shù)據(jù)庫，判斷后者的價值和可靠程度，又是一項讓很多開發(fā)者頭痛的問題。對于概念論證是如此；對于潛在的產(chǎn)品或者特性驗證同樣如此——在收集你的專有數(shù)據(jù)之前，決定該驗證需要何種數(shù)據(jù)集。

有經(jīng)驗的開發(fā)者都知道，機器學習系統(tǒng)在樣本數(shù)據(jù)集上展示出的優(yōu)異性能，并不能保證其實際效果。許多 AI 從業(yè)人員似乎已經(jīng)忘記了，數(shù)據(jù)采集和標記才是開發(fā) AI 解決方案最難的一環(huán)。標準的數(shù)據(jù)集，可被用作驗證集，或作為開發(fā)更偏向私人訂制方案的起始點。

本周，Vai Technologies 的創(chuàng)始人、前斯坦福 SLAC 實驗室 CNN 算法架構師 Luke de Oliveira，和其他幾名機器學習專家談到了這個問題。雷鋒網(wǎng)了解到，他們最后決定做一張表單，把 AI 領域含金量最高的開源數(shù)據(jù)庫羅列出來，與大家分享。

計算機視覺

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

MNIST

標簽：學術基準經(jīng)典較舊

合理性測試（sanity check）最常用的數(shù)據(jù)庫。規(guī)格為 25x25、中心的、B&W 手寫數(shù)字。用 MNIST 測試非常容易，但不要因為你的模型在 MNIST 運行良好，就認為它事實上可用。

地址：https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

標簽：經(jīng)典較舊

32x32 彩色圖像。雖然用得人比以前少了很多，但仍然能用它做有趣的合理性測試。

地址：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

標簽：實用學術基準經(jīng)典

這個用不著介紹，新算法的首選圖像數(shù)據(jù)集。Luke de Oliveira 表示，許多圖像 API 公司從 REST 交互界面搞來的標記，與 ImageNet 1000 目錄中的 WordNet 層級很接近，讓人懷疑。

地址：http://image-net.org/

LSUN

標簽：無

場景理解，許多其它附加任務（比如房間布局預估，顯著性預測 “saliency prediction”），以及與之關聯(lián)的競賽。

地址：http://lsun.cs.princeton.edu/2016/

PASCAL VOC

標簽：學術基準

一般性的圖像分割和分類。對于創(chuàng)建現(xiàn)實世界中的圖像注解并不是十分有用，但作為基準很不錯。

地址：http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

標簽：學術基準

谷歌街景視圖中的住宅號。可以把它當做野生的遞歸（ recurrent） MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

MS COCO

標簽：無

一般性的圖像理解/說明，有相關競賽。

地址：http://mscoco.org/

Visual Genome

標簽：實用

非常細致的視覺知識庫，對超過十萬張圖像有深度注解。

地址：http://visualgenome.org/

Labeled Faces in the Wild

標簽：實用學術基準經(jīng)典較舊

修剪過的面部區(qū)域（使用 Viola-Jones），用一個 name identifier 做過標記。其中每一個展示的人在數(shù)據(jù)集中有兩個圖像，這是作為他的子集。開發(fā)者經(jīng)常用它來訓練面部匹配系統(tǒng)。

地址：http://vis-www.cs.umass.edu/lfw/

自然語言

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

Text Classification Datasets

標簽：實用學術基準

來自論文 Zhang et al., 2015。這是有八個文字分類數(shù)據(jù)集組成的大型數(shù)據(jù)庫。對于新的文字分類基準，它是最常用的。樣本大小為 120K 到 3.6M，包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的數(shù)據(jù)集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

標簽：實用學術基準

源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

標簽：實用

Quora 發(fā)布的第一個數(shù)據(jù)集，包含副本/語義近似值標記。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

標簽：實用學術基準

斯坦福的問答社區(qū)數(shù)據(jù)集——適用范圍較廣的問題回答和閱讀理解數(shù)據(jù)集。每一個回答都被作為一個 span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

標簽：無

人工創(chuàng)建的仿真陳述問題/回答組合，還有維基百科文章的難度評分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

標簽：實用

為 NLP 研究人工創(chuàng)建的復雜數(shù)據(jù)集。

地址：https://datasets.maluuba.com/

Billion Words

標簽：實用學術基準

大型、通用型建模數(shù)據(jù)集。時常用來訓練散布音（distributed）的詞語表達，比如 word2vec 或 GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

標簽：實用學術基準

PB（拍字節(jié)）級別的網(wǎng)絡爬蟲。最經(jīng)常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網(wǎng)的信息采集，是一個比較有用的網(wǎng)絡數(shù)據(jù)集。

地址：http://commoncrawl.org/the-data/

bAbi

標簽：學術基準經(jīng)典

Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數(shù)據(jù)集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

標簽：學術基準

Project Gutenberg（一項正版數(shù)字圖書免費分享工程）兒童圖書里提取的成對數(shù)據(jù)（問題加情境，回答）基準。對問答、閱讀理解、仿真陳述（factoid）查詢比較有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

標簽：學術基準經(jīng)典較舊

標準的情緒數(shù)據(jù)集，對每一句話每一個節(jié)點的語法樹，都有細致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

標簽：經(jīng)典較舊

一個較經(jīng)典的文本分類數(shù)據(jù)集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準，在這方面比較有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

標簽：經(jīng)典較舊

較老的、基于純粹分類的數(shù)據(jù)集。文本來自于路透社新聞專線。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

標簽：經(jīng)典較舊

較老的、相對比較小的數(shù)據(jù)集。用于情緒分類。但在文學基準方面逐漸失寵，讓位于更大的數(shù)據(jù)集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

標簽：經(jīng)典較舊

較老的、經(jīng)典垃圾郵件數(shù)據(jù)集，源自于 UCI Machine Learning Repository。由于數(shù)據(jù)集的管理細節(jié)，在學習私人訂制垃圾信息過濾方面，這會是一個有趣的基準。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

語音

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

大多數(shù)語音識別數(shù)據(jù)庫都是專有的——這些數(shù)據(jù)對其所有公司而言有巨大價值。絕大部分該領域的公共數(shù)據(jù)集已經(jīng)很老了。

2000 HUB5 English

標簽：學術基準較舊

只包含英語的語音數(shù)據(jù)。最近一次被使用是百度的深度語音論文。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

標簽：學術基準

有聲圖書數(shù)據(jù)集，包含文字和語音。接近 500 個小時的清楚語音，來自于多名朗讀者和多個有聲讀物，根據(jù)圖書章節(jié)來組織。

地址：http://www.openslr.org/12/

VoxForge

標簽：實用學術基準

帶口音英語的清晰語音數(shù)據(jù)集。如果你需要有強大的不同口音、語調識別能力，會比較有用。

地址：http://www.voxforge.org/

TIMIT

標簽：學術基準經(jīng)典

只含英語的語音識別數(shù)據(jù)集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME

標簽：實用

含大量噪音的語音識別挑戰(zhàn)杯數(shù)據(jù)集。它包含真實、模擬和清晰的錄音：真實，是因為該數(shù)據(jù)集包含四個說話對象在四個不同吵鬧環(huán)境下接近 9000 段的錄音；模擬，是通過把多個環(huán)境與語音結合來生成；清晰，是指沒有噪音的清楚錄音。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

標簽：無

TED 演講的音頻轉錄。包含 1495 場 TED 演講，以及它們的完整字幕文本。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

網(wǎng)絡和圖

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

Amazon Co-Purchasing 和 Amazon Reviews

標簽：學術基準

從亞馬遜“買了這個的用戶還買了XXX”功能抓取的數(shù)據(jù)，還有相關商品的評價數(shù)據(jù)。對于試驗網(wǎng)絡中的推薦系統(tǒng)有價值。

地址：http://snap.stanford.edu/data/#amazon

http://snap.stanford.edu/data/amazon-meta.html

Friendster 社交網(wǎng)絡數(shù)據(jù)集

標簽：無

在成為游戲網(wǎng)站之前，F(xiàn)riendster 發(fā)布了 103,750,348 名用戶朋友名單的匿名數(shù)據(jù)。

地址：https://archive.org/details/friendster-dataset-201107

地理空間數(shù)據(jù)

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

OpenStreetMap

標簽：實用

整個地球的矢量數(shù)據(jù)，處于免費協(xié)議下。它的舊版本包含美國人口統(tǒng)計部門的 TIGER 數(shù)據(jù)。

地址：http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8

標簽：實用

整個地球表面的衛(wèi)星拍照，每隔幾周更新一次。

地址：https://landsat.usgs.gov/landsat-8

NEXRAD

標簽：實用

多普勒天氣雷達對美國大氣情況的掃描。

地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

后話

人們經(jīng)常認為，能在一個數(shù)據(jù)集上解決問題，就等同于有了一個能用的產(chǎn)品。開發(fā)者可以使用這些數(shù)據(jù)集作為驗證集，或用作概念論證；但別忘了測試，或創(chuàng)建模擬產(chǎn)品運行的原型機。獲取更新、更真實的數(shù)據(jù)來改善模型非常關鍵。雷鋒網(wǎng)了解到，成功的數(shù)據(jù)驅動型公司，往往擅長收集新的專有數(shù)據(jù)，以及改善產(chǎn)品性能增強競爭優(yōu)勢。而這往往是競爭對手難以直接 copy 的。

via medium

2017年，開發(fā)者需要關注哪些AI國際峰會？看這篇就夠了

7人收藏

三川

用愛救世界

發(fā)私信

當月熱門文章

機器學習模型開發(fā)必讀：開源數(shù)據(jù)庫最全盤點

計算機視覺

MNIST

CIFAR 10 & CIFAR 100

ImageNet

LSUN

SVHN

MS COCO

Visual Genome

自然語言

Text Classification Datasets

WikiText

Question Pairs

CMU Q/A Dataset

Billion Words

Common Crawl

bAbi

20 Newsgroups

Reuters

語音

LibriSpeech

CHIME

TED-LIUM

推薦和排名系統(tǒng)

Netflix Challenge

Million Song Dataset

Last.fm

網(wǎng)絡和圖

Friendster 社交網(wǎng)絡數(shù)據(jù)集

地理空間數(shù)據(jù)

OpenStreetMap

Landsat8

NEXRAD

后話