機器學習模型開發必讀：開源數據庫最全盤點

本文作者：三川

2017-02-24 18:31

導語：身為 AI 開發者，如果不知道這些公共數據庫就真的 OUT 了。

開發 AI 和機器學習系統從來沒有像現在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具，在 AI 開發者群體中已是無處不在。再加上亞馬遜 AWS、Google Cloud 等云服務帶來的海量計算能力，將來使用筆記本電腦來訓練 ML 模型或許不再難以想象。

公眾對 AI 的遐想，總忽視了數據的角色。但海量被標記、注解過的數據，是當下 AI 革命當之無愧的主要推手之一。業內研究團隊和公司機構，均明白“數據民主化”的意義——使任何開發者都能獲取高質量的數據來訓練、測試模型，是加速 AI 技術發展的必要措施。

但就雷鋒網所知，大多數涉及機器學習和 AI 的產品依賴于專有數據庫（ proprietary datasets）。它們大多是不被公開的，以保護知識產權以及防范安全風險。

即便你幸運地找到了相關公共數據庫，判斷后者的價值和可靠程度，又是一項讓很多開發者頭痛的問題。對于概念論證是如此；對于潛在的產品或者特性驗證同樣如此——在收集你的專有數據之前，決定該驗證需要何種數據集。

有經驗的開發者都知道，機器學習系統在樣本數據集上展示出的優異性能，并不能保證其實際效果。許多 AI 從業人員似乎已經忘記了，數據采集和標記才是開發 AI 解決方案最難的一環。標準的數據集，可被用作驗證集，或作為開發更偏向私人訂制方案的起始點。

本周，Vai Technologies 的創始人、前斯坦福 SLAC 實驗室 CNN 算法架構師 Luke de Oliveira，和其他幾名機器學習專家談到了這個問題。雷鋒網了解到，他們最后決定做一張表單，把 AI 領域含金量最高的開源數據庫羅列出來，與大家分享。

計算機視覺

機器學習模型開發必讀：開源數據庫最全盤點

MNIST

標簽：學術基準經典較舊

合理性測試（sanity check）最常用的數據庫。規格為 25x25、中心的、B&W 手寫數字。用 MNIST 測試非常容易，但不要因為你的模型在 MNIST 運行良好，就認為它事實上可用。

地址：https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

標簽：經典較舊

32x32 彩色圖像。雖然用得人比以前少了很多，但仍然能用它做有趣的合理性測試。

地址：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

標簽：實用學術基準經典

這個用不著介紹，新算法的首選圖像數據集。Luke de Oliveira 表示，許多圖像 API 公司從 REST 交互界面搞來的標記，與 ImageNet 1000 目錄中的 WordNet 層級很接近，讓人懷疑。

地址：http://image-net.org/

LSUN

標簽：無

場景理解，許多其它附加任務（比如房間布局預估，顯著性預測 “saliency prediction”），以及與之關聯的競賽。

地址：http://lsun.cs.princeton.edu/2016/

PASCAL VOC

標簽：學術基準

一般性的圖像分割和分類。對于創建現實世界中的圖像注解并不是十分有用，但作為基準很不錯。

地址：http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

標簽：學術基準

谷歌街景視圖中的住宅號。可以把它當做野生的遞歸（ recurrent） MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

MS COCO

標簽：無

一般性的圖像理解/說明，有相關競賽。

地址：http://mscoco.org/

Visual Genome

標簽：實用

非常細致的視覺知識庫，對超過十萬張圖像有深度注解。

地址：http://visualgenome.org/

Labeled Faces in the Wild

標簽：實用學術基準經典較舊

修剪過的面部區域（使用 Viola-Jones），用一個 name identifier 做過標記。其中每一個展示的人在數據集中有兩個圖像，這是作為他的子集。開發者經常用它來訓練面部匹配系統。

地址：http://vis-www.cs.umass.edu/lfw/

自然語言

機器學習模型開發必讀：開源數據庫最全盤點

Text Classification Datasets

標簽：實用學術基準

來自論文 Zhang et al., 2015。這是有八個文字分類數據集組成的大型數據庫。對于新的文字分類基準，它是最常用的。樣本大小為 120K 到 3.6M，包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的數據集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

標簽：實用學術基準

源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

標簽：實用

Quora 發布的第一個數據集，包含副本/語義近似值標記。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

標簽：實用學術基準

斯坦福的問答社區數據集——適用范圍較廣的問題回答和閱讀理解數據集。每一個回答都被作為一個 span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

標簽：無

人工創建的仿真陳述問題/回答組合，還有維基百科文章的難度評分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

標簽：實用

為 NLP 研究人工創建的復雜數據集。

地址：https://datasets.maluuba.com/

Billion Words

標簽：實用學術基準

大型、通用型建模數據集。時常用來訓練散布音（distributed）的詞語表達，比如 word2vec 或 GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

標簽：實用學術基準

PB（拍字節）級別的網絡爬蟲。最經常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網的信息采集，是一個比較有用的網絡數據集。

地址：http://commoncrawl.org/the-data/

bAbi

標簽：學術基準經典

Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數據集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

標簽：學術基準

Project Gutenberg（一項正版數字圖書免費分享工程）兒童圖書里提取的成對數據（問題加情境，回答）基準。對問答、閱讀理解、仿真陳述（factoid）查詢比較有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

標簽：學術基準經典較舊

標準的情緒數據集，對每一句話每一個節點的語法樹，都有細致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

標簽：經典較舊

一個較經典的文本分類數據集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準，在這方面比較有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

標簽：經典較舊

較老的、基于純粹分類的數據集。文本來自于路透社新聞專線。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

標簽：經典較舊

較老的、相對比較小的數據集。用于情緒分類。但在文學基準方面逐漸失寵，讓位于更大的數據集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

標簽：經典較舊

較老的、經典垃圾郵件數據集，源自于 UCI Machine Learning Repository。由于數據集的管理細節，在學習私人訂制垃圾信息過濾方面，這會是一個有趣的基準。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

語音

機器學習模型開發必讀：開源數據庫最全盤點

大多數語音識別數據庫都是專有的——這些數據對其所有公司而言有巨大價值。絕大部分該領域的公共數據集已經很老了。

2000 HUB5 English

標簽：學術基準較舊

只包含英語的語音數據。最近一次被使用是百度的深度語音論文。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

標簽：學術基準

有聲圖書數據集，包含文字和語音。接近 500 個小時的清楚語音，來自于多名朗讀者和多個有聲讀物，根據圖書章節來組織。

地址：http://www.openslr.org/12/

VoxForge

標簽：實用學術基準

帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力，會比較有用。

地址：http://www.voxforge.org/

TIMIT

標簽：學術基準經典

只含英語的語音識別數據集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME

標簽：實用

含大量噪音的語音識別挑戰杯數據集。它包含真實、模擬和清晰的錄音：真實，是因為該數據集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音；模擬，是通過把多個環境與語音結合來生成；清晰，是指沒有噪音的清楚錄音。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

標簽：無

TED 演講的音頻轉錄。包含 1495 場 TED 演講，以及它們的完整字幕文本。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

網絡和圖

機器學習模型開發必讀：開源數據庫最全盤點

Amazon Co-Purchasing 和 Amazon Reviews

標簽：學術基準

從亞馬遜“買了這個的用戶還買了XXX”功能抓取的數據，還有相關商品的評價數據。對于試驗網絡中的推薦系統有價值。

地址：http://snap.stanford.edu/data/#amazon

http://snap.stanford.edu/data/amazon-meta.html

Friendster 社交網絡數據集

標簽：無

在成為游戲網站之前，Friendster 發布了 103,750,348 名用戶朋友名單的匿名數據。

地址：https://archive.org/details/friendster-dataset-201107

地理空間數據

機器學習模型開發必讀：開源數據庫最全盤點

OpenStreetMap

標簽：實用

整個地球的矢量數據，處于免費協議下。它的舊版本包含美國人口統計部門的 TIGER 數據。

地址：http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8

標簽：實用

整個地球表面的衛星拍照，每隔幾周更新一次。

地址：https://landsat.usgs.gov/landsat-8

NEXRAD

標簽：實用

多普勒天氣雷達對美國大氣情況的掃描。

地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

后話

人們經常認為，能在一個數據集上解決問題，就等同于有了一個能用的產品。開發者可以使用這些數據集作為驗證集，或用作概念論證；但別忘了測試，或創建模擬產品運行的原型機。獲取更新、更真實的數據來改善模型非常關鍵。雷鋒網了解到，成功的數據驅動型公司，往往擅長收集新的專有數據，以及改善產品性能增強競爭優勢。而這往往是競爭對手難以直接 copy 的。

via medium

2017年，開發者需要關注哪些AI國際峰會？看這篇就夠了

7人收藏

三川

用愛救世界

發私信

當月熱門文章

機器學習模型開發必讀：開源數據庫最全盤點

計算機視覺

MNIST

CIFAR 10 & CIFAR 100

ImageNet

LSUN

SVHN

MS COCO

Visual Genome

自然語言

Text Classification Datasets

WikiText

Question Pairs

CMU Q/A Dataset

Billion Words

Common Crawl

bAbi

20 Newsgroups

Reuters

語音

LibriSpeech

CHIME

TED-LIUM

推薦和排名系統

Netflix Challenge

Million Song Dataset

Last.fm

網絡和圖

Friendster 社交網絡數據集

地理空間數據

OpenStreetMap

Landsat8

NEXRAD

后話