https://mp.weixin.qq.com/s/Nvy6fgincN2w7OOC9wdJ9Q
開源數據集介紹**在學習機器學習算法的過程中,我們經常需要數據來學習和試驗算法,但是找到一組適合某種機器學習類型的數據卻不那么方便。下文對常見的開源數據集進行了匯總。 文獻筆記里也有數據
1. UCI數據集
- 類型:比較全面,各類型數據都有涉及
- 網址:http://archive.ics.uci.edu/ml/datasets.php
2. Kaggle競賽數據集
- 類型:比較全面,各類型數據都有涉及
- 網址:https://www.kaggle.com/datasets
3. ImageNet
- 類型:計算機視覺數據
- 網址:http://image-net.org/
4. VisualData
- 類型:計算機視覺數據
- 網址:https://www.visualdata.io/
5. MS COCO
- 類型:計算機視覺數據
- 網址:http://mscoco.org/
[圖片上傳中...(image.png-addbb9-1608604554700-0)]
1.a library of plant leaf diseases:https://challenger.ai (Classification of Plant Leaf Diseases Based on Improved Convolutional Neural Network) 打不開了 2020年12月22日
2.agricultural pest and insect pests picture database ( http://bcch.ahnw.gov.cn/Right.aspx)
3.a book, titled with ‘Rice Diseases and Insect Pests Atlas and Control Technology’
4.plantvillage:https://plantvillage.psu.edu/plants 該數據集是被使用次數較多的數據集,由David hughes和marcelsalathe建立,旨在幫助農民大眾了解在田間遇到的植物病蟲害現象,并對相關的植物病蟲害問題進行解答,數據集包含87848張圖像,主要有58類植物的病變及其健康的圖像
5.https://www.digipathos-rep.cnptia.embrapa.br (a low shot learning method for rea leaf’s disease identification)digipathos數據集包含了近5萬幅圖像,顯示了21種植物受到171種疾病的影響
6.ImageNet:http://www.image-net.org/
8. http://www.fgvc.org/ FGVC全稱為Fine-Grained Visual Categorization,細粒度圖像分類
以下數據集均來自:機器學習在植物病害識別研究中的應用(王聃,柴秀娟,2019)
9. 田間玉米圖像數據集,是針對玉米北方葉枯病(NLB),通過手持相機、吊桿、小型無 人 機 三 種 方 式 拍 攝 采 集 的 三 組 數 據,總 計18222 張圖像,并且由兩位專家分別在圖片上進行標注,共標注了帶有105705個 NLB 病變的圖像,使其成為可公開獲得的單個植物疾病標注的最大公開圖像集
10. 關于黃豆的數據集,是由INTA提供的關于黃豆、紅豆和大豆的圖片,總計866張圖片,都是種子生長12d后的第一片樹葉的背面圖像,共采集標本433個:211株大豆、136株紅豆、86株白豆
11玉米枯萎病:http://bisque.iplantclooaborative.org
田間玉米圖像: https://doi.org/10.1186/s13104-018-3548-6 好像是一篇關于這個數據庫的介紹
12黃瓜葉片圖像:http://www.agronet.com.cn/
13 水稻病害數據庫 http://www.cnak.net/bccsjknew/De-fault.aspx
水稻病害圖像數據庫: http://bcch.ahnw.gov.cn/Right.aspx
14. ICL dataset (http://www.intelengine.cn/English/database) Intelligent Computing Laboratory (ICL) of Chinese Academy of Sciences from the Botanical Garden of Hefei, China. The dataset has 17,032 leaves from 220 plant species. ICL 數據庫包含 220 種植物葉片樣本, 每種樣本最少 26 個, 最多 1 078 個
02 scikit-learn中的數據集scikit-learn是Python中進行數據挖掘和建模中常用的機器學習工具包。scikit-learn的datasets模塊主要提供了一些導入、在線下載及本地生成數據集的方法。模塊的主要函數如下所示。
- sklearn.datasets.load_<name>:自帶數據集(數據量較小)
- sklearn.datasets.fetch_<name>:在線下載的數據集
- sklearn.datasets.make_<name>:生成指定類型的隨機數據集
- sklearn.datasets.load_svmlight_file:svmlight/libsvm格式的數據集
- sklearn.datasets.fetch_mldata:mldata.org在線下載數據集
自帶數據集的datasets模塊里包含自帶數據集,使用load_*加載即可,使用示例如下所示。
from sklearn.datasets import load_irisdata = load_iris()# 查看數據描述print(data.DESCR)X = data.datay = data.target
自帶數據集的基本信息及序號30、31、32的自帶數據集做簡單的介紹如下。讀者也可以使用data.DESCR,查看其英文描述。
6. Stanford CoreNLP
- 類型:情感分析數據
- 網址:http://nlp.stanford.edu/sentiment/code.html
7. IMDB
- 類型:情感分析數據
- 網址:http://ai.stanford.edu/~amaas/data/sentiment/
8. Sentiment140
- 類型:情感分析數據
- 網址:http://help.sentiment140.com/for-students/
9. HotspotQA
- 類型:自然語言處理
- 網址:https://hotpotqa.github.io/
10. Enron Email
- 類型:自然語言處理
- 網址:https://www.cs.cmu.edu/~./enron/
11. Amazon
- 類型:自然語言處理
- 網址:https://snap.stanford.edu/data/web-Amazon.html
12. 百度Apolloscapes
- 類型:自動駕駛
- 網址:http://apolloscape.auto/
13. Berkeley DeepDrive
- 類型:自動駕駛
- 網址:http://bdd-data.berkeley.edu/
14. Robotcar
- 類型:自動駕駛
- 網址:http://robotcar-dataset.robots.ox.ac.uk/
15. Data.gov
- 類型:公共政府數據集
- 網址:https://www.data.gov/
16. Food Environment Atlas
17. Annual Survey of School System Finances
18. NCES
- 類型:公共政府數據集
- 網址:https://nces.ed.gov/
19. Data USA
- 類型:公共政府數據集
- 網址:http://datausa.io/
20. 中國國家統計局
- 類型:公共政府數據集
- 網址:http://www.stats.gov.cn/
21. Quandl
- 類型:金融與經濟數據集
- 網址:https://www.quandl.com/
22. WorldBank
- 類型:金融與經濟數據集
- 網址:https://data.worldbank.org/
23. IMF
- 類型:金融與經濟數據集
- 網址:https://www.imf.org/en/Data
24. Markets
- 類型:金融與經濟數據集
- 網址:https://markets.ft.com/data/
25. Google Trends
- 類型:金融與經濟數據集
- 網址****:http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
26. US Macro Regional
類型:金融與經濟數據集
27. Google Audioset
- 類型:語音數據集
- 網址:https://research.google.com/audioset/
28. 2000 HUB5 English
- 類型:語音數據集
- 網址:https://catalog.ldc.upenn.edu/LDC2002T43
29. LibriSpeech
- 類型:語音數據集
- 網址:http://www.openslr.org/12/
30. 波士頓房價數據集
- 調用方法:load_boston
- 模型類型:回歸
- 數據規模(樣本特征):50613
這個數據集包含了506處波士頓不同地理位置的房產的房價數據(因變量),房屋以及房屋周圍的詳細信息(自變量),其中包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數等13個維度的數據,波士頓房價數據集能夠應用到回歸問題上。波士頓房價數據集與屬性描述如下所示。
- CRIM:城鎮人均犯罪率。
- ZN:住宅用地超過25000平方英尺的比例。
- INDUS:城鎮非零售商用土地的比例。
- CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。
- NOX:一氧化氮濃度。
- R****M****:住宅平均房間數。
- AGE:1940 年之前建成的自用房屋比例。
- DIS:到波士頓五個中心區域的加權距離。
- RAD:輻射性公路的接近指數。
- TAX:每10000 美元的全值財產稅率。
- PTRATIO:城鎮師生比例。
- MEDV:自住房的平均房價,以千美元計。
31. 鳶尾花數據集
- 調用方法:load_iris
- 模型類型:分類
- 數據規模(樣本特征):1054
鳶尾花數據集是一個非常經典的數據集,著名的統計學家Fisher在研究判別分析問題時收集了一些關于鳶尾花的數據,包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關于外形的數據(自變量)。該數據集可用于多分類問題,測量數據如下所示。
- sepal length (cm):萼片長度。
- sepal width (cm):萼片寬度。
- petal length (cm):花瓣長度。
- petal width (cm):花瓣寬度。
類別共分為三類:Iris Setosa、Iris Versicolour和Iris Virginica。32. 手寫數字數據集
- 調用方法:load_digits
- 模型類型:分類
- 數據規模(樣本特征):179764
這個數據集是結構化數據的經典數據,共有1797個樣本,每個樣本有64個元素,對應一個8×8像素點組成的矩陣,矩陣中值的范圍是0~16,代表顏色的深度,控制每一個像素的黑白濃淡,所以每個樣本還原到矩陣后代表一個手寫體數字。33. 糖尿病數據集
- 調用方法:load_diabetes
- 模型類型:回歸
- 數據規模(樣本特征):42210
34. 葡萄酒數據集
- 調用方法:Load_wine
- 模型類型:分類
- 數據規模(樣本特征):17813
35. 乳腺癌數據集
- 調用方法:load_breast_cancer
- 模型類型:分類
- 數據規模(樣本特征):56930
36. 體能訓練數據集
- 調用方法:load_linnerud
- 模型類型:多元回歸
- 數據規模(樣本特征):203
scikit-learn在線下載數據集的datasets模塊包含在線下載數據集的方法,調用fetch_*接口從網絡下載,示例如下所示。
from sklearn.datasets import fetch_20newsgroupsnewsgroups_train = fetch_20newsgroups(subset='train')newsgroups_test = fetch_20newsgroups(subset='test')
注意,fetch_接口由于需要從國外網址下載數據,速度可能很慢!在線下載數據集的基本信息如下所示。37. Olivetti臉部圖像數據集*
- 調用方法:fetch_olivetti_faces
- 模型類型:降維
- 數據規模(樣本特征):40064*64
38. 20類新聞分類數據集(文本)
- 調用方法:fetch_20newsgroups
- 模型類型:分類
- 數據規模(樣本特征):188461
39. 20類新聞文本數據集(特征向量)
- 調用方法:fetch_20newsgroups_vectorized
- 模型類型:分類
- 數據規模(樣本特征):18846130107
40. 帶標簽的人臉數據集
- 調用方法:fetch_lfw_people
- 模型類型:分類
- 數據規模(樣本特征):132335828
41. 路透社新聞語料數據集
- 調用方法:fetch_rcv1
- 模型類型:分類
- 數據規模(樣本特征):80441447236
42. 加州住房數據集
- 調用方法:fetch_california_housing
- 模型類型:回歸
- 數據規模(樣本特征):206408
43. 森林植被
- 調用方法:fetch_covtype
- 模型類型:多分類
- 數據規模(樣本特征):58101254
scikit-learn包括用于以svmlight/libsvm格式加載數據集的實函數。在這種格式中,每一行都采用表格,此格式特別適用于稀疏數據集。在該模塊中,使用SciPy稀疏CSR矩陣,并使用numpy數組,示例如下。svmlight / libsvm格式的公共數據集可以從網上下載。再使用load_svmlight_file 加載
網址:
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
下載代碼示例
from sklearn.datasets import load_svmlight_file
X_train , y_train = load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')
openml.org https://www.openml.org/search?type=data 是機器學習數據和實驗的公共存儲庫,允許每個人上傳開放數據集。sklearn.datasets能夠從存儲庫下載數據集。示例如下:
from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)
mice.url