2020-12-22機器學習的數據庫

https://mp.weixin.qq.com/s/Nvy6fgincN2w7OOC9wdJ9Q

開源數據集介紹**在學習機器學習算法的過程中,我們經常需要數據來學習和試驗算法,但是找到一組適合某種機器學習類型的數據卻不那么方便。下文對常見的開源數據集進行了匯總。 文獻筆記里也有數據

1. UCI數據集

2. Kaggle競賽數據集

3. ImageNet

4. VisualData

5. MS COCO

[圖片上傳中...(image.png-addbb9-1608604554700-0)]

1.a library of plant leaf diseases:https://challenger.ai (Classification of Plant Leaf Diseases Based on Improved Convolutional Neural Network) 打不開了 2020年12月22日

2.agricultural pest and insect pests picture database ( http://bcch.ahnw.gov.cn/Right.aspx)

3.a book, titled with ‘Rice Diseases and Insect Pests Atlas and Control Technology’

4.plantvillage:https://plantvillage.psu.edu/plants 該數據集是被使用次數較多的數據集,由David hughes和marcelsalathe建立,旨在幫助農民大眾了解在田間遇到的植物病蟲害現象,并對相關的植物病蟲害問題進行解答,數據集包含87848張圖像,主要有58類植物的病變及其健康的圖像

5.https://www.digipathos-rep.cnptia.embrapa.br (a low shot learning method for rea leaf’s disease identification)digipathos數據集包含了近5萬幅圖像,顯示了21種植物受到171種疾病的影響

6.ImageNet:http://www.image-net.org/

8. http://www.fgvc.org/ FGVC全稱為Fine-Grained Visual Categorization,細粒度圖像分類

以下數據集均來自:機器學習在植物病害識別研究中的應用(王聃,柴秀娟,2019)

9. 田間玉米圖像數據集,是針對玉米北方葉枯病(NLB),通過手持相機、吊桿、小型無 人 機 三 種 方 式 拍 攝 采 集 的 三 組 數 據,總 計18222 張圖像,并且由兩位專家分別在圖片上進行標注,共標注了帶有105705個 NLB 病變的圖像,使其成為可公開獲得的單個植物疾病標注的最大公開圖像集

10. 關于黃豆的數據集,是由INTA提供的關于黃豆、紅豆和大豆的圖片,總計866張圖片,都是種子生長12d后的第一片樹葉的背面圖像,共采集標本433個:211株大豆、136株紅豆、86株白豆

11玉米枯萎病:http://bisque.iplantclooaborative.org

田間玉米圖像: https://doi.org/10.1186/s13104-018-3548-6 好像是一篇關于這個數據庫的介紹

12黃瓜葉片圖像:http://www.agronet.com.cn/

13 水稻病害數據庫 http://www.cnak.net/bccsjknew/De-fault.aspx

水稻病害圖像數據庫: http://bcch.ahnw.gov.cn/Right.aspx

14. ICL dataset (http://www.intelengine.cn/English/database) Intelligent Computing Laboratory (ICL) of Chinese Academy of Sciences from the Botanical Garden of Hefei, China. The dataset has 17,032 leaves from 220 plant species. ICL 數據庫包含 220 種植物葉片樣本, 每種樣本最少 26 個, 最多 1 078 個

02 scikit-learn中的數據集scikit-learn是Python中進行數據挖掘和建模中常用的機器學習工具包。scikit-learn的datasets模塊主要提供了一些導入、在線下載及本地生成數據集的方法。模塊的主要函數如下所示。

  1. sklearn.datasets.load_<name>:自帶數據集(數據量較小)
  2. sklearn.datasets.fetch_<name>:在線下載的數據集
  3. sklearn.datasets.make_<name>:生成指定類型的隨機數據集
  4. sklearn.datasets.load_svmlight_file:svmlight/libsvm格式的數據集
  5. sklearn.datasets.fetch_mldata:mldata.org在線下載數據集

自帶數據集的datasets模塊里包含自帶數據集,使用load_*加載即可,使用示例如下所示。

from sklearn.datasets import load_irisdata = load_iris()# 查看數據描述print(data.DESCR)X = data.datay = data.target

自帶數據集的基本信息及序號30、31、32的自帶數據集做簡單的介紹如下。讀者也可以使用data.DESCR,查看其英文描述。

6. Stanford CoreNLP

7. IMDB

8. Sentiment140

9. HotspotQA

10. Enron Email

11. Amazon

12. 百度Apolloscapes

13. Berkeley DeepDrive

14. Robotcar

15. Data.gov

16. Food Environment Atlas

17. Annual Survey of School System Finances

18. NCES

19. Data USA

20. 中國國家統計局

21. Quandl

22. WorldBank

23. IMF

24. Markets

25. Google Trends

26. US Macro Regional

27. Google Audioset

28. 2000 HUB5 English

29. LibriSpeech

圖片

30. 波士頓房價數據集

  • 調用方法:load_boston
  • 模型類型:回歸
  • 數據規模(樣本特征):50613

這個數據集包含了506處波士頓不同地理位置的房產的房價數據(因變量),房屋以及房屋周圍的詳細信息(自變量),其中包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數等13個維度的數據,波士頓房價數據集能夠應用到回歸問題上。波士頓房價數據集與屬性描述如下所示。

  • CRIM:城鎮人均犯罪率。
  • ZN:住宅用地超過25000平方英尺的比例。
  • INDUS:城鎮非零售商用土地的比例。
  • CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。
  • NOX:一氧化氮濃度。
  • R****M****:住宅平均房間數。
  • AGE:1940 年之前建成的自用房屋比例。
  • DIS:到波士頓五個中心區域的加權距離。
  • RAD:輻射性公路的接近指數。
  • TAX:每10000 美元的全值財產稅率。
  • PTRATIO:城鎮師生比例。
  • MEDV:自住房的平均房價,以千美元計。

31. 鳶尾花數據集

  • 調用方法:load_iris
  • 模型類型:分類
  • 數據規模(樣本特征):1054

鳶尾花數據集是一個非常經典的數據集,著名的統計學家Fisher在研究判別分析問題時收集了一些關于鳶尾花的數據,包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關于外形的數據(自變量)。該數據集可用于多分類問題,測量數據如下所示。

  • sepal length (cm):萼片長度。
  • sepal width (cm):萼片寬度。
  • petal length (cm):花瓣長度。
  • petal width (cm):花瓣寬度。

類別共分為三類:Iris Setosa、Iris Versicolour和Iris Virginica。32. 手寫數字數據集

  • 調用方法:load_digits
  • 模型類型:分類
  • 數據規模(樣本特征):179764

這個數據集是結構化數據的經典數據,共有1797個樣本,每個樣本有64個元素,對應一個8×8像素點組成的矩陣,矩陣中值的范圍是0~16,代表顏色的深度,控制每一個像素的黑白濃淡,所以每個樣本還原到矩陣后代表一個手寫體數字。33. 糖尿病數據集

  • 調用方法:load_diabetes
  • 模型類型:回歸
  • 數據規模(樣本特征):42210

34. 葡萄酒數據集

  • 調用方法:Load_wine
  • 模型類型:分類
  • 數據規模(樣本特征):17813

35. 乳腺癌數據集

  • 調用方法:load_breast_cancer
  • 模型類型:分類
  • 數據規模(樣本特征):56930

36. 體能訓練數據集

  • 調用方法:load_linnerud
  • 模型類型:多元回歸
  • 數據規模(樣本特征):203

scikit-learn在線下載數據集的datasets模塊包含在線下載數據集的方法,調用fetch_*接口從網絡下載,示例如下所示。

from sklearn.datasets import fetch_20newsgroupsnewsgroups_train = fetch_20newsgroups(subset='train')newsgroups_test = fetch_20newsgroups(subset='test')

注意,fetch_接口由于需要從國外網址下載數據,速度可能很慢!在線下載數據集的基本信息如下所示。37. Olivetti臉部圖像數據集*

  • 調用方法:fetch_olivetti_faces
  • 模型類型:降維
  • 數據規模(樣本特征):40064*64

38. 20類新聞分類數據集(文本)

  • 調用方法:fetch_20newsgroups
  • 模型類型:分類
  • 數據規模(樣本特征):188461

39. 20類新聞文本數據集(特征向量)

  • 調用方法:fetch_20newsgroups_vectorized
  • 模型類型:分類
  • 數據規模(樣本特征):18846130107

40. 帶標簽的人臉數據集

  • 調用方法:fetch_lfw_people
  • 模型類型:分類
  • 數據規模(樣本特征):132335828

41. 路透社新聞語料數據集

  • 調用方法:fetch_rcv1
  • 模型類型:分類
  • 數據規模(樣本特征):80441447236

42. 加州住房數據集

  • 調用方法:fetch_california_housing
  • 模型類型:回歸
  • 數據規模(樣本特征):206408

43. 森林植被

  • 調用方法:fetch_covtype
  • 模型類型:多分類
  • 數據規模(樣本特征):58101254

scikit-learn包括用于以svmlight/libsvm格式加載數據集的實函數。在這種格式中,每一行都采用表格,此格式特別適用于稀疏數據集。在該模塊中,使用SciPy稀疏CSR矩陣,并使用numpy數組,示例如下。svmlight / libsvm格式的公共數據集可以從網上下載。再使用load_svmlight_file 加載

網址:
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
下載代碼示例
from sklearn.datasets import load_svmlight_file
X_train , y_train = load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')

openml.org https://www.openml.org/search?type=data 是機器學習數據和實驗的公共存儲庫,允許每個人上傳開放數據集。sklearn.datasets能夠從存儲庫下載數據集。示例如下:
from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)
mice.url

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,702評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,615評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,606評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,044評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,826評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,227評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,307評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,447評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,992評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,807評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,001評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,550評論 5 361
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,243評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,667評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,930評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,709評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,996評論 2 374

推薦閱讀更多精彩內容