SKLearn數據集API(二)

計算機生成的數據集

用于分類任務和聚類任務,這些函數產生樣本特征向量矩陣以及對應的類別標簽集合。

數據集 簡介
make_blobs 多類單標簽數據集,為每個類分配一個或者多個正態分布的點集,提供了控制每個數據點的參數:中心點(均值),標準差,常用于聚類算法。
make_classification 多類單標簽數據集,為每個類分配了一個或者多個正態分布的點集。提供了為數據集添加噪聲的方式,包括維度相性,無效特征和冗余特征等。
make_gaussian_quantiles 將一個單高斯分布的點集活粉為兩個數量均等的點集,作為兩類。
make_hastie_10_2 產生一個相似的二元分類器數據集,有10個維度。
make_circles/make_moons 產生二維分類數據集來測試某些算法(e.g.centroid-based clustering或linear classfication)的性能。可以為數據集添加噪聲,可以為二元分類器產生一些球形判決表面的數據。

用于多標簽分類任務

數據集 簡介
make_multilabel_classification 產生多類多標簽隨機樣本,這些樣本模擬了從很多話題的混合分布中抽取的詞袋模型,每個文檔的話題數量符合泊松分布,話題本身則從一個固定的隨機分布中抽取出來,同樣的,單詞數量也是泊松分布抽取,句子則是從多項式抽取。

用于回歸任務的

數據集 簡介
make_regression 產生回歸任務的數據集,期望目標輸出是隨機特征的稀疏隨機線性組合,并且附帶有噪聲,它的有用的特征可能是不相關的,或者低秩的(引起目標值的變動的只有少量的集合特征)
make_sparse_uncorrelated 產生四個特征的線性組合(固定參數)作為期望目標輸出
make_friedman1 采用了多項式和正弦變換
make_friedman2 包含了特征的乘積和互換操作
make_friedman3 類似于arctan變換

用于流行學習的

數據集 簡介
make_s_curve 生成S型曲線數據集
make_swiss_roll 生成瑞士卷曲線數據集

用于因子分解的

數據集 簡介
make_low_rank_matrix
make_sparse_coded_signal
nake_spd_matrix 產生的是隨機的堆成的正定矩陣
make_sparse_spd_matrix 產生的是稀疏的堆成正定矩陣

make_blobs()

image

make_classification()

image

make_moons()

image

make_circles()

image

svmlight/libsvm格式的數據集

svmlight/libsvm的每一行樣本的存放格式

<label> <feature-id>:<feature-value> <feature-id>:<feature-value>...

使用下面的方式導入該格式的數據集

X_train, y_train = sklearn.datasets.load_svmlight_file('train.txt')

還可以使用下面的方式將訓練集和測試集一起導入,可以保證X_train和X_test有同樣數目的特征

X_train, y_train, X_test, y_test = sklearn.datasets.load_svmlight_file(('train.txt', 'test.txt'))

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容