path ='iris.data' # 數(shù)據(jù)文件路徑
data = pd.read_csv(path, header=None)
x = data[[0, 1]]
# y = pd.Categorical(data[4]).codes
y = LabelEncoder().fit_transform(data[4])
# 為了可視化,僅使用前兩列特征
x = x.iloc[:, :2]
# x = x[[0,1]]
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=1)
# 決策樹參數(shù)估計(jì)
# min_samples_split = 10:如果該結(jié)點(diǎn)包含的樣本數(shù)目大于10,則(有可能)對(duì)其分支
# min_samples_leaf = 10:若將某結(jié)點(diǎn)分支后,得到的每個(gè)子結(jié)點(diǎn)樣本數(shù)目都大于10,則完成分支;否則,不進(jìn)行分支
model = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=3)
model.fit(x_train, y_train)
y_test_hat = model.predict(x_test) # 測(cè)試數(shù)據(jù)
print('accuracy_score:', accuracy_score(y_test, y_test_hat))
DT
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
推薦閱讀更多精彩內(nèi)容
- Spark亞太研究院系列叢書_百度搜索https://www.baidu.com/s?wd=Spark%E4%BA...
- 還記得去年中秋瞎折騰的“看看我屬于哪種月餅”嗎?今年和DT財(cái)經(jīng)合作,集數(shù)據(jù)、設(shè)計(jì)、文案等多位小伙伴的合作,隆重推出...