最近擠出時間,用python在kaggle上試了幾個project,有點體會,記錄下。 Step1: Exploratory Data Analysis EDA,也就是對數據...

IP屬地:北京
最近擠出時間,用python在kaggle上試了幾個project,有點體會,記錄下。 Step1: Exploratory Data Analysis EDA,也就是對數據...
以下這些能否給個有效性排序?
如果某個特征有好幾萬個取值,那么用dummy variable就并不現實了,這時候可以用Count-Based Learning.
(更新)近期在kaggle成功的案例中發現,對于類別特征,在模型中加入tf-idf總是有效果的。
還有個方法叫“Leave-one-out” encoding,也可以處理類別特征種類過多的問題,實測效果不錯。
此外,還有一種方法是可以參考文章
“A preprocessing Scheme for High-Cardinality Categorical Attributes in Classification and Prediction Problems”
文/JxKing(簡書作者)
原文鏈接:http://www.lxweimin.com/p/32def2294ae6
著作權歸作者所有,轉載請聯系作者獲得授權,并標注“簡書作者”。
用python參加Kaggle的些許經驗總結最近擠出時間,用python在kaggle上試了幾個project,有點體會,記錄下。 Step1: Exploratory Data Analysis EDA,也就是對數據...