1. 前言
特征 = 數據中抽取出來對結果預測有用的信息
2. 數據與特征處理
2.1 數據采集
Paste_Image.png
2.2 數據格式化
Paste_Image.png
2.3 數據清洗
Paste_Image.png
2.4 數據清洗實例
Paste_Image.png
2.5 數據采樣
Paste_Image.png
2.6 正負樣本不均衡
Paste_Image.png
2.7 特征處理
Paste_Image.png
2.7.1 數值型
Paste_Image.png
Paste_Image.png
Paste_Image.png
Paste_Image.png
2.7.2 類別型
2.7.2.1.png
one-hot 解決了均等性
2.7.2.2.png
2.7.2.3.png
2.7.2.4.png
bucket代表不同的主題
2.7.2.5.png
性別和愛好的交叉關系
2.7.3 時間型
2.7.3.1
2.7.3.2
2.7.3.3
2.7.4 文本型
2.7.4.1.png
2.7.4.2
n-gram 把幾個詞組合在一起
2.7.4.3
word2vec
2.7.5 統計特征
2.7.5.1
2.7.5.2
2.7.5.3
2.7.6 組合特征
2.7.6.1
GBDT
3.特征的處理
3.1 特征的選擇
3.1.1
3.2 特征選擇的方式
過濾型
過濾型python包
包裹型
包裹型python包
嵌入型
嵌入型python包
3.模型選擇
模型選擇