第三課.特征工程

1. 前言

特征 = 數據中抽取出來對結果預測有用的信息

2. 數據與特征處理

2.1 數據采集

Paste_Image.png

2.2 數據格式化

Paste_Image.png

2.3 數據清洗

Paste_Image.png

2.4 數據清洗實例

Paste_Image.png

2.5 數據采樣

Paste_Image.png

2.6 正負樣本不均衡

Paste_Image.png

2.7 特征處理

Paste_Image.png

2.7.1 數值型

Paste_Image.png
Paste_Image.png
Paste_Image.png
Paste_Image.png

2.7.2 類別型

2.7.2.1.png

one-hot 解決了均等性

2.7.2.2.png
2.7.2.3.png
2.7.2.4.png

bucket代表不同的主題

2.7.2.5.png

性別和愛好的交叉關系

2.7.3 時間型

2.7.3.1
2.7.3.2
2.7.3.3

2.7.4 文本型

2.7.4.1.png
2.7.4.2

n-gram 把幾個詞組合在一起

2.7.4.3

word2vec

2.7.5 統計特征

2.7.5.1
2.7.5.2
2.7.5.3

2.7.6 組合特征

2.7.6.1
GBDT

3.特征的處理

3.1 特征的選擇

3.1.1

3.2 特征選擇的方式

過濾型
過濾型python包

包裹型
包裹型python包
嵌入型
嵌入型python包

3.模型選擇

模型選擇
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容