What a heck! 終于開始學習數據挖掘實戰課程了!!!
Lesson 2 數據挖掘概況
數據挖掘(data mining),指從大量的數據中,通過統計學、人工智能、機器學習等方法,挖掘出未知的,且有價值的信息和知識的過程。
數據挖掘是人們處理商業問題的某些方法,我們通過它來獲得有價值的結果
模型
定量:數學公式 e.g. Y = a*X
定性:規則 e.g. (年齡>30歲 and 收入>1萬元)
算法
實現數據挖掘技術、模型的具體步驟與方法
Lesson 3 數據挖掘常見問題
從商業角度,需要解決哪些問題?
- 用戶流失預測 (分類問題)
- 促銷活動響應 (分類問題)
- 目標市場細分 (聚類問題)
- 交叉銷售提升 (關聯問題)
- 未來銷量預測 (預測問題)
分類問題
分類型目標變量(Y) -- 有監督學習
使用已知目標分類的歷史樣本來訓練
需要對未知分類的樣本預測所屬的分類
常見分類方法:決策樹,貝葉斯,KNN, 支持向量機,神經網絡,邏輯回歸
解決的商業問題:預測用戶流失,促銷活動響應,用戶信用評估
聚類問題
無分類目標變量(Y) -- 無監督學習
物以類聚思想
常見分類方法:劃分聚類,層次聚類,密度聚類,網格聚類,基于模型聚類
解決的商業問題:目標市場細分,指定營銷發展策略
現有客戶細分
關聯問題,又稱購物籃問題
無目標變量(Y)
基于數據項關聯,描述數據項之間的密切程度,識別頻繁發生的模式
解決的商業問題:哪些商品同時購買的幾率高,如何提高商品銷售和交叉銷售
預測問題
數值型目標變量(Y)-- 有監督學習
需有已知目標值的歷史樣本來訓練模型
對未知的樣本預測其目標值
常見預測方法:簡單線性回歸分析,多重線性回歸分析,時間序列
解決的商業問題:未來氣溫預測,GDP增長預測,收入、用戶數預測
Lesson 4 數據挖掘流程
CRISP-DM數據挖掘方法論
- 商業理解
- 確定商業目標 (商業背景,成功標準)
- 確定挖掘目標 (相關數據統計口徑,數據時間窗口成功標準)
- 制定項目方案(項目計劃,確定建模工具,選用算法)
- 數據理解
- 數據收集:形成收集報告
- 數據描述:求 均值,最大值,最小值等,形成數據描述報告
- 數據探索:形成直方圖
- 質量描述:形成數據質量報告
- 數據準備 (數據寬表,又稱一維表)
- 數據導入
- 數據抽取
- 數據清洗(缺失,重復,異常)
- 數據合并 (記錄合并,字段合并,字段匹配)
- 變量計算 (求均值,占比,標準化值
- 模型構建
- 準備模型的訓練集和驗證集
- 選擇并使用建模技術和算法
- 建立模型
- 模型對比(調整參數)
- 模型評估
- 技術層面:設計對照組進行比較,評估指標:命中率,覆蓋率,提升度
- 業務經驗
- 模型部署
- 營銷過程跟蹤記錄
- 觀察模型衰退變化
- 引入新的特征優化模型
- 模型寫成程序固化到平臺
Lesson 5 文本挖掘
語料庫 (Corpus)
要分析的所有文檔的集合
語料庫的構建
構建方法
os.walk(fileDir)
#fileDir是文件夾路徑
文件讀取
codecs.open(filePath, method, encoding)
#filePath: 文件路徑
#method: 打開方式,r, w, rw
#encoding: 文件的編碼,中文文件使用UTF-8編碼打開