Python學習筆記-3群18組-杜杜狼-2017.8.1

What a heck! 終于開始學習數據挖掘實戰課程了!!!

Lesson 2 數據挖掘概況

數據挖掘(data mining),指從大量的數據中,通過統計學、人工智能、機器學習等方法,挖掘出未知的,且有價值的信息和知識的過程。
數據挖掘是人們處理商業問題的某些方法,我們通過它來獲得有價值的結果

模型
定量:數學公式 e.g. Y = a*X
定性:規則 e.g. (年齡>30歲 and 收入>1萬元)

算法
實現數據挖掘技術、模型的具體步驟與方法

Lesson 3 數據挖掘常見問題

從商業角度,需要解決哪些問題?

  • 用戶流失預測 (分類問題)
  • 促銷活動響應 (分類問題)
  • 目標市場細分 (聚類問題)
  • 交叉銷售提升 (關聯問題)
  • 未來銷量預測 (預測問題)

分類問題

分類型目標變量(Y) -- 有監督學習
使用已知目標分類的歷史樣本來訓練
需要對未知分類的樣本預測所屬的分類

常見分類方法:決策樹,貝葉斯,KNN, 支持向量機,神經網絡,邏輯回歸
解決的商業問題:預測用戶流失,促銷活動響應,用戶信用評估


聚類問題

無分類目標變量(Y) -- 無監督學習
物以類聚思想

常見分類方法:劃分聚類,層次聚類,密度聚類,網格聚類,基于模型聚類
解決的商業問題:目標市場細分,指定營銷發展策略
現有客戶細分


關聯問題,又稱購物籃問題

無目標變量(Y)
基于數據項關聯,描述數據項之間的密切程度,識別頻繁發生的模式
解決的商業問題:哪些商品同時購買的幾率高,如何提高商品銷售和交叉銷售


預測問題

數值型目標變量(Y)-- 有監督學習
需有已知目標值的歷史樣本來訓練模型
對未知的樣本預測其目標值
常見預測方法:簡單線性回歸分析,多重線性回歸分析,時間序列
解決的商業問題:未來氣溫預測,GDP增長預測,收入、用戶數預測

Lesson 4 數據挖掘流程

CRISP-DM數據挖掘方法論

  1. 商業理解
  • 確定商業目標 (商業背景,成功標準)
  • 確定挖掘目標 (相關數據統計口徑,數據時間窗口成功標準)
  • 制定項目方案(項目計劃,確定建模工具,選用算法)
  1. 數據理解
  • 數據收集:形成收集報告
  • 數據描述:求 均值,最大值,最小值等,形成數據描述報告
  • 數據探索:形成直方圖
  • 質量描述:形成數據質量報告
  1. 數據準備 (數據寬表,又稱一維表)
  • 數據導入
  • 數據抽取
  • 數據清洗(缺失,重復,異常)
  • 數據合并 (記錄合并,字段合并,字段匹配)
  • 變量計算 (求均值,占比,標準化值
  1. 模型構建
  • 準備模型的訓練集和驗證集
  • 選擇并使用建模技術和算法
  • 建立模型
  • 模型對比(調整參數)
  1. 模型評估
  • 技術層面:設計對照組進行比較,評估指標:命中率,覆蓋率,提升度
  • 業務經驗
  1. 模型部署
  • 營銷過程跟蹤記錄
  • 觀察模型衰退變化
  • 引入新的特征優化模型
  • 模型寫成程序固化到平臺

Lesson 5 文本挖掘

語料庫 (Corpus)

要分析的所有文檔的集合

語料庫的構建

構建方法

os.walk(fileDir)
#fileDir是文件夾路徑

文件讀取

codecs.open(filePath, method, encoding)
#filePath: 文件路徑
#method: 打開方式,r, w, rw
#encoding: 文件的編碼,中文文件使用UTF-8編碼打開
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容