a√任天堂资源中文8,成年女人免费碰碰视频,久久WWW免费人成人片

What a heck! 終于開始學習數據挖掘實戰課程了！！！

Lesson 2 數據挖掘概況

數據挖掘（data mining），指從大量的數據中，通過統計學、人工智能、機器學習等方法，挖掘出未知的，且有價值的信息和知識的過程。
數據挖掘是人們處理商業問題的某些方法，我們通過它來獲得有價值的結果

模型
定量：數學公式 e.g. Y = a*X
定性：規則 e.g. (年齡>30歲 and 收入>1萬元)

算法
實現數據挖掘技術、模型的具體步驟與方法

Lesson 3 數據挖掘常見問題

從商業角度，需要解決哪些問題？

用戶流失預測（分類問題）
促銷活動響應（分類問題）
目標市場細分（聚類問題）
交叉銷售提升（關聯問題）
未來銷量預測（預測問題）

分類問題

分類型目標變量（Y） -- 有監督學習
使用已知目標分類的歷史樣本來訓練
需要對未知分類的樣本預測所屬的分類

常見分類方法：決策樹，貝葉斯，KNN, 支持向量機，神經網絡，邏輯回歸
解決的商業問題：預測用戶流失，促銷活動響應，用戶信用評估

聚類問題

無分類目標變量（Y） -- 無監督學習
物以類聚思想

常見分類方法：劃分聚類，層次聚類，密度聚類，網格聚類，基于模型聚類
解決的商業問題：目標市場細分，指定營銷發展策略
現有客戶細分

關聯問題，又稱購物籃問題

無目標變量（Y）
基于數據項關聯，描述數據項之間的密切程度，識別頻繁發生的模式
解決的商業問題：哪些商品同時購買的幾率高，如何提高商品銷售和交叉銷售

預測問題

數值型目標變量（Y）-- 有監督學習
需有已知目標值的歷史樣本來訓練模型
對未知的樣本預測其目標值
常見預測方法：簡單線性回歸分析，多重線性回歸分析，時間序列
解決的商業問題：未來氣溫預測，GDP增長預測，收入、用戶數預測

Lesson 4 數據挖掘流程

CRISP-DM數據挖掘方法論

商業理解

確定商業目標（商業背景，成功標準）
確定挖掘目標（相關數據統計口徑，數據時間窗口成功標準）
制定項目方案（項目計劃，確定建模工具，選用算法）

數據理解

數據收集：形成收集報告
數據描述：求均值，最大值，最小值等，形成數據描述報告
數據探索：形成直方圖
質量描述：形成數據質量報告

數據準備（數據寬表，又稱一維表）

數據導入
數據抽取
數據清洗（缺失，重復，異常）
數據合并（記錄合并，字段合并，字段匹配）
變量計算（求均值，占比，標準化值

模型構建

準備模型的訓練集和驗證集
選擇并使用建模技術和算法
建立模型
模型對比（調整參數）

模型評估

技術層面：設計對照組進行比較，評估指標：命中率，覆蓋率，提升度
業務經驗

模型部署

營銷過程跟蹤記錄
觀察模型衰退變化
引入新的特征優化模型
模型寫成程序固化到平臺

Lesson 5 文本挖掘

語料庫（Corpus）

要分析的所有文檔的集合

語料庫的構建

構建方法

os.walk(fileDir)
#fileDir是文件夾路徑

文件讀取

codecs.open(filePath, method, encoding)
#filePath: 文件路徑
#method: 打開方式，r, w, rw
#encoding: 文件的編碼，中文文件使用UTF-8編碼打開

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python學習筆記-3群18組-杜杜狼-2017.8.1

Python學習筆記-3群18組-杜杜狼-2017.8.1

Lesson 2 數據挖掘概況

Lesson 3 數據挖掘常見問題

分類問題

聚類問題

關聯問題，又稱購物籃問題

預測問題

Lesson 4 數據挖掘流程

CRISP-DM數據挖掘方法論

Lesson 5 文本挖掘

語料庫（Corpus）

語料庫的構建

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python學習筆記-3群18組-杜杜狼-2017.8.1

Lesson 2 數據挖掘概況

Lesson 3 數據挖掘常見問題

分類問題

聚類問題

關聯問題，又稱購物籃問題

預測問題

Lesson 4 數據挖掘流程

CRISP-DM數據挖掘方法論

Lesson 5 文本挖掘

語料庫 （Corpus）

語料庫的構建

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

語料庫（Corpus）