- 定義挖掘目標
- 數據取樣
- 數據探索
- 數據預處理
- 挖掘建模*
- 模型評價
平均水平的指標是對個體集中趨勢的度量, 使用最廣泛的是均值和中位數;反映變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位間距。
- 頻率密度(頻率與組距之比)
- 定性變量:觀測的個體只能歸屬于幾種互不相容類別中的一種時,這樣的觀測數據。
- 標準差度量數據偏離均值的程度
- 變異系數 度量標準差相對于均值的離中趨勢
- 四分位數間距,是上四分位數Qu與下四分位數Ql之差,期間包含了全部觀察值的一半。其值越大,說明數據的變異程度越大;反之,說明變異程度越小
數據預處理
數據清洗
缺失值處理
插值法:利用已知點建立合適的插值函數f(x),未知值由對應點xi求出的函數值f(xi)近似代替。
數據集成
- 實體識別
- 屬性冗余
數據變換
對數據進行規范化處理,將數據轉換成“適當的”形式,以適用于挖掘任務及算法的需要。
- 簡單函數變換
- 屬性構造
- 規范化
- 連續屬性離散化:要求數據是分類屬性形式。這樣,常常需要將連續屬性變換成分類屬性,即連續屬性離散化
- 確定分類數以及如何將連續屬性值映射到這些分類值。
數據規約
數據規約產生更小但保持數據完整性的新數據集。意義:
- 降低無效、錯誤數據對建模的影響,提高建模的準確性
- 少量且具代表性的數據將大幅縮減數據挖掘所需時間
- 降低存儲數據的成本
挖掘建模
數據為數值型,需要對屬性進行離散化(即人直觀理解的表現形式)
分類與預測
神經網絡模型
BP 神經網絡
學習算法:&學習規則(誤差校正學習算法)
誤差校正學習算法根據神經網絡的輸出誤差對神經元的連接強度進行校正,屬于有指導學習。
目標函數(誤差函數):神經網絡訓練是否完成的衡量。當誤差函數小于某一個設定的值時即停止訓練。二乘誤差函數相似:
分類與預測算法評估
聚類分析(聚類分析算法評估)
聚類分析:是在沒有給定劃分類別(沒有給數據打標簽),根據數據相似度進行樣本分組的一種方法。(典型非監督學習算法)
目標是實現組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內相似性越大,組間差別越大,聚類效果越好。
關聯規則
目的是在一個數據集中找出各項之間的關聯關系,而這種關系并沒有在數據中直接表示出來。
Apriori算法
是一種挖掘頻繁項集的算法.核心思想:通過連接產生候選項與其支持度,然后通過剪枝生成頻繁項集。步驟(Ck是由Lk-1與L1連接產生的)
找最大K項頻繁集
- 掃描集合C1中每一項數據的支持度。出現次數/所有事務個數。
- 對各項集的支持度與預先設定的最小支持度值比較保留大于等于的項得1項頻繁集L1.
- 掃描所有事務,L1與L1連接得候選項C2,并計算每一項支持度。如P({a,b}).接下來是剪枝步,
- 對C2各項集的支持度與預先設定的最小支持度值比較,得2項頻繁集L2.
- 接著掃描所有事務,L2與L1連接得C3,計算支持度。如p({a,b,c}).
由頻繁集產生關聯規則
置信度計算公式
Support_count(A)包含項集A的事務數
時序模式
時間序列的預處理:(對它的純隨機性和平穩性進行校驗)
純隨機序列又稱白噪聲序列,序列進行完全無序的隨機波動,可以中止。
非平穩時間序列的分析方法分為:
- 確定性因素分解的時序分析
把所有序列變化歸結為(長期趨勢、季節變動、循環變動和隨機波動)
- 隨機時序分析
差分運算
- P階差分
相距一期的兩個序列值之間的減法運算稱為1階差分運算
- K步差分
相距K期的兩個序列值之間的減法運算稱為K步差分運算
白噪聲檢驗(序列的單位根檢驗)輸出的P值要小于0.05。
離群點檢測
離群點的屬性值明顯偏離期望的或常見的屬性值
它的任務是發現與大部分其他對象顯著不同的對象。
幾種數據規范化
零均值規范化 | 1.0*(data-data.mean())/data.std() | (z-score規范化) |