數據挖掘基本任務

  • 定義挖掘目標
  • 數據取樣
  • 數據探索
  • 數據預處理
  • 挖掘建模*
  • 模型評價

平均水平的指標是對個體集中趨勢的度量, 使用最廣泛的是均值和中位數;反映變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位間距。

  • 頻率密度(頻率與組距之比)
  • 定性變量:觀測的個體只能歸屬于幾種互不相容類別中的一種時,這樣的觀測數據。
  • 標準差度量數據偏離均值的程度
  • 變異系數 度量標準差相對于均值的離中趨勢

CV=\frac{s}{x} *100%

  • 四分位數間距,是上四分位數Qu與下四分位數Ql之差,期間包含了全部觀察值的一半。其值越大,說明數據的變異程度越大;反之,說明變異程度越小

數據預處理

數據清洗

缺失值處理

插值法:利用已知點建立合適的插值函數f(x),未知值由對應點xi求出的函數值f(xi)近似代替。

數據集成

  1. 實體識別
  2. 屬性冗余

數據變換

對數據進行規范化處理,將數據轉換成“適當的”形式,以適用于挖掘任務及算法的需要。

  1. 簡單函數變換
  2. 屬性構造
  3. 規范化
  4. 連續屬性離散化:要求數據是分類屬性形式。這樣,常常需要將連續屬性變換成分類屬性,即連續屬性離散化
    • 確定分類數以及如何將連續屬性值映射到這些分類值。

數據規約

數據規約產生更小但保持數據完整性的新數據集。意義:

  1. 降低無效、錯誤數據對建模的影響,提高建模的準確性
  2. 少量且具代表性的數據將大幅縮減數據挖掘所需時間
  3. 降低存儲數據的成本

挖掘建模

數據為數值型,需要對屬性進行離散化(即人直觀理解的表現形式)

分類與預測

神經網絡模型

BP 神經網絡

學習算法:&學習規則(誤差校正學習算法)

誤差校正學習算法根據神經網絡的輸出誤差對神經元的連接強度進行校正,屬于有指導學習。

目標函數(誤差函數):神經網絡訓練是否完成的衡量。當誤差函數小于某一個設定的值時即停止訓練。二乘誤差函數相似:
E=\sum\limits_{k=1}^{N}[Y_k - T_k]^2

分類與預測算法評估

聚類分析(聚類分析算法評估)

聚類分析:是在沒有給定劃分類別(沒有給數據打標簽),根據數據相似度進行樣本分組的一種方法。(典型非監督學習算法)

目標是實現組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內相似性越大,組間差別越大,聚類效果越好。

關聯規則

目的是在一個數據集中找出各項之間的關聯關系,而這種關系并沒有在數據中直接表示出來。

Apriori算法

是一種挖掘頻繁項集的算法.核心思想:通過連接產生候選項與其支持度,然后通過剪枝生成頻繁項集。步驟(Ck是由Lk-1與L1連接產生的)

找最大K項頻繁集

  1. 掃描集合C1中每一項數據的支持度。出現次數/所有事務個數。
  2. 對各項集的支持度與預先設定的最小支持度值比較保留大于等于的項得1項頻繁集L1.
  3. 掃描所有事務,L1與L1連接得候選項C2,并計算每一項支持度。如P({a,b}).接下來是剪枝步,
  4. 對C2各項集的支持度與預先設定的最小支持度值比較,得2項頻繁集L2.
  5. 接著掃描所有事務,L2與L1連接得C3,計算支持度。如p({a,b,c}).

由頻繁集產生關聯規則

置信度計算公式
Confidence(A=>B)=\frac{Support\_count(A并B)}{Support\_count(A)}
Support_count(A)包含項集A的事務數

時序模式

時間序列的預處理:(對它的純隨機性和平穩性進行校驗)

純隨機序列又稱白噪聲序列,序列進行完全無序的隨機波動,可以中止。

非平穩時間序列的分析方法分為:

  • 確定性因素分解的時序分析

把所有序列變化歸結為(長期趨勢、季節變動、循環變動和隨機波動)

  • 隨機時序分析

差分運算

  1. P階差分

相距一期的兩個序列值之間的減法運算稱為1階差分運算

  1. K步差分

相距K期的兩個序列值之間的減法運算稱為K步差分運算

白噪聲檢驗(序列的單位根檢驗)輸出的P值要小于0.05。

離群點檢測

離群點的屬性值明顯偏離期望的或常見的屬性值

它的任務是發現與大部分其他對象顯著不同的對象。

幾種數據規范化

零均值規范化 1.0*(data-data.mean())/data.std() (z-score規范化)
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容

  • 國家電網公司企業標準(Q/GDW)- 面向對象的用電信息數據交換協議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 11,080評論 6 13
  • “幫幫你?” 看著眼前這個美女一副快要死翹翹的模樣,劉云帆不但沒有任何憐香惜玉,反而眼神里有些鄙視。 不就是痛經嗎...
    飄雲閱讀 370評論 2 5
  • 一 十年前,我在上海松江區的一家生物制藥廠上班,當時老板聘請了一位五十多歲的臺灣人任...
    周大雄0323閱讀 328評論 0 1
  • 記得小時候,每到這個季節,把姥爺的搖椅拉在院子里面,抱著半個西瓜用勺子挖著吃,一邊吃一邊抬頭看星星,哼著小曲,姥爺...
    瓊語閱讀 181評論 0 0