數據挖掘算法及軟件使用

通過數據挖掘可以從大量有序或者雜亂無章的數據中發現潛在的規律,甚至通過訓練學習還能通過已知的數據預測未來的發展變化。

挖掘算法

Bayes(常用)

貝葉斯定理是關于隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。

貝葉斯公式


貝葉斯公式

貝葉斯分類算法是統計學的一種分類方法,它是一類利用概率統計知識進行分類的算法。在許多場合,樸素貝葉斯(Na?ve Bayes,NB)分類算法可以與決策樹和神經網絡分類算法想媲美,該算法能運用到大型數據庫中,而且方法簡單、分類準準確率高、速度快。

Clustering(常用)

聚類算法,即聚類分析,又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法。

聚類分析簡稱聚類(clustering),是一個把數據集劃分成子集的過程,每一個子集是一個簇(cluster),使得簇中的樣本彼此相似,但與其他簇中的樣本不相似。

聚類分析不需要事先知道樣本的類別,甚至不用知道類別個數,因此它是一種無監督的學習算法,一般用于數據探索,比如群組發現和離群點檢測,還可以作為其他算法的預處理步驟

聚類過程示意圖

聚類過程示意圖

常見聚類算法

  • K-Means(K均值)聚類
  • 均值漂移聚類
  • 基于密度的聚類方法(DBSCAN)
  • 用高斯混合模型(GMM)的最大期望(EM)聚類
  • 凝聚層次聚類
  • 圖團體檢測(Graph Community Detection)

K-means算法

K-means算法是一種著名的并且常用的聚類方法。K-means以 k 為參數,把 n 個對象分為 k 個簇(cluster),以使簇內具有較高的相似度,而簇間的相似度較低。相似度的計算是根據一個簇中對象的平均值(被看作簇的重心)來進行的。

K-means 算法是隨機地選擇 k 個對象,每個對象初始地代表了一個簇的平均值或中心,根據其與各個簇中心的距離,對剩余的每個對象賦給最近的簇,然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數收斂。

Rule Induction

Neural Network(常用)

神經網絡就是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯一個權重。在網絡學習階段,網絡通過通過調整權重來實現輸入樣本與其相應(正確)類別的對應。

由于神經網絡學習主要是針對其中的連接權重進行的,因此神經網絡的學習有時也稱為連接學習。

神經網絡的優點就是對噪聲數據有較好的適應能力,并且對未知數據也具有較好的預測分類能力。

Decision Tree(常用)

決策樹是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。

Decision Tree Ensemble

Misc Classifiers

Ensemble Learning

Item Sets / Association Rules(常用)

關聯規則挖掘,關鍵規則模式屬于描述型模式,發現關聯規則的算法屬于無監督學習方法。

考察一些涉及許多物品的事務:
事務1 中出現了物品甲,事務 2 中出現了物品乙,事務 3 中則同時出現了物品 甲 和 乙。那么,物品甲和乙在事務中的出現相互之間是否有規律可循呢?

Linear/Polynomial Regression(常用)

回歸分析(regression analysis)是確定兩種或兩種以上變量相互依賴的定量關系的一種統計方法。

回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析,時間序列模型以及發現變量之間的關系。例如,司機的魯莽駕駛與道路交通事故數量之間的關系,最好的研究方法就是回歸。

Polynomial Regression
多項式回歸

Linear Regression
線性回歸

Logistic Regression(常用)

MDS

PCA

PMML

SVM

Feature Selection

Scoring(常用)

排序

數據挖掘軟件 KNIME

這里主要介紹的是開源的數據挖掘軟件KNIME。

KNIME是一個開源的數據集成、數據處理、數據分析和數據勘探平臺。

KNIME采用的是類似數據流(data flow)的方式來建立分析挖掘流程。挖掘流程由一系列功能節點為(node)組成,每個節點為有輸入/輸出端口(port),用于接收數據或模型、導出結果。KNIME中每個節點都帶有交通信號燈,用于指示節點的狀態。

KNIME的特色功能HiLite允許用戶在節點結果中標記感興趣的記錄,并進一步展開后續探索。

基本工作流程

  • 讀取要分析的數據;
  • 對其中的一些數據進行轉換;
  • 分析出其中的規律;
  • 部署到平臺;

節點狀態

  • 紅燈,未連接、未配置、缺乏輸入數據時為紅燈;
  • 黃燈,準備執行為黃燈;
  • 綠燈,執行完畢后為綠燈;
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容

  • 單選題 1. 某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A) A...
    山的那邊是什么_閱讀 33,622評論 2 59
  • 本篇結構 簡介 聚類算法的分類 K-Means聚類算法 DBSCAN聚類算法 本篇介紹了聚類算法的種類,重點關注K...
    w1992wishes閱讀 7,517評論 0 14
  • 并不是說一樣要你阿諛奉承的說違心話,而是有的時候,明明可以很愉快的交流下去,但是一些人的溝通方式真的讓人不能繼續了...
    倒計時的鐘閱讀 643評論 0 0
  • 2016已經過去這一年手機圈真的是熱鬧非凡啊,前置雙攝、指紋識別心率檢測、全面屏概念機等黑科技層出不窮,都受到了不...
    81f3d970f07f閱讀 218評論 0 0
  • 所謂伊人,近在咫尺,遙不可及。所隔斷的,便是青春,秋去冬來,青春易逝,伊人猶在。 我注定和你相遇,我不知道什么時候...
    青禾札記閱讀 1,111評論 2 4