數據挖掘之產生模型VS判別模型

1.概述

產生式模型:無窮樣本-->概率密度模型-->產生模型-->預測

判別式模型:有限樣本-->判別函數-->預測模型-->預測

2.簡介

假設s是觀察值,m是模型:

如果對P(s|m)建模,就是產生模型(Generative);

基本思想是:首先建立樣本的概率密度模型,再利用模型進行推理預測。要求已知樣本無窮或盡可能的大;一般建立在Bayes理論的基礎之上

如果對條件概率P(m|s)建模,就是判別模型(Discrminative);基本思想是:有限樣本條件下建立判別函數,不考慮樣本的產生模型,直接研究預測模型;代表性理論:統計學習理論。

3.產生式模型

估計的是聯合概率分布:p(class,context)=p(class|context)*p(context)=p(context|class)*p(class)

用于隨機生成的觀察值建模,特別是在給定某些隱藏參數情況下;

在機器學習中,用于直接對數據建模,或作為生成條件概率密度函數的中間步驟。通過使用貝葉斯規則可以從生成模型中得到條件分布。

3.1 特點:

主要是對后驗概率建模,從統計的角度表示數據的分布情況,能夠反映同類數據本身的相似度。

3.2 優點:

由于產生式方法可以在聯合分布空間插入變量、不變量、獨立性、先驗分布等關系的知識;因此,在聯合分布空間,通用性是其本質

包括了系統中的未知的、觀察到的、輸入或輸出變量,使得產生式概率分布成為一個非常靈活的建模工具。

3.3 缺點:

產生式分類器需產生的所有變量的聯合概率分布僅僅是分類任務的中間目標,對該中間目標優化的過程,犧牲了最終分類判別任務上的資源和性能,影響了最終的分類性能。

3.4 常用方法

Gaussians,Naive Bayes 高斯,樸素貝葉斯

Mixtures of multionmials

Mixtures of Gaussians

HMMs

Bayesian networks

Markov random fields

4.判別式模型

又可以稱為條件模型,或條件概率模型。估計的是條件概率分布

判別式方法并不對系統中變量和特征的基本分布建模,僅僅對輸入到輸出之間映射的最優化感興趣。

因此,僅需調整由此產生的分類邊界,沒有形成可對系統中變量建模的生成器的中間目標,可以得到準確率更高的分類器。

4.1 主要特點:

?尋找不同類別之間的最后分類面,反映的是異類數據之間的差異。

4.2 優點:

相比純概率方法或產生式模型,分類邊界更靈活

能清晰的分辨出多類或某一類與其他類之間的差異特征,適用于較多類別的識別

判別模型的性能比產生模型要簡單,比較容易學習

4.3 缺點:

不能反映訓練數據本身的特性;

判別式方法在訓練時需要考慮所有的數據元組,當數據量很大時,該方法的效率并不高;

缺乏靈活的建模工具和插入先驗知識的方法。因此,判別式技術就像一個黑匣子,變量之間的關系不像產生式模型中那樣清晰可見。

4.4 常見方法:

logisitc regression 邏輯斯特回歸

SVMs 支持向量機

neural networks 神經網絡

nearest neighbor 近鄰算法

conditional random fields (CRF)

4.5 應用:

圖像和文本分類

生物序列分析

時間序列預測

5. 兩者之間關系

由生成模型可以得到判別模型,但由判別模型得不到生成模型;

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容