《機器學習》-- 貝葉斯分類器

前 言

如今機器學習和深度學習如此火熱,相信很多像我一樣的普通程序猿或者還在大學校園中的同學,一定也想參與其中。不管是出于好奇,還是自身充電,跟上潮流,我覺得都值得試一試。對于自己,經歷了一段時間的系統學習(參考《機器學習/深度學習入門資料匯總》),現在計劃重新閱讀《機器學習》[周志華]和《深度學習》[Goodfellow et al]這兩本書,并在閱讀的過程中進行記錄和總結。這兩本是機器學習和深度學習的入門經典。筆記中除了會對書中核心及重點內容進行記錄,同時,也會增加自己的理解,包括過程中的疑問,并盡量的和實際的工程應用和現實場景進行結合,使得知識不只是停留在理論層面,而是能夠更好的指導實踐。記錄筆記,一方面,是對自己先前學習過程的總結和補充。 另一方面,相信這個系列學習過程的記錄,也能為像我一樣入門機器學習和深度學習同學作為學習參考。

章節目錄

  • 貝葉斯決策論

  • 極大似然估計

  • 樸素貝葉斯分類器

  • 半樸素貝葉斯分類器

  • 貝葉斯網

  • EM算法

1 貝葉斯決策

貝葉斯決策論(Bayesian decision theory)是概率框架下的基本方法。
假設有N種可能的類別標記,即y={c1,c2,...,cN},λij是一個將真實標記為cj的樣本誤分類為ci產生的期望損失(expected loss),即在樣本x上的“條件風險”(conditional rsik),


image

我們的任務是尋找一個判斷準則,以最小化總體風險。
欲使用貝葉斯判定準則來最小化決策風險,首先要獲得后驗概率P(c|x)。然而,在現實任務中這通常難以直接獲得。從這個角度來看,機器學習所要實現的是基于有限的訓練樣本盡可能準確的估計出后驗證概率P(c|x)。大體來說主要有兩種策略:

  • 給定x,可通過直接建模P(c|x)來預測c,這樣得到的是“判別式模型”(discriminative models)

  • 先對聯合概率分布P(x,c)建模,然后再由此獲得P(c|x),這樣得到的是“生成式模型”(generative models)。 顯然,前面介紹的決策樹、BP神經網絡、支持向量機等,都可歸入判別式模型的范疇。對于生成式模型來說,必然考慮,


    image

    基于貝葉斯定理可寫成,


    image

    對給定樣本x,證據因子P(x)與類標記無關。根據大數定理,先驗概率P(c)可通過各類樣本出現的頻率來進行估計。因此,估計P(x|c)的問題就主要轉換為如何基于訓練樣本D來估計似然P(x|c)。

2 極大似然估計

估計類條件概率的一種常見策略是先假定其具有某種確定的概率分布形式,再基于訓練樣本對概率分布的參數進行估計。 概率模型的訓練過程就是參數估計(parameter estimation)過程。對于參數估計,統計學界的兩個學派分別提供了不同的解決方案:

  • 頻率主義學派(Frequentist)認為參數雖然未知,但確實客觀存在的固定值,因此,可通過優化似然函數等準則來確定參數值。

  • 貝葉斯學派(Bayesian)則認為參數是未觀察到的隨機變量,其本身也有分布,因此,可假設參數服從一個先驗分布,然后基于觀測到的數據來計算參數的后驗分布。 書中的介紹來自頻率主義學派的極大似然估計(Maximum Likelihood Estimation,簡稱MLE),這是根據數據采樣來估計概率分布參數的經典方法。

3 樸素貝葉斯分類器

基于貝葉斯公式來估計后驗概率P(c|x)的主要困難在于,類條件概率P(x|c)是所有屬性上的聯合概率,難以從有限的訓練樣本直接估計而得。為了避開這個障礙,樸素貝葉斯分類器(naive Bayes classifier)采用了“屬性條件獨立性假設”(attribute conditional independence assumption)。即對已知類別,假設所有屬性相互獨立。換言之,假設每個屬性獨立地對分類結果發生影響。
基于屬性條件獨立性假設,條件概率P(c|x)可重寫為,


image

其中d為屬性數目,xi為x在第i個屬性上的取值。
由于對所有類別來說P(x)相同,因此貝葉斯判定準則可寫為,


image

這就是樸素貝葉斯分類器的表達式。4

半樸素貝葉斯分類器

為了降低貝葉斯公式中估計后驗概率P(c|x)的困難,樸素貝葉斯分類器采用了屬性條件獨立性假設,但在現實任務中這個假設往往很難成立。于是,人們嘗試對屬性條件獨立性假設進行一定程度的放松,因此產生了一類稱為“半樸素貝葉斯分類器”(semi-naive Bayes classifiers)的學習方法。

5 貝葉斯網

貝葉斯網(Bayesian network)亦稱“信念網”(belief network),它借助有向無環圖(Directed Acyclic Graph,簡稱DAG)來刻畫屬性之間的依賴關系,并使用條件概率表(Conditional Probability Table,簡稱CPT)來描述屬性的聯合概率分布。6

EM算法

在前面的討論中,我們一直假設訓練樣本所有屬性變量的值都已被觀測到,即訓練樣本是“完整”的。但現實應用中往往遇到“不完整”的訓練樣本。在存在“未觀測”變量的情況下,是否仍能對模型參數進行估計呢?
EM(Expectation-Maximization)算法就是常用的估計參數隱變量的利器。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,656評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,697評論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,098評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,855評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,254評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,473評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,014評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,833評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,016評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,273評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,680評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,946評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,730評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,006評論 2 374

推薦閱讀更多精彩內容