? ? ? 這篇筆記,主要記錄花書第三章關于概率知識和信息論知識的回顧。概率論在機器學習建模中的大量使用令人吃驚。因為機器學習,常常需要處理很多不確定的量。不確定的量可能來自模型本身的隨機性、對外在失誤的不完全觀測以及不完全的建模。
隨機變量
隨機變量(random variable):隨機變量是一個可以隨機取不同值的一個變量,它可以是離散的,也可以是連續的。
概率分布
概率分布(probability distribution):用來描述隨機變量或者一簇隨機變量每一個能取到的狀態的可能性大小。
概率質量函數(probability mass function PMF):離散型隨機變量的概率分布。
如果一個函數P是隨機變量x的PMF,必須滿足如下性質:
1. P的定義域必須是x所有可能狀態的集合。
2. ?x∈x, 0<= P(x) <=1。
3. ∑xP(x)=1. 這個性質稱為歸一化。
聯合概率分布(joint probability ?distribution):多個變量的概率分布。
概率密度函數(probability density function PDF):連續性隨機變量的概率分布。概率密度函數p(x)并沒有直接對特定的狀態給出概率,而是給出落在面積為δx的無限小的區域內的概率為p(x)δx。
如果一個函數p是x的PDF,必須滿足如下性質。
1. p的定義域必須是x所有可能狀態的集合。
2. ?x∈x, p(x) >= 0。(不要求p(x)<=1)
3. ∫p(x)dx=1:
邊緣概率(marginal probability):定義在一組變量聯合概率分布中,其中一個子集的的概率分布,稱為邊緣概率分布。
條件概率(conditionalprobability):某個事件在給定其他事件發生時,出現的概率。表示為:
條件概率的鏈式法則(The Chain Rule of Conditional Probabilities):任意多維隨機變量的的聯合概率分布,都可以分解成只有一個變量的條件概率相乘的形式。表示為:
獨立性(Independence):如果兩個隨機變量x,y,如果他們的概率分布可以表示成兩個因子的乘積形式,并且一個因子只包含x,另一個因子只包含y,則這兩個隨機變量是相互獨立的。表示為:
條件獨立性(conditionally independent):如果關于x和y的條件概率分布對于z的每一個值都可以寫成乘積形式,那么這兩個隨機變量x和y在給定隨機變量z時是條件獨立的。表示為:
期望(expectation):f(x)關于某分布P(x)的期望是指,當x由P產生,f作用于x時,f(x)的平均值。
? ?? ? 離散隨機變量期望表示:
? ? ? ?連續隨機變量的期望表示:
方差(variance):方差是指我們根據對X進行隨機采樣的時候,隨機變量x的值會呈現多大的差異。表示為:
協方差(covariance):協方差在某種意義上給出了兩個變量的線性相關性以及他們之間的度量。表示為:
常用概率分布
貝努利分布(Bernoulli distribution):貝努利分布是一個二值隨機變量分布。常見拋硬幣例子。是特殊的二項分布。滿足如下性質:
多項分布(Multinoulli distribution):多項分布是二項分布的一個推廣,不同于拋硬幣,例如擲骰子的例子。
正態分布(normal distribution):正態分布也叫高斯分布,是最常見的一種分布。例如班里學生的成績、芝麻信用分等等,都是滿足正態分布的。
多維正態分布表示如下:∑是一個正定對稱矩陣,給出了分布的協方差矩陣。μ是一個向量。
指數分布(exponential distribution):在深度學習中,我們經常需要在x=0處,取得邊界點的分布。可以使用指數分布。
拉普拉斯分布(Laplace? distribution):允許我們在任意一處設置概率質量的峰值。
狄拉克分布(Dirac distribution):有時,我們希望概率分布中所有的質量都集中在一個點上,可以用狄拉克分布表示。
經驗分布(empirical distribution):根據樣本得到的分布函數。通過計算累積分布函數,收斂到概率1。狄拉克分布經常作為經驗分布的一個組成部分。
混合分布(mixture distribution):通過一些簡單的概率分布,通過一定的組合來定義新的概率分布,成為混合分布。
常用函數的有用性質
邏輯S型函數(logistic sigmoid function):logistic sigmoid函數很常用,通常用來產生貝努利分布的參數Φ,因為他的范圍在(0,1)之間。在NG的視頻教程中,判斷癌癥的案例也用到了這個函數。
軟化加強函數(softplus function):softplus可以用來產生正態分布的β和σ參數,因為它的范圍是(0,∞)。
貝葉斯法則
貝葉斯法則(Baye's Rule):在已知P(y|x),P(x)時,我們可以來計算P(x|y)的值。
這里P(y)通常可以用如下公式計算:
信息論
自信息(self-information):滿足以下三個性質,我們定義一個時間的自信息為:
1. 非常可能發生的事件,需要信息量比較少;極端情況,肯定反生的事件應該是沒有信息量的。
2.較不可能發生的事件,具有更高的信息量。
3.獨立事件應該具有增量的信息。例如連續兩次硬幣正面朝上的信息量,應該是一次硬幣正面朝上的信息量的兩倍。
香農熵(Shannon entropy):自信息量處理單個輸出,香農熵對整個概率分布中的不確定性總量進行量化。如下公式表示。
KL散度(Kullback-Leibler (KL) divergence):對于同一個隨機變量x,有兩個單獨的概率分布P(x)和 Q(x),使用KL散度來描述這兩個分布的差異。因為KL散度是非負的,如果KL散度為0.表示P和Q在離散變量上相同分布,或者連續變量上幾乎處處相同。表示為:
交叉熵(cross-entropy):交叉熵主要用于度量兩個概率分布間的差異性信息。表示為:
三者不得不說的關系:(https://zhuanlan.zhihu.com/p/25849615)
結構化概率模型
有向模型(Directed models):模型使用帶有有向邊的圖,它們用條件概率分布來表示分解。
例子:
無向模型(Undirected models):模型使用帶無向邊的圖,它們將分解表示成一組函數,這些函數通常不是任何類型的概率分布。
例子:
Q&A:
如果有興趣相投的朋友,歡迎來http://www.jokls.com/提問或者解答其他小伙伴的提問。