概率論
概率論為定量的描述不確定性提供了一個數學框架,伴隨而來的是一整套標準的的描述不確定性的定理和表示方式。通過概率論來定量描述不確定性,使得對于頻率和概率的描述不再因人而異,而是可以像程序語言一樣在不同的程序員和計算機之間可以準確的被傳遞和解釋,這使得我們在了解一個事件的時候,不會被“非常”,“相當”,“極其”... 等定性的描述語言所困惑。
在人工智能相關應用中要面臨很多的不確定性問題,在這個領域概率論主要應用在以下兩個方面:
需要算法可以基于目前呈現給它的信息根據概率理論進行推理
從業人員可以使用概率工具來分析人工智能系統的表現
頻率概率 frequentist probability:通過一個比率來描述一個或多個事件在多次重復實驗中發生的概率,例如在 10000 次鍵盤敲擊中,有多少次輸入由于沒有激發電容而導致輸入失敗。
貝葉斯概率 Bayesian probability:通過一個概率來給出一個事件屬于某一性質的置信程度 degree of belief,例如某個來訪的病人以多大的概率患有某種疾病。
隨機變量
隨機變量是一個可以隨機取得不同值的變量,在本書中隨機變量用不加任何修飾的小寫字母 x 來表示,其可能的取值用 x1,x2... xn 來表示。當隨機變量的結果是一個向量時,用黑體小寫字母 x 表示,其可能的一個取值則用斜黑體字母表示 x。
隨機變量本身只是對變量的所有可能的取值狀態的一個描述,即 x = xi,i =
1,... ,n。而對于隨機變量取得各個值的概率,則需要使用概率分布 Probability distributions 來描述。例如對于診斷一個疾病來說,診斷結果這個隨機變量最簡單的取值就是有(1)或沒有(0)某種疾病,而疾病發生的概率則需要采用概率分布來描述,例如如果流行病學數據統計發現患病率為 10%,則 P(1) = 10%, P(0) = 90%。
根據取值的分布情況,可以將隨機變量分為離散型隨機變量和連續性隨機變量,離散型隨機變量的取值是一個個獨立的分類或狀態,而連續性隨機變量的取值則是任意實數。基于取值情況的差異,離散型隨機變量和連續性隨機變量的概率分布情況也用不同的方式來描述。
概率分布
離散型隨機變量的概率分布用概率分布函數 Probability mass function,PMF 來表示,離散型隨機變量的概率分布函數用大寫斜體字母 P 表示。概率分布函數建立了一個從隨機變量取值到取得這個值的概率之間的一個函數關系:
這個函數的定義域 domain 是隨機變量的所有可能取值
對于任意一個取值來說,0 ≤ P(xi) ≤ 1
對于所有取值來說,ΣP(xi) = 1
連續性隨機變量的概率分布用概率密度函數 Probability density function,PDF 來表示,連續性隨機變量的概率密度函數用小寫斜體字母 p 來表示。概率密度函數在某個取值范圍內的積分代表隨機變量的取值在這個范圍內的概率。概率密度函數的要求如下:
這個函數的定義域 domain 是隨機變量的所有可能取值
對于任意一個取值來說,0 ≤ P(xi) ,注意這里不需要 ≤ 1,并且在實際應用中,連續型隨機變量取得任意一個具體數值的概率都為 0
∫ p(x)dx = 1
邊緣概率 Marginal probability
有時我們知道了一組隨機變量的聯合概率分布情況,而如果想知道只沿著其中一個變量方向的概率變化情況,則需要使用邊緣概率分布。“邊緣概率”這個命名實際上來源于在紙面上手動計算概率分布的過程:如果在計算聯合概率分布時將所有 x 的取值作為行,將所有 y 的取值作為列,則 x 取某一特定值的概率將可以在行的右側邊緣加總得到。
對于離散型隨機變量,如果已知 P(x, y),則 P(x = xi) = ΣyP(x=xi,y=yi),即加總 x = xi 時 y 沿 y 軸變化時的全部取值的概率
對于連續性隨機變量,上述計算需要改成 ∫ p(x, y)dy
條件概率 Conditional probability
在某隨機事件已發生的情況下,求另一個具有一定相關性的隨機事件發生的概率稱為條件概率 ,例如對于隨機變量 x, y,當 x 取 xi 時,求 y 取 yi 的概率,這一計算的數學表示及計算公式為:
P(y = yi | x = xi) = P(x = xi, y = yi) / P(x = xi)
條件概率的鏈式法則
多維隨機變量的聯合概率分布可以分解為基于一個隨機變量的條件概率的形式,例如對于三個隨機變量:由于 P(a, b, c) = P(a| b, c)P(b, c),而 P(b, c) = P(b| c)P(c),因此 P(a, b, c) = P(a| b, c)P(b| c)P(c)。
獨立分布 Independence 和條件獨立 Conditional independence
如果對于兩個隨機變量 x,y, 如果對于其各自的任意取值,都有 P(x = xi, y = yi) = P(x = xi)P(y = yi),則稱這兩個隨機變量 x,y 彼此獨立,記做 x ⊥ y
如果對于兩個隨機變量 x,y 和第三個隨機變量 z,如果對于x,y,z 各自的任意取值,都有 P(x = xi, y = yi | z = zi ) = P(x = xi | z = zi)P(y = yi | z = zi),則稱這兩個隨機變量 x,y 在給定隨機變量 z 下條件獨立,記做 x ⊥ y | z
期望 Expectation,方差 Variance 和協方差 Covariance
在一般性的期望、方差和協方差定義時,都討論的是隨機變量本身的期望、方差和協方差,這里作者直接討論的是隨機變量的函數的期望、方差和協方差。為了便于理解,一并給出隨機變量本身的期望、方差和協方差公式。
期望
隨機變量自身的期望計算公式為:
- Ex = x? = Σxi / n,其中 i = 1, ... , n
如果隨機變量 x 的概率分布為 P(x),則對于 x 的一個函數 ?(x),其在這個概率分布下的期望值記為 Ex~P[?(x)],在不至混淆的情況下可以簡記為其計算方法為 Ex[?(x)]:
離散型隨機變量:Ex~P[?(x)] = ΣP(x)?(x),即加總 x 所有可能取值的概率與相應取值下的 ?(x) 的乘積
連續型隨機變量:Ex~P[?(x)] = ∫P(x)?(x)dx
從計算可以看出,由于隨機變量的概率分布取值為一個標量,因此期望的計算是線性的,所以有:
- Ex[α?(x) + βg(x)] = αEx[?(x)] + βEx[g(x)]
方差
方差則衡量的是隨機變量圍繞均值變化的離散程度,方差越小則分布越集中,其本質是一個期望值。隨機變量自身的方差計算公式為:
- Var(x) = E[(xi - x?)2] = Σ(xi - x?)2 / n ,其中 i = 1, ... , n
注意這個 n 是針對樣本的總體 Population 而言的,在實際計算中,我們計算的都是來自總體的部分樣本的方差,假設樣本的數量為 m,如果需要借此來估計總體的方差,則分母需要用 m - 1 做校正。其原因在于我們有理由相信樣本本身的分布相對總體來說會更加集中,因此可以將這個結果做一定程度的放大來逼近總體的方差值。方差的平方根稱為標準差 Standard deviation。
對于隨機變量的某個函數 ?(x) 來說,其方差則可以表示為 Var(?(x)) = Ex[(?(x) - Ex[?(x)])2]。
協方差
上述期望和方差的定義都是針對單一隨機變量的,而協方差衡量的是兩個隨機變量之間的線性相關性。
兩個隨機變量樣本集 x,y 的協方差計算公式為:
- Cov(x, y) = Σ(xi - x?)(yi - y?) / n - 1,其中 i = 1, ... , n,n - 1 為考慮樣本集對于總體的一個校正
相應的隨機變量的函數 ?(x),g(y) 的協方差計算公式為:
- Cov(?(x), g(y)) = E[(?(x) - E[?(x)])(g(y) - E[g(y)])
從這個計算過程可知:
協方差的絕對值越大代表兩個變量圍繞各自均值同步偏離的程度越大,也即相關性越強
如果結果是正的,則代表兩個隨機變量的多個取值圍繞各自的均值總體上變化方向是一致的,即同時增加或減小,加總項中相同方向變化的項多于相反方向變化的項
如果結果是負值,則代表隨機變量的多個取值圍繞各自均值的變化方向總體上是相反的,加總項中常出現的是一個變量的取值在均值的一側,而另一個變量的取值在均值的另一側。這里還可以參考 GRAYLAMB的回答
相關系數
盡管一定程度上協方差的絕對值對于相關性可以做一個判斷,但由于相關性的計算值與相應的變量的量綱有關,因此同樣的一組數據,采用不同的量綱計算得到的協方差的結果不同,因此為了消除掉量綱的影響,定義了相關系數,其計算公式為:
- ρ(x, y) = Cov(x, y) / (σx σy)
其中 σ 為方差,相關系數的計算剔除了兩個隨機變量各自的標準差在協方差中的影響,使得相關系數只衡量兩個隨機變量的多個取值圍繞各自均值的變化方向的相關性,其取值范圍為 [-1, 1]:
當 ρ = 1 時,說明在所有取值上兩個隨機變量圍繞均值的變化方向均相同,當 ρ = -1 時反之
當 ρ = 0 或者非常接近 0 時,說明兩個隨機變量不具有線性相關性,但不一定相互獨立,也可能具有其他的相關性,除此之外,還要注意相關關系并不意味著因果關系
當 0 < ρ < 1 時,說明兩個隨機變量的多個取值圍繞均值變化的方向有時是一致的,有時是不一致的
協方差矩陣
當將多個隨機變量構成一個向量 x 時,可以通過計算這個向量中各個隨機變量之間的協方差,并構造一個協方差矩陣:Cov(x) i,j = Cov(xi, xj),這個矩陣的對角線上的元素為向量中各個隨機變量的方差,即 Cov(xi, xi) = Var(xi)。
幾種常見的分布
正態分布 Normal distribution
中心極限定理 Central limit theorem:從總體中多次隨機抽取 n 個隨機變量并計算其均值,這些均值在 n 較大時呈正態分布。中心極限定理的另一個解讀方式是從總體中多次抽取 n 個隨機變量并求和,這個加總的值符合正態分布。