1 常見概率分布
1.1 均勻分布
- 分布函數與數字特征
- 若變量
服從均勻分布
,則
服從
- 若變量
服從均勻分布
, 則
服從
1.2 伯努利分布
-
分布函數與數字特征
-
參數估計
若從
總體中獨立得抽取樣本
,可構造關于
的似然函數:
對數形式為:
對求偏導數,令:
得到非負函數的極大值點
1.3 二項分布
-
分布函數與數字特征
1.4 多項分布
1.4.1 n維伯努利分布
? 將伯努利分布由單變量擴展為n維向量, 其中
為0,1變量,且
;
? 并假設取1的概率為
,
;
? 由于為0,1變量,則
? 由于,
相互獨立,則
-
分布函數與數字特征
1.4.2 多項分布
? N次獨立實驗中有次
= 1的概率
? 隨機向量的每個分量服從二項分布
-
分布函數與數字特征
其中:
-
參數估計
若從總體
中獨立得抽取了K個樣本
(n維隨機向量),則似然函數為:
分別對求偏導,得到
的極大似然估計為
1.5 Beta分布
不完全Beta函數:
Beta函數:
不完全Beta函數與對應Beta函數的比值
構成了歸一化的Beta函數,它正好是滿足Beta分布的隨機變量的分布函數
Gamma函數與Beta函數的關系:
-
分布函數與數字特征
1.6 Dirichlet分布
? Dirichlet分布可以看作Beta分布的向量推廣,是關于一組n個連續變量的概率分布,
. 令
,參數
,
,記
-
分布函數與數字特征
1.7 Gaussian分布
分布函數與數字特征
-
Gaussian分布對
的依賴通過二次型表達:
稱為
和
之間的馬氏距離,當
是單位矩陣時,即為歐氏距離
馬氏距離在回歸分析中,是測量某一自變量的觀測量與同一自變量所有觀測量平均值差異的統計量,此值越大,說明該觀測量為影響點的可能性越大。
-
協方差矩陣的特征向量方程為
對于特征向量
-
根據逆矩陣的性質,得到馬氏距離的另一種表示:
其中U的行向量是
,滿足
-
高斯分布的優缺點:
協方差矩陣與均值向量總計有
個獨立參數,適應性強
參數以
的速度增長,導致求逆計算困難,可以只在對角矩陣上計算,但會喪失對相關性分析的能力;單峰性,不能很好地表示多峰分布
-
條件高斯分布
協方差矩陣的逆成為精度矩陣,記為
,也是對稱矩陣
-
條件概率分布
由于而
,于是
條件分布的數字特征為:
邊緣概率分布
-
Gaussian分布貝葉斯定理
令x的邊緣分布和條件分布形式如下(x的維度設為
,y的維度設為
):
則:
即y的邊緣分布服從
x在給定y的條件下的邊緣分布服從
-
參數估計
假設從多元正態總體
中抽取了N個樣本
對數似然函數:
分別對向量和矩陣
求偏導,得到參數的極大似然估計:
其中,該極大似然估計為總體參數的無偏估計
而
2 共軛分布
? 假設變量服從分布
,
為參數,
為變量
的觀測樣本,假設參數
服從先驗分布
。
? 若由先驗分布和抽樣分布(似然函數)
決定的后驗分布
與
是同種類型的分布,則稱先驗分布
是
(抽樣分布)的共軛分布
2.1 Beta-二項分布共軛
- 假設
,
為觀測樣本,
為觀測樣本的均值,
, 其中a,b為已知參數,則
的后驗分布為:
? 由此可知的后驗服從
,即Beta分布與二項分布共軛
2.2 Dirichlet-多項分布共軛
-
假設參數
服從多項分布,先從總體中抽出n個樣本,樣本向量和為
則后驗分布有
? 仍服從Dirichlet分布
2.3 正態分布-正態分布共軛
-
假設已知總體方差為
,均值未知,先從該總體中抽出n個樣本,則
假設
的先驗分布服從
則的后驗分布為
仍服從正態分布