統計學中均值、標準差、方差這些概念和例子都很常見。這些數字特征不是本文要重點探討的可以看看這篇對于概率論數字特征的理解
- 均值描述的是樣本集合中平衡點,因為信息是有限的。
- 標準差描述的是樣本集合中各個樣本點到均值之間距離的平均值
eg:[0, 8, 12, 20]和[8, 9, 11, 12],兩個集合的均值都是10,但顯然兩個集合的差別是很大的,計算兩者的標準差,前者是8.3后者是1.8,顯然后者較為集中,故其標準差小一些,標準差描述的就是這種“散布度”。之所以除以n-1而不是n,是因為這樣能使我們以較小的樣本集更好地逼近總體的標準差,即統計上所謂的“無偏估計”。(這個例子來源于網絡看到的,挺好的就引用過來,湊出均值相同)
而方差則僅僅是標準差的平方。方差是協方差的一種特殊情況,即當兩個變量是相同的情況 。
引出協方差
前面的標準差,方差一般用來描述一維的,現實中我們遇到的大多是多維的,這時候雖然可以每一維獨立計算出方差啥的,但信息單一,這就引出協方差。
簡單地說:協方差就是這樣一種用來度量兩個隨機變量關系的統計量
通俗的說:兩個變量之間是否同時偏離均值。
也可以寫成和期望有關:
有了上面的定義我們就看看怎么來理解
p(x,y)是x,y的二維概率分布函數,顏色深淺應該表示進概率密度的大小,p(x,y)整個區域二重積分得到1,這個就是下面圓的背景知識了。下面是協方差的三種不同意義情況
當X, Y 的聯合分布像上圖那樣時,我們可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關”。
怎樣將這3種相關情況,用一個簡單的數字表達出來呢?
- 在圖中的區域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
- 在圖中的區域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
- 在圖中的區域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
- 在圖中的區域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
當X 與Y ****正相關****時,它們的分布大部分在區域(****1****)和(****3****)中,小部分在區域(****2****)和(****4****)中,所以平均來說,有E(X-EX)(Y-EY)>0 。
當 X與 Y負相關時,它們的分布大部分在區域(2)和(4)中,小部分在區域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0 。
當 X與 Y不相關時,它們在區域(1)和(3)中的分布,與在區域(2)和(4)中的分布幾乎一樣多,所以平均來說,有(X-EX)(Y-EY)=0** 。
所以,我們可以定義一個表示X, Y 相互關系的數字特征,也就是協方差
cov(X, Y) = E(X-EX)(Y-EY)。
- 當 cov(X, Y)>0時,表明** X與Y **正相關;
- **當 cov(X, Y)<0時,表明X與Y負相關;
- **當 ****cov(X, Y)=0****時,表明X與Y不相關。
相關系數
如果X 與Y 是統計獨立的,那么二者之間的協方差就是0,這是因為
但是反過來并不成立,即如果X 與Y 的協方差為0,二者并不一定是統計獨立的。
取決于協方差的相關性η
相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標準化后的特殊協方差,它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
協方差表示線性相關的方向,相關系數不僅表示線性相關的方向,還表示線性相關的程度,取值[-1,1]。
協方差矩陣
協方差解決的也只是二維的問題,那么繼續維數上升呢,就要計算多個協方差,這個道理很好懂。
協方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方,對于機器學習領域的PCA來說,如果遇到的矩陣不是方陣,需要計算他的協方差矩陣來進行下一步計算,因為協方差矩陣一定是方陣,而特征值分解針對的必須是方陣,SVD針對的可以是非方陣情況。
協方差矩陣在主成分分析中主成分分析有關鍵作用。主成分分析就是把協方差矩陣做一個奇異值分解,求出最大的奇異值的特征方向。
協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的,這點要記牢了。
剩下可以參考下:
[轉]淺談協方差矩陣
[線性代數] 如何求協方差矩陣
詳解協方差與協方差矩陣
另外,我不是數學專業對這方面沒有過多研究,現階段只是簡單明白,在學習過程中會把好的精彩干練的整合起來,方便復習,就醬紫了,咱們可以發郵件討論,博客下面就是地址了。