多元統(tǒng)計分析復(fù)習(xí)整理

樣本幾何

  • 隨機向量的均值和協(xié)方差矩陣



  • 單變量樣本、均值向量、偏差向量的幾何表示 p91*
    均值向量、偏差向量是定義在樣本個數(shù)維度空間的。偏差向量的平方和(自身內(nèi)積、模)除以樣本個數(shù)是樣本方差


  • 多變量樣本之間的協(xié)方差、樣本相關(guān)系數(shù)
    兩個偏差向量的內(nèi)積就是樣本離差陣,除以樣本個數(shù)就是樣本協(xié)方差


  • 向量之間距離
    使用歐氏距離的話要求向量各分量之間獨立且方差相等,對其進行拓展,引入馬氏距離 p23*。馬氏距離考慮了各變量方差不同,變量之間存在相關(guān)性。其處理方法分別是伸縮變換和旋轉(zhuǎn)變換。

多元正態(tài)分布

  • 單總體線性變換


  • 多總體線性組合(樣本模型)


  • 特別地(均值向量正態(tài)分布)


  • 更一般地(兩個線性組合之間的協(xié)方差)


    因為系數(shù)是平方,所以方差還是相加
  • 特別地,大樣本下,中心極限,可用樣本均值代替期望;可用樣本協(xié)方差和矩陣代替上述協(xié)方差矩陣


  • 條件分布


  • 變量獨立性分解


矩陣多元正態(tài)分布

  • 之前考慮的都是隨機向量的期望,協(xié)方差,下面考慮隨機矩陣的期望與協(xié)方差


    其中正態(tài)的下標表示矩陣行列,而不是np;矩陣期望就是對矩陣每一個元素求期望;矩陣協(xié)方差需要把矩陣拉直成向量,即一列接一列,再按照標準的向量形式求協(xié)方差;或者一步到位:將矩陣先拉直,再按照向量的形式處理

  • 矩陣拉直和先轉(zhuǎn)置再拉直,期望和協(xié)方差之間的關(guān)系




  • 利用上述性質(zhì)


  • 特別地,來自同一個總體的獨立同分布的樣本(向量)構(gòu)成的矩陣
    每一行是一個樣本向量


  • 轉(zhuǎn)置后的樣本矩陣



  • 上述樣本矩陣服從矩陣正態(tài)分布


    其中兩個向量的Keronecker積可以簡寫成向量點乘形式。一個樣本矩陣到底是那種形式根據(jù)矩陣正態(tài)的下標判斷

多元正態(tài)分布

Wishart分布

  • 就是n個零均值獨立同分布的隨機向量乘積矩陣之和(樣本離差陣),類比卡方分布(n個零均值標準正態(tài)獨立同分布的隨機變量平方之和)



  • 性質(zhì)

  • 疊加性
    本質(zhì)是樣本的疊加

T^2分布

  • 參考t分布


    其中乘以n是Wishart矩陣除以自由度帶來的,Wishart矩陣的自由度也是T^2的自由度。

  • T^2具體的分布形式



  • 特別地,樣本均值和樣本離差陣


    其中n開根號是分配給樣本均值,使得其協(xié)方差與樣本的協(xié)方差一致;n-1是樣本離差陣的自由度,對應(yīng)定義中的n

  • 或者
    按照樣本均值的協(xié)方差來定義T2。其中S是已經(jīng)除過自由度(n-1)的Wishart矩陣(S本身并不服從Wishart分布),為了與樣本均值的協(xié)方差一致,需要除以n。這樣理解的話可以將T2看作是樣本均值到給定點的馬氏距離。

似然比檢驗

  • 似然函數(shù)和最大似然估計
  • 因為樣本是獨立同分布的,因此n個樣本的聯(lián)合概率密度函數(shù)是每個樣本分布直接相乘。如果已經(jīng)有了觀測數(shù)據(jù),帶入樣本聯(lián)合概率密度函數(shù),則變量就只剩下了模型參數(shù),求此時樣本聯(lián)合密度分布的最大值,得到的就是模型參數(shù)的極大似然估計

    其中協(xié)方差矩陣是有偏估計量

  • 似然比檢驗
    對于似然函數(shù)某個參數(shù)的假設(shè),在假設(shè)的約束下求似然函數(shù)的最大值;接著利用無約束的似然函數(shù)最大值,兩者比值就是似然比。如果似然比偏小,假設(shè)被拒絕

假設(shè)檢驗問題

  • 單總體均值檢驗
    假設(shè)一個向量,判斷均值向量是否與之相等

  • 總體協(xié)方差已知
    構(gòu)造卡方分布


  • 總體協(xié)方差未知
    構(gòu)造T^2統(tǒng)計量。

  • 兩個總體的均值比較檢驗(協(xié)方差相同)P217*
    零假設(shè):兩個總體均值向量相等

  • 總體協(xié)方差已知



  • 總體協(xié)方差未知
    根據(jù)兩種樣本一起估計協(xié)方差陣,比重按照自由度比重分配


    樣本離差陣可以直接相加,自由度為(m+n-2)

多重比較

多重比較是為了確定具體哪個分量不等。當均值的零假設(shè)被拒,接著使用多重比較。因為多重比較每一個假設(shè)都是標量假設(shè),因此統(tǒng)計量選擇的是t,考慮的分布也是t分布,而不是T^2。t分布是雙邊分布,置信水平需要除以2

proof


  • 單總體均值多重比較
  • 均值向量各元素全等;備擇假設(shè):均值向量各元素不全相等
    利用C矩陣,把下面的每一個元素減去第一個元素,將原問題轉(zhuǎn)化為假設(shè)均值向量為0
  • 均值向量每個元素都有各自的零假設(shè)


    Bonferroni不等式方法


多元線性模型

注意X是已知的常數(shù)矩陣,不是變量

  • 根據(jù)誤差矩陣分布得到觀測矩陣的分布


  • 列滿秩時參數(shù)滿足的分布


  • 假設(shè)檢驗

  • 似然函數(shù)


  • 檢驗問題1


  • 檢驗問題2


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 《R語言與統(tǒng)計分析》的讀書筆記 本書的重點內(nèi)容及感悟: 第三章 概率與分布 1、隨機抽樣 通過sample()來實...
    格式化_001閱讀 6,740評論 1 12
  • 轉(zhuǎn)自:主成分分析 - xiaoyu714543065的專欄 - 博客頻道 - CSDN.NET 問題...
    horu閱讀 1,245評論 1 3
  • 考試說明 注重基礎(chǔ)知識和概念的理解,因此解題中的計算過程不會很復(fù)雜,但是會有推公式的過程。本課程的重點知識包括:貝...
    藝術(shù)叔閱讀 2,912評論 0 3
  • DFS思想解決,利用]分割,傳遞i值比較巧妙得判斷了每個重復(fù)字符串的結(jié)束位置。
    wshxj123閱讀 289評論 0 0
  • 今天早上起來拉肚子了,不知道是哪個原因,是因為昨晚晚飯在食堂吃的烤鴨肉,還是今天早上起來喝的山楂枸杞泡水,不知道
    小健lalala閱讀 195評論 0 0