大師兄的應用回歸分析學習筆記(二):一元線性回歸(一)

一、一元回歸模型

  • 一元線性回歸是描述兩個變量之間統(tǒng)計關系最簡單的回歸模型。
1. 模型的實際背景
  • 在實際問題研究中,經(jīng)常需要研究某一現(xiàn)象欲影響它的某一最主要因素的關系。
  • 非確定線性關系:兩個變量之間有密切關系,但它們之間密切的程度達不到一個變量唯一確定另一個變量。
2. 數(shù)學形式
  • y = \beta_0 + \beta_1 x + \epsilon
  • x的變化引起y的線性變化,即\beta_0 + \beta_1 x
  • 其它的一切隨機因素為\epsilon
  • y為被解釋變量(因變量)
  • x為解釋變量(自變量)
  • \beta_0\beta_1是未知參數(shù),\beta_0為回歸常數(shù),\beta_1為回歸系數(shù)。
  • 通常假定\epsilon滿足:\begin{cases} E(\epsilon)=0 \\ var(\epsilon) = \delta^2 \end{cases}
  • E(\epsilon)表示數(shù)學期望
  • var(\epsilon)表示方差
  • 回歸方程:E(y|x) = \beta_0 + \beta_1 x,從平均意義上表達了變量y與x的統(tǒng)計規(guī)律性。
  • 回歸分析的主要任務就是通過n組樣本觀測值(x_1,y_i)(i=1,2,...,n)\beta_0,\beta_1進行估計,一般用\hat\beta_0,\hat\beta_1表示估計值。
  • 一元線性經(jīng)驗回歸方程:\hat y = \hat\beta_0 + \hat\beta_1 x
  • \hat\beta_0表示經(jīng)驗回歸直線在縱軸上的截距,如果x\neq0,\hat\beta_0只是作為回歸方程中的分開項,沒有具體意義。
  • \hat\beta_1表示經(jīng)驗回歸直線的斜率,在實際應用中表示自變量x增加一個單位時,因變量y平均增加數(shù)量
  • 實際中,為了方便對參數(shù)做區(qū)間估計假設檢驗,假定誤差項\epsilon服從正態(tài)分布,即\epsilon\sim N(0,\delta^2)

二、參數(shù)\beta_0,\beta_1的估計

1. 普通最小二乘估計
  • 為了由樣本數(shù)據(jù)得到回歸參數(shù)\beta_0\beta_1的理想估計值,通常使用普通最小二乘估計(ordinary least estimation, OLSE)
  • 最小二乘法就是尋找參數(shù)\beta_0,\beta_1的估計值\hat\beta_0,\hat\beta_1
  • 對每一個樣本觀測值(x_i,y_i),最小二乘法考慮觀測值y_i,與其回歸值E(y_i) = \beta_0 +\beta_1 x_i的離差越小越好。
  • 離差平方和達到極小,滿足:Q(\hat\beta_0,\hat\beta_1) = \sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2 = \underset{\beta_0,\beta_1}{\min}\sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2
  • 求出的\hat\beta_0,\hat\beta_1稱為回歸參數(shù)\beta_0,\beta_1最小二乘估計
  • \hat y_i = \hat\beta_0 + \hat\beta_1 x_iy_i(i=1,2,...,n)回歸擬合值
  • e_i = y_i - \hat y_iy_i (i=1,2,...,n)殘差
  • 從幾何關系上看,用一段線性回歸方程擬合n個樣本觀測點,要求回歸直線\hat y_i = \hat\beta_0 + \hat\beta_1 x_i位于這n個樣本點中間,或者說n個樣本點最靠近這條回歸直線。
  • 殘差平方和\sum^n_{i=1}e^2_i = \sum^n_{i=1}(y_i - \hat\beta_0 - \hat\beta_1 x_i)^2從整體上刻畫了n個樣本觀測點到回歸直線\hat y_i = \hat\beta_0 + \hat\beta_1 x_i距離的長短。
  • 從物理學角度看,回歸直線通過樣本的重心。
  • 為了確定回歸直線就是使它與所有樣本數(shù)據(jù)點都比較靠近,為了刻畫這種靠近程度,人們曾設想用絕對殘差和,即\sum^n_{i=1}|e_i| = \sum^n_{i=1}|y_i - \hat y_i|來度量觀測值與回歸直線的接近程度,但是絕對殘差在數(shù)學處理上比較麻煩,所以在經(jīng)典的回歸分析中,都用殘差平方和方式來描述因變量觀測值與回歸直線的偏離程度。
2. 最大似然估計
  • 最大似然估計(maximum likelihood estimation, MLE)是利用總體的分布密度或概率分布的表達式及樣本所提供的信息求未知參數(shù)估計量的一種方法,也可以作為回歸參數(shù)的估計方法。
  • 比如已知事件A發(fā)生的概率p只可能是0.01或0.1,若在一次實驗中時間A發(fā)生了,自然應當認為事件A發(fā)生的概率p是0.1,而不是0.01。把這種考慮問題的方法一般化,就得到最大似然準則。
  • 對連續(xù)型隨機變量,似然函數(shù)就是樣本的聯(lián)合分布密度函數(shù);對離散型隨機變量,似然函數(shù)就是樣本的聯(lián)合概率函數(shù)。
  • 一元線性回歸模型參數(shù)的最大似然估計,如果已經(jīng)得到樣本觀測值(x_i,y_i)(i=1,2,...,n),其中x_i為非隨機變量,y_1,y_2,...,y_n為隨機樣本,假設\epsilon \sim N(0,\delta^2)時,
  • y_i服從正態(tài)分布y_i \sim N(\beta_0 + \beta_1 x_i,\delta^2)
  • y_i的分部密度為f_i(y_i) = \frac{1}{\sqrt{2\pi\delta}}exp\{-\frac{1}{2\delta^2}[y_i - (\beta_0 + \beta_1 x_1)]^2\},i=1,2,...,n
  • y_1,y_2,...,y_n似然函數(shù)為:L(\beta_0,\beta_1,\delta^2) = \Pi^n_{i=1}f_i(y_i)= 2(\pi\delta^2)^{-\frac{\pi}{2}}exp\{-\frac{1}{2\delta^2}\sum^n_{i=1}[y_i - (\beta_0 + \beta_1 x_1)]^2\}
  • \delta^2 的有偏估計值:\hat\delta^2 = \frac{1}{n}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2
    • \delta^2 的無偏估計值:\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n-2}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2

三、 最小二乘估計的性質

1. 線性
  • 線性指的是估計量\hat\beta_0,\hat\beta_1為隨機變量y的線性函數(shù)。
  • 因為y_i為隨機變量,所以作為y_i的線性組合\hat\beta_0,\hat\beta_1也是隨機變量,各有其概率分布、均值、方差、標準差及兩者的協(xié)方差。
2. 無偏性
  • 無偏估計的意義是,如果屢次變更數(shù)據(jù),反復求\beta_0,\beta_1的估計值,則這兩個估計量沒有高估或低估的系統(tǒng)趨向,他們的平均值將趨于\beta_0,\beta_1
  • 這表明回歸值\hat y是E(y)的無偏估計,也說明\hat y與真實值y的平均值是相同的。
3. \hat\beta_0,\hat\beta_1的方差
  • 一個估計量是無偏的,只揭示了估計量優(yōu)良性的一個方面,通常還應關心估計量本身的波動狀況,所以需要進一步研究它的方差。
  • var(\hat\beta_1) = \sum^n_{i=1}[\frac{x_i-\bar x}{\sum^n_{j=1}(x_j-\bar x)^2}]^2var(y_i) = \frac{\delta^2}{\sum^n_{j=1}(x_j - \bar x)^2}
  • var(\hat\beta_1)反映了\beta_1的波動,即差異度。
  • \beta_1不僅與隨機誤差的方差delta^2有關,而且與自變量x的取值離散程度有關。如果x的取值比較分散,即x的波動較大,則\beta_1的波動就小,比較穩(wěn)定。
  • var(\hat\beta_0) = [\frac{1}{n} + \frac{(\bar x)^2}{\sum(x_i - \bar x)^2}]\delta^2
  • 可見回歸常數(shù)\beta_0的方差不僅與隨機誤差的方差\delta^2和自變量x的取值離散程度有關,而且同樣本數(shù)據(jù)的個數(shù)n有關。
  • n越大var(\hat \beta_0)越小
  • 所以要使\beta_0,\beta_1的估計值\hat\beta_0,\hat\beta_1更穩(wěn)定,在收集數(shù)據(jù)時,就應該考慮x的取值盡可能分散一些,樣本量也應該盡可能一些。
  • 由于\hat\beta_0,\hat\beta_1服從正態(tài)分布,有
  • \hat\beta_0 \sim N(\beta_0,(\frac{1}{n} +\frac{(\bar x)^2}{L_{xx}})\delta^2)
  • \hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}})
  • \hat\beta_0,\hat\beta_1的協(xié)方差:cov(\hat\beta_0,\hat\beta_1) = -\frac{\bar x}{L_{xx}}\delta^2,說明\bar x=0時,\hat\beta_0和\hat\beta_1不相關,在正態(tài)假定下獨立;在\bar x\neq 0時不獨立。
  • 根據(jù)高斯-馬爾科夫條件可以證明,\hat\beta_0和\hat\beta_1分別是\beta_0和\beta_1的最佳線性無偏估計(beat linear unbiased estimator,BLUE),也稱為最小方差線性無偏估計。
  • 對固定的x_0來講\hat y_0 = \hat\beta_0 + \hat\beta_1 x_0也是y_1,y_2,...,y_n的線性組合,且\hat y_0 \sim N(\beta_0 + \beta_1 x_0,(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{L{xx}})\delta^2)
  • 可見\bar y_0是E(y_0)的無偏估計
  • \bar y_0的方差隨給定的x_0值與\overline x的距離|x_0 - \overline x|的增大而增大。
  • 說明在實際應用回歸方程進行控制和預測時,給定的x_0值不能偏離樣本均值太多,否則無論用回歸方程做因素分析還是預測效果都不會理想。
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 大師兄的應用回歸分析學習筆記(二):一元線性回歸(一)[http://www.lxweimin.com/p/546...
    superkmi閱讀 223評論 0 2
  • 準備 ①導入文件查看默認存儲路徑,再將csv文檔存入文件夾打開:(使用逗號作為小數(shù)點、分號作為字段分隔符的地區(qū)中使...
    小新122閱讀 2,232評論 0 1
  • 一元線性回歸 昨天簡單的寫了一下回歸模型、參數(shù)假設和參數(shù)估計的辦法,今天學習參數(shù)的性質和極大似然估計。 參數(shù) β1...
    cry15閱讀 1,665評論 0 0
  • 參考書目為安德森的《商務與經(jīng)濟統(tǒng)計》,以下為個人的學習總結,如果有錯誤歡迎指正。有需要本書pdf的,鏈接在本文末尾...
    愚盆閱讀 3,164評論 0 1
  • 第5章 多元線性回歸 5.1 二元線性回歸 一元線性回歸會遺漏變量 Xi1中,i表示第i個個體,1表示是第一個解釋...
    mhhhpl閱讀 10,282評論 1 0