一、一元回歸模型
- 一元線性回歸是描述兩個變量之間統(tǒng)計關系最簡單的回歸模型。
1. 模型的實際背景
- 在實際問題研究中,經(jīng)常需要研究某一現(xiàn)象欲影響它的某一最主要因素的關系。
- 非確定線性關系:兩個變量之間有密切關系,但它們之間密切的程度達不到一個變量唯一確定另一個變量。
2. 數(shù)學形式
- x的變化引起y的線性變化,即
。
- 其它的一切隨機因素為
。
- y為被解釋變量(因變量)
- x為解釋變量(自變量)
和
是未知參數(shù),
為回歸常數(shù),
為回歸系數(shù)。
- 通常假定
滿足:
表示數(shù)學期望
表示方差
- 回歸方程:
,從平均意義上表達了變量y與x的統(tǒng)計規(guī)律性。
- 回歸分析的主要任務就是通過n組樣本觀測值
對
,
進行估計,一般用
,
表示估計值。
- 一元線性經(jīng)驗回歸方程:
表示經(jīng)驗回歸直線在縱軸上的截距,如果
只是作為回歸方程中的分開項,沒有具體意義。
表示經(jīng)驗回歸直線的斜率,在實際應用中表示自變量x每增加一個單位時,因變量y的平均增加數(shù)量。
- 實際中,為了方便對參數(shù)做區(qū)間估計和假設檢驗,假定誤差項
服從正態(tài)分布,即
。
二、參數(shù)
的估計
1. 普通最小二乘估計
- 為了由樣本數(shù)據(jù)得到回歸參數(shù)
和
的理想估計值,通常使用普通最小二乘估計(ordinary least estimation, OLSE)。
- 最小二乘法就是尋找參數(shù)
的估計值
。
- 對每一個樣本觀測值
,最小二乘法考慮觀測值
,與其回歸值
的離差越小越好。
- 離差平方和達到極小,滿足:
- 求出的
稱為回歸參數(shù)
的最小二乘估計。
為
的回歸擬合值。
為
的殘差。
- 從幾何關系上看,用一段線性回歸方程擬合n個樣本觀測點,要求回歸直線
位于這n個樣本點中間,或者說n個樣本點最靠近這條回歸直線。
- 殘差平方和
從整體上刻畫了n個樣本觀測點到回歸直線
距離的長短。
- 從物理學角度看,回歸直線通過樣本的重心。
- 為了確定回歸直線就是使它與所有樣本數(shù)據(jù)點都比較靠近,為了刻畫這種靠近程度,人們曾設想用絕對殘差和,即
來度量觀測值與回歸直線的接近程度,但是絕對殘差在數(shù)學處理上比較麻煩,所以在經(jīng)典的回歸分析中,都用殘差平方和方式來描述因變量觀測值與回歸直線的偏離程度。
2. 最大似然估計
- 最大似然估計(maximum likelihood estimation, MLE)是利用總體的分布密度或概率分布的表達式及樣本所提供的信息求未知參數(shù)估計量的一種方法,也可以作為回歸參數(shù)的估計方法。
- 比如已知事件A發(fā)生的概率p只可能是0.01或0.1,若在一次實驗中時間A發(fā)生了,自然應當認為事件A發(fā)生的概率p是0.1,而不是0.01。把這種考慮問題的方法一般化,就得到最大似然準則。
- 對連續(xù)型隨機變量,似然函數(shù)就是樣本的聯(lián)合分布密度函數(shù);對離散型隨機變量,似然函數(shù)就是樣本的聯(lián)合概率函數(shù)。
- 一元線性回歸模型參數(shù)的最大似然估計,如果已經(jīng)得到樣本觀測值
,其中
為非隨機變量,
為隨機樣本,假設
時,
服從正態(tài)分布
![]()
的分部密度為
![]()
似然函數(shù)為:
![]()
的有偏估計值:
![]()
的無偏估計值:
![]()
三、 最小二乘估計的性質
1. 線性
- 線性指的是估計量
為隨機變量y的線性函數(shù)。
- 因為
為隨機變量,所以作為
的線性組合
也是隨機變量,各有其概率分布、均值、方差、標準差及兩者的協(xié)方差。
2. 無偏性
- 無偏估計的意義是,如果屢次變更數(shù)據(jù),反復求
的估計值,則這兩個估計量沒有高估或低估的系統(tǒng)趨向,他們的平均值將趨于
。
- 這表明回歸值
是E(y)的無偏估計,也說明
與真實值y的平均值是相同的。
3.
的方差
- 一個估計量是無偏的,只揭示了估計量優(yōu)良性的一個方面,通常還應關心估計量本身的波動狀況,所以需要進一步研究它的方差。
反映了
的波動,即差異度。
-
不僅與隨機誤差的方差
有關,而且與自變量x的取值離散程度有關。如果x的取值比較分散,即x的波動較大,則
的波動就小,比較穩(wěn)定。
- 可見回歸常數(shù)
的方差不僅與隨機誤差的方差
和自變量x的取值離散程度有關,而且同樣本數(shù)據(jù)的個數(shù)n有關。
- n越大
越小
- 所以要使
的估計值
更穩(wěn)定,在收集數(shù)據(jù)時,就應該考慮x的取值盡可能分散一些,樣本量也應該盡可能大一些。
- 由于
服從正態(tài)分布,有
的協(xié)方差:
,說明
時,
不相關,在正態(tài)假定下獨立;在
時不獨立。
- 根據(jù)高斯-馬爾科夫條件可以證明,
分別是
的最佳線性無偏估計(beat linear unbiased estimator,BLUE),也稱為最小方差線性無偏估計。
- 對固定的
來講
也是
的線性組合,且
。
- 可見
的無偏估計
- 且
的方差隨給定的
值與
的距離
的增大而增大。
- 說明在實際應用回歸方程進行控制和預測時,給定的
值不能偏離樣本均值太多,否則無論用回歸方程做因素分析還是預測效果都不會理想。