大師兄的應用回歸分析學習筆記(十四):自變量選擇與逐步回歸(二)
大師兄的應用回歸分析學習筆記(十六):多重共線性的情形及其處理(一)
三、逐步回歸
- 從多元線性回歸中可以看到,并不是所有自變量都對因變量y有顯著的影響,這就存在如何挑選出對因變量有顯著影響的自變量的問題。
- 為此,人們提出了一些方法,包括:
- 前進法
- 后退法
- 逐步回歸法(最受推崇)
- 無論從回歸方程中提出某個自變量,還是增加某個自變量,都要使用偏F檢驗。
- 偏F檢驗與t檢驗等價,但統(tǒng)計意義更為明了,并且容易推廣到多個自變量的顯著性檢驗。
1. 前進法
- 前進法的思想是變量由少變多,每次增加一個,直至沒有可引入的變量為止。
- 具體做法是:
- 首先將全部m個自變量分別對因變量y建立一元線性回歸方程,并分別計算m個一元線性回歸方程的m個回歸系數(shù)的F檢驗。
- 接下來因變量y分別與
建立二院線性回歸方程,對m-1個回歸方程中的
的回歸系數(shù)進行F檢驗選擇F值最大的引入回歸方程。
- 依上述方法重復執(zhí)行,直到所有未被引入方程的自變量的F值均小于
為止,得到的回歸方程就是最終確定的方程。
- 每步檢驗中的臨界值
與自變量數(shù)目p有關,在軟件計算時,實際使用顯著性P值做檢驗。
-
以2016年31個省市自治區(qū)地區(qū)生產(chǎn)總值和固定資產(chǎn)投資數(shù)據(jù)為例:
- 用前進算法做變量選擇,取顯著性水平
![]()
- 從結果中可以看出,前進法一次引入了
,最優(yōu)回歸模型為:
- 復決定系數(shù)
- 調(diào)整后的
- 全模型復決定系數(shù)
- 全模型調(diào)整后復決定系數(shù)
2. 后退法
-
后退法與前進法相反,首先用全部m個變量建立一個回歸方程,然后在這m個變量中選擇一個最不重要的變量,將它從方程中剔除。
- 可以看出最優(yōu)子模型為模型6,回歸方程為:
![]()
- 復決定系數(shù)
![]()
- 調(diào)整的復決定系數(shù)
![]()
- 全模型復決定系數(shù)
![]()
- 前進法和后退法都有明顯的不足:
- 前進法有可能不能反映引進新自變量后的變化情況,因為某個自變量開始可能是顯著的,當引入其它自變量后就變得不顯著,但也沒有機會剔除,一旦引入就是終身制。
- 后退法的不足是,一開始把全部自變量引入回歸方程,這樣計算量很大。一旦某個自變量被剔除,就再也沒有機會進入回歸方程。
- 如果自變量
完全獨立,那么在取
時,回歸方程應該是相同的,但是實際中很難碰到自變量間真正無關的情況。
3. 逐步回歸法
- 逐步回歸法的基本思想是有進有出,具體做法是:
- 將變量一個一個地引入,
- 每引入一個自變量后,對已選入的變量要進行逐個檢驗,
- 當原引入的變量由于后面變量的引入而變得不再顯著時,要將其剔除。
- 引入一個變量或從回歸方程中提出一個變量,為逐步回歸的一步,每一步都要進行F檢驗,以確保每次引入新的變量之前回歸方程中只包括顯著的變量。
- 這個過程反復進行,直到既無顯著的自變量選入回歸方程,也無不顯著的自變量從回歸方程中剔除為止。
- 這樣就彌補了前進法和后進法各自的缺陷,保證了最后所得的回歸子集是最優(yōu)回歸子集。
- 在逐步回歸法中需要注意的問題是引入自變量和剔除自變量的顯著性水平
值是不同的,要求引入自變量的顯著性水平
小于自變量的顯著性水平
,否則可能產(chǎn)生死循環(huán)。