大師兄的應用回歸分析學習筆記(十七):多重共線性的情形及其處理(二)
大師兄的應用回歸分析學習筆記(十九):嶺回歸(一)
四、消除多重共線性的方法
1. 剔除一些不重要的解釋變量
- 通常在經濟問題的建模中,由于認知水平的局限,容易考慮過多的自變量。
- 當涉及的自變量較多時,大多數回歸方程都受到多重共線性的影響。
- 這時最常用的辦法是:
- 首先做自變量的選元,舍去一些自變量。
- 當回歸方程中的全部自變量都通過顯著性檢驗后,若回歸方程中仍然存在嚴重的多重共線性,有幾個變量的方差擴大因子大于10,我們可把方差擴大因子最大者所應對的自變量首先剔除,再重新建立回歸方程。
- 如果仍然存在嚴重的多重共線性,則再繼續剔除方差擴大因子最大者所對應的自變量,直到回歸方程中不再存在嚴重的多重共線性為止。
- 有時根據所研究的問題的需要,也可以首先剔除方差擴大因子最大者所對應的自變量,依次剔除,直到消除了多重共線性為止,然后再做自變量的選元。
- 或者根據所研究問題的經濟意義,決定保留或剔除某自變量。
- 總之,在選擇回歸模型時,可以將回歸系數的顯著性檢驗、方差擴大因子VIF的數值以及自變量的經濟含義結合起來考慮,以引進或剔除變量。
2. 增大樣本量
- 建立一個實際經濟問題的回歸模型,如果所收集的樣本數據太少,也容易產生多重共線性。
- 譬如,我們的問題涉及兩個自變量
,假設
都已經中心化。
- 由式:
,
為
和
的相關系數,
![]()
- 可以看出,若樣本量n增大,
和
都會增大,兩個回歸系數估計值的方差均可減少,從而減輕多重共線性對回歸方程的影響。
- 在實踐中,當所選的變量個數接近樣本量n時,自變量間容易產生共線性,所以要盡可能使樣本量n遠大于自變量個數p。
- 增大樣本量的方法在有些經濟問題中是不現實的,因為在經濟問題中,許多自變量是不受控制的,或由于種種原因不可能在得到一些新的樣本數據。
- 在有些情況下,雖然可以增加一些樣本數據,但當自變量個數較多時,我們往往難以確定增加什么樣的數據才能克服多重共線性。
- 有時,增加了樣本數據,但可能新數據距離原樣本數據的平均值較大,會產生一些新的問題,使模型擬合變差,沒有收到增加樣本數據期望的效果。
3. 回歸系數的有偏估計
- 消除多重共線性對回歸模型的影響是近幾十年來統計學家關注的熱點課題之一。
- 除了以上方法,統計學家還致力于改進古典的最小二乘法,提出以采用有偏估計為代價來提高估計量穩定性的方法,如嶺回歸法、主成份法、偏最小二乘法等。