多元回歸分析中的共線性問題
原創 2015-11-13 ccccfys spss統計分析
多重共線性:回歸模型中,兩個或者兩個以上的自變量彼此相關時,稱回歸模型中存在多重共線性。
為什么多重共線性會導致一系列問題呢?試想一下,假如兩個變量完全共線性,設兩個變量為A,B.那么A=xB,x是常數。如果把這兩個變量帶入回歸方程,由于一個變量完全可以用另外一個變量乘以一個常數來表示,帶入兩個變量,就需要給他們分配系數,怎么分配呢,顯然有很多種可能,而計算機并不知道哪一種是最好的,但是在輸出結果時,它會給你一種,管它是不是你想要的呢,它只關心跑完了自己的程序。現實中的共線性問題一般不會是完全共線性,但有時候共線性問題會很嚴重,具體有相關指標,請看下面其他內容。
多重共線性導致的問題:
1)線性關系顯著(F檢驗顯著,或者回歸關系顯著),大部分回歸系數卻不顯著;
2)回歸系數的符號與理論或者預期不符合。
多重共線性的識別:
1)各自變量之間顯著相關(使用散點圖矩陣和相關系數矩陣)
2)線性關系檢驗顯著(F檢驗顯著),各自變量系數卻大多數不顯著
3)回歸系數正負號與預期相反
4)容忍度(tolerance)小于0.1或者方差擴大因子(VIF)大于10,認為存在嚴重共線性
多重共線性問題的處理
1)刪除相關性很強的兩個自變量中的一個,或者刪除多個相關性很強的自變量中的幾個變量;
2)提取主成分,將多個相關性很強的變量包含的信息濃縮到一個變量中;
什么時候可以不關心多重共線性問題呢?
1)模型不是用來解釋現實事物之間的關系,因此不用進行系數的檢驗,不用考慮多重共線性問題;
2)利用回歸方程在自變量樣本值范圍內預測因變量(注意自變量的取值只能在自變量最小值和最大值范圍內)由于是進行預測,只關心結果,不考慮過程。