Chapter 9 Linear Regression
本篇是第九章,內(nèi)容是回歸分析(主要以線性回歸為主)。回歸分析是數(shù)理統(tǒng)計(jì)、數(shù)理分析中最基礎(chǔ)(也可以說是最重要)的一個(gè)分析,所以這一章內(nèi)容相對(duì)來(lái)說也較多。
1 變量間的關(guān)系
- 確定型關(guān)系vs不確定型關(guān)系
函數(shù)關(guān)系——一一對(duì)應(yīng)的確定型關(guān)系設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化, 并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)值時(shí),y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測(cè)點(diǎn)落在一條線上。
相關(guān)關(guān)系(correlation)——變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá)。一個(gè)變量的取值不能由另一個(gè)變量唯一確定。當(dāng)變量x取某個(gè)值時(shí), 變量y的取值可能有幾個(gè)。各觀測(cè)點(diǎn)分布在直線周圍。
相關(guān)關(guān)系包括了線性相關(guān)(正相關(guān)、負(fù)相關(guān))、非線性相關(guān)、完全相關(guān)(正相關(guān)、負(fù)相關(guān))、不相關(guān)。

除了如上的圖,可以看下面的鏈接——關(guān)于相同統(tǒng)計(jì)量不同數(shù)據(jù)的一篇外文。
相關(guān)系數(shù)(correlation coefficient)
- 對(duì)變量之間關(guān)系密切程度的度量(只關(guān)心密切程度,無(wú)關(guān)因果關(guān)系);
- 對(duì)兩個(gè)變量之間線性相關(guān)程度的度量稱為簡(jiǎn)單相關(guān)系數(shù);
- 若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為ρ;
- 若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為 r。
總體相關(guān)系數(shù)的計(jì)算公式:
相關(guān)系數(shù)特點(diǎn)
- 無(wú)量綱(Unitfree);
- ρ的取值范圍是 [-1,1];
- |ρ|=1,為完全相關(guān)(ρ=1為完全正相關(guān);ρ=-1為完全負(fù)相關(guān));
- ρ=0,不存在線性相關(guān)關(guān)系;
- -1≤ρ<0,為負(fù)相關(guān),0<ρ≤1,為正相關(guān);
- |ρ|越趨于1表示線性關(guān)系越密切;|ρ|越趨于0表示線性關(guān)系越不密切;
- 若X與Y相互獨(dú)立,則ρ=0,但ρ=0,X與Y不一定相互獨(dú)立;
- 若ρ= 0,且X與Y服從正態(tài)分布,則X與Y相互獨(dú)立。
樣本相關(guān)系數(shù)計(jì)算公式:
樣本相關(guān)系數(shù)特點(diǎn)
- 無(wú)量綱(Unitfree);
- r的取值范圍是 [-1,1];
- |r|=1,為完全相關(guān)(r=1為完全正相關(guān);r=-1為完全負(fù)相關(guān));
- r=0,不存在線性相關(guān)關(guān)系;
- -1≤r<0為負(fù)相關(guān),0<r≤1為正相關(guān);
- |r|越趨于1表示線性關(guān)系越密切;|r|越趨于0表示線性關(guān)系越不密切;
對(duì)變量之間關(guān)系密切程度的度量,只關(guān)心密切程度,無(wú)關(guān)因果關(guān)系。
比如撐傘的人數(shù)和降雨量的相關(guān)系數(shù)非常高。但是我們不能說因?yàn)閾蝹愕娜硕嗔耍越涤炅看蟆?/p>
r的抽樣分布
r的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化。當(dāng)樣本數(shù)據(jù)來(lái)自服從正態(tài)分布的總體時(shí),隨著n的增大,r的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)ρ很小或接近0時(shí),趨于正態(tài)分布的趨勢(shì)非常明顯。而當(dāng)ρ遠(yuǎn)離0時(shí),除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。當(dāng)ρ為較大的正值時(shí), r呈現(xiàn)左偏分布;當(dāng)ρ為較小的負(fù)值時(shí), r 呈現(xiàn)右偏分布。只有當(dāng)ρ接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量。
相關(guān)系數(shù)的顯著性檢驗(yàn)步驟
檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系,等價(jià)于對(duì)回歸系數(shù)β1的檢驗(yàn)。采用R. A. Fisher提出的t檢驗(yàn)。
檢驗(yàn)的步驟為:
2 回歸分析和簡(jiǎn)單線性回歸分析
2.1 回歸分析
什么是回歸分析(Regression)?
從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著, 哪些不顯著。利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值, 并給出這種預(yù)測(cè)或控制的精確程度。
回歸分析與相關(guān)分析的區(qū)別
相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化;
相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量;
相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制。
回歸模型(regression model)——回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)值型因變量(響應(yīng)變量)作為被預(yù)測(cè)的變量;1個(gè)或多個(gè)數(shù)值型或分類型自變量 (解釋變量)作為用于預(yù)測(cè)的變量。主要用于預(yù)測(cè)和估計(jì)。回歸模型的類型包括一元回歸模型(線性和非線性)和多元回歸模型(線性和非線性)。
接下來(lái)先從簡(jiǎn)單線性回歸分析講起。
2.2 簡(jiǎn)單線性回歸分析
簡(jiǎn)單線性回歸(Simple Linear Regression)——涉及一個(gè)自變量的回歸,因變量y與自變量x之間為線性關(guān)系。被預(yù)測(cè)或被解釋的變量稱為因變量(dependent variable),用y表示;用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independent variable),用x表示。因變量與自變量之間的關(guān)系用一個(gè)線性方程來(lái)表示。
描述因變量y如何依賴于自變量x和誤差項(xiàng)ε的方程稱為回歸模型(Regression Model,定義如前)。
(1)簡(jiǎn)單線性回歸模型的表示形式
y是x的線性函數(shù)(部分)加上誤差項(xiàng)(residual/random error term)。線性部分反映了由于x的變化而引起的y的變化。誤差項(xiàng)ε是隨機(jī)變量。反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,是不能由x和y之間的線性關(guān)系所解釋的變異性。β0和β1稱為模型的參數(shù)(interception, slope)。
(2)簡(jiǎn)單線性回歸模型的基本假定
誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的x值,y的期望值為
(3)簡(jiǎn)單線性回歸方程(regression equation)
描述y的平均值或期望值如何依賴于x的方程稱為回歸方程;簡(jiǎn)單線性回歸方程的形式如下
方程的圖示是一條直線,也稱為直線回歸方程。β0是回歸直線在y軸上的截距(interception),是當(dāng)x=0時(shí)y的期望值。β1是直線的斜率(slope),稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值。
(4)估計(jì)的回歸方程(estimated regression equation)
(5)最小二乘估計(jì)
在r語(yǔ)言中,簡(jiǎn)單線性回歸的代碼如下:
modele<-lm(e~a)
(7)回歸直線的擬合優(yōu)度
變差
因變量 y 的取值是不同的, y 取值的這種波動(dòng)稱為變差。 變差來(lái)源于兩個(gè)方面:
離差平方和的分解(三個(gè)平方和的關(guān)系與意義)
從左至右分別為SST,SSR,SSE。
所以就有SST=SSR+SSE。
總平方和(SST)——反映因變量的 n 個(gè)觀察值與其均值的總離差;
回歸平方和(SSR)——反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和;
殘差平方和(SSE)——反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和。
判定系數(shù)R2(coefficient of determination)
回歸平方和占總離差平方和的比例。
估計(jì)標(biāo)準(zhǔn)誤差(standard error of estimate)
顯著性檢驗(yàn)
- 線性關(guān)系的顯著性檢驗(yàn):檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,即檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著;
- 回歸系數(shù)的顯著性檢驗(yàn):檢驗(yàn)回歸系數(shù)是否不等于0;
- 在簡(jiǎn)單線性回歸中,線性關(guān)系的顯著性檢驗(yàn)等價(jià)于回歸系數(shù)的顯著性檢驗(yàn)。
線性關(guān)系的檢驗(yàn)
將回歸均方(MSR)同殘差均方(MSE)加以比較, 應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著。
回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p);
殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)。
回歸系數(shù)的檢驗(yàn)(檢驗(yàn)步驟)
顯著性檢驗(yàn)的幾點(diǎn)注意
顯著性關(guān)系的結(jié)論不意味著因果關(guān)系。顯著性關(guān)系的結(jié)論也不能推出線性關(guān)系的結(jié)論,僅能說在x的樣本觀測(cè)之范圍內(nèi),x和y是相關(guān)的,而且一個(gè)線性關(guān)系只揭示了y的變異的主要部分。當(dāng)樣本容量很大時(shí),對(duì)于小的b1值也能得到統(tǒng)計(jì)上是顯著的結(jié)果。
3 利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
根據(jù)自變量x的取值估計(jì)或預(yù)測(cè)因變量y的取值。
估計(jì)或預(yù)測(cè)的類型
(1)點(diǎn)估計(jì):y的平均值的點(diǎn)估計(jì),y的個(gè)別值的點(diǎn)估計(jì);
(2)區(qū)間估計(jì):y的平均值的置信區(qū)間估計(jì),y的個(gè)別值的預(yù)測(cè)區(qū)間估計(jì)。
(1)點(diǎn)估計(jì)
對(duì)于自變量x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)值^y0。
點(diǎn)估計(jì)值有y的平均值的點(diǎn)估計(jì)和y的個(gè)別值的點(diǎn)估計(jì)。在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同。
(2)區(qū)間估計(jì)
點(diǎn)估計(jì)不能給出估計(jì)的精度, 點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的, 因此需要進(jìn)行區(qū)間估計(jì)。對(duì)于自變量x的一個(gè)給定值$x_0$,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間。區(qū)間估計(jì)有兩種類型:置信區(qū)間估計(jì)(confidence interval estimate)和預(yù)測(cè)區(qū)間估計(jì)(prediction interval estimate)。
影響區(qū)間寬度的因素
其實(shí)在R語(yǔ)言里主要用predict.lm函數(shù)來(lái)進(jìn)行區(qū)間估計(jì)。代碼樣例如下:
con<-predict.lm(modele,h,interval="confidence",level=0.95)
其中interval控制是置信區(qū)間(參數(shù)填confidence)、預(yù)測(cè)區(qū)間(參數(shù)填prediction)或者是不做區(qū)間估計(jì),level是置信水平,接著用R繪制一個(gè)簡(jiǎn)單的回歸和置信區(qū)間的圖,這里先給出如何繪制置信區(qū)間band的代碼,完整代碼還是老規(guī)矩,在這一部分筆記寫完后給出。
polygon(c(h[,1], rev(h[,1])), c(con[,3], rev(con[,2])),border="red",lwd=1,lty = c("dashed", "solid"))

4 殘差分析
殘差(residual)——因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求出的預(yù)測(cè)值之差,用e表示。
反映了用估計(jì)的回歸方程去預(yù)測(cè)而引起的誤差。
殘差檢驗(yàn)的目的
- 檢驗(yàn)線性的假設(shè)是否成立;
- 確定有關(guān)誤差項(xiàng)ε的假定是否成立(正態(tài)分布;方差為常數(shù);獨(dú)立性)。
- 檢測(cè)有影響的觀測(cè)值。
殘差圖(residual plot)
- 表示殘差的圖形(關(guān)于x的殘差圖,關(guān)于y的殘差圖,標(biāo)準(zhǔn)化殘差圖)。
- 用直方圖或正態(tài)概率圖檢驗(yàn)正態(tài)性。
標(biāo)準(zhǔn)化殘差(standardized residual)
標(biāo)準(zhǔn)化殘差圖
用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立。
- 若假定成立, 標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布。
- 在標(biāo)準(zhǔn)化殘差圖中, 大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間。
變換
數(shù)據(jù)變換的問題在前面第七章擬合優(yōu)度檢驗(yàn)提過,那么什么時(shí)候做變換?
如果從散點(diǎn)圖觀察發(fā)現(xiàn)殘差是自變量的函數(shù),通過變換可能可以解決問題。
做什么變換?觀察殘差與因變量觀測(cè)值的均值的關(guān)系:
- 如果殘差的標(biāo)準(zhǔn)差與因變量觀測(cè)值的均值有線性關(guān)系,用log變換;
- 如果殘差的方差與因變量觀測(cè)值的均值有線性關(guān)系,用square root變換;
- 如果殘差的標(biāo)準(zhǔn)差與因變量觀測(cè)值的均值的平方有線性關(guān)系,用inverse變換;
- 如果殘差的標(biāo)準(zhǔn)差與因變量觀測(cè)值的均值的冪有線性關(guān)系,用power變換。
序列相關(guān)(自相關(guān))
當(dāng)數(shù)據(jù)是按時(shí)間順序采集的,有可能引起誤差項(xiàng)之間的相關(guān)(Serial correlation,autocorrelation)。
這里介紹一個(gè)相關(guān)的杜賓-瓦特森(Durbin-Watson)檢驗(yàn)統(tǒng)計(jì)量:
是否遺漏了重要的對(duì)因變量有時(shí)序影響的自變量,有時(shí)可通過引入度量觀測(cè)次數(shù)的自變量解決該問題。這部分屬于時(shí)間序列分析的范疇,這里就不進(jìn)一步闡述了。
在R語(yǔ)言中,線性回歸方程殘差圖繪制非常簡(jiǎn)單。模型擬合過程會(huì)自動(dòng)給出四個(gè)殘差可視化相關(guān)的圖。繪制方法如下:
layout(matrix(c(1,2,3,4),nrow=2,byrow=T))
plot(modele)
結(jié)果如圖

異常值(outlier)與識(shí)別
如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢(shì)不相吻合,這個(gè)點(diǎn)就有可能是異常點(diǎn)。
- 如果異常值是一個(gè)錯(cuò)誤的數(shù)據(jù), 比如記錄錯(cuò)誤造成的, 應(yīng)該修正該數(shù)據(jù), 以便改善回歸的效果;
- 如果是由于模型的假定不合理, 使得標(biāo)準(zhǔn)化殘差偏大, 應(yīng)該考慮采用其他形式的模型,比如非線性模型;
- 如果完全是由于隨機(jī)因素而造成的異常值, 則應(yīng)該保留該數(shù)據(jù)。
在處理異常值時(shí), 若一個(gè)異常值是一個(gè)有效的觀測(cè)值, 不應(yīng)輕易地將其從數(shù)據(jù)集中予以剔除。
- 異常值也可以通過標(biāo)準(zhǔn)化殘差來(lái)識(shí)別;
- 如果某一個(gè)觀測(cè)值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差較大, 就可以識(shí)別為異常值;
- 一般情況下,當(dāng)一個(gè)觀測(cè)值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差小于-2或大于+2時(shí),就可以將其視為異常值。
有影響的觀測(cè)值
如果某一個(gè)或某一些觀測(cè)值對(duì)回歸的結(jié)果有強(qiáng)烈的影響,那么該觀測(cè)值或這些觀測(cè)值就是有影響的觀測(cè)值。
一個(gè)有影響的觀測(cè)值可能是:一個(gè)異常值, 即有一個(gè)值遠(yuǎn)遠(yuǎn)偏離了散點(diǎn)圖中的趨勢(shì)線;對(duì)應(yīng)一個(gè)遠(yuǎn)離自變量平均值的觀測(cè)值;或者是這二者組合而形成的觀測(cè)值。
如果有影響的觀測(cè)值是一個(gè)錯(cuò)誤的數(shù)據(jù),比如記錄錯(cuò)誤造成的, 應(yīng)該修正該數(shù)據(jù),以便改善回歸的效果。
如果有影響的觀測(cè)值是一個(gè)有效的數(shù)據(jù)則應(yīng)該保留它, 可以幫助我們分析模型的假定是否合理。
杠桿率點(diǎn)(leverage point)
如果自變量存在一個(gè)極端值, 該觀測(cè)值則稱為高杠桿率點(diǎn)(high leverage point),在簡(jiǎn)單回歸中,第i個(gè)觀測(cè)值的杠桿率用$h_i$表示,其計(jì)算公式為:
如果一個(gè)觀測(cè)值的杠桿率hi>n/6,就可以將該觀測(cè)值識(shí)別為有高杠桿率的點(diǎn);
一個(gè)有高杠桿率的觀測(cè)值未必是一個(gè)有影響的觀測(cè)值, 它可能對(duì)回歸直線的斜率沒有什么影響。
5 多元線性回歸(multiple regression model)
多元線性回歸(multiple regression model)
多元回歸模型的基本假定
多元回歸方程(multiple regression equation)
二元回歸方程的幾何表達(dá)——回歸面。

估計(jì)的多元回歸的方程(estimated multiple regression equation)
參數(shù)的最小二乘法
多重判定系數(shù)(multiple coefficient of determination)
回歸平方和占總平方和的比例,計(jì)算公式為
因變量取值的變差中, 能被估計(jì)的多元回歸方程所解釋的比例。
修正多重判定系數(shù)(adjusted multiple coefficient of determination)
估計(jì)標(biāo)準(zhǔn)誤差s
對(duì)誤差項(xiàng)ε的標(biāo)準(zhǔn)差σ的一個(gè)估計(jì)值。衡量多元回歸方程的擬合優(yōu)度。計(jì)算公式為
線性關(guān)系檢驗(yàn)
檢驗(yàn)因變量與所有自變量之間的線性關(guān)系是否顯著,也被稱為總體的顯著性檢驗(yàn)。檢驗(yàn)方法是將回歸均方和(MSR)同離差均方和(MSE)加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著。
- 如果是顯著的, 因變量與自變量之間存在線性關(guān)系;
- 如果不顯著, 因變量與自變量之間不存在線性關(guān)系。
回歸系數(shù)的檢驗(yàn)(檢驗(yàn)步驟)
- 線性關(guān)系檢驗(yàn)通過后,對(duì)各個(gè)回歸系數(shù)進(jìn)行檢驗(yàn)。
- 對(duì)每一個(gè)自變量單獨(dú)應(yīng)用 t 檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。
回歸系數(shù)的推斷(置信區(qū)間)
回歸系數(shù)在(1-α)%置信水平下的置信區(qū)間為
回歸系數(shù)的抽樣標(biāo)準(zhǔn)差
6 多重共線性(multicollinearity)
回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)。多重共線性帶來(lái)的問題有:可能會(huì)使回歸的結(jié)果造成混亂, 甚至?xí)逊治鲆肫缤荆豢赡軐?duì)參數(shù)估計(jì)值的正負(fù)號(hào)產(chǎn)生影響, 特別是各回歸系數(shù)的正負(fù)號(hào)有可能同我們預(yù)期的正負(fù)號(hào)相反。
多重共線性的識(shí)別
- 檢測(cè)多重共線性的最簡(jiǎn)單的一種辦法是計(jì)算模型中各對(duì)自變量之間的相關(guān)系數(shù), 并對(duì)各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn);
若有一個(gè)或多個(gè)相關(guān)系數(shù)顯著, 就表示模型中所用的自變量之間相關(guān),存在著多重共線性。- 如果出現(xiàn)下列情況,暗示存在多重共線性:
模型中各對(duì)自變量之間顯著相關(guān)。
當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著。
回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反。
檢測(cè)多重共線性(Variance Inflationary Factor)
多重共線性(問題的處理)
將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,使保留的自變量盡可能不相關(guān)。
如果要在模型中保留所有的自變量,則應(yīng)避免根據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)進(jìn)行檢驗(yàn),對(duì)因變量值的推斷(估計(jì)或預(yù)測(cè))的限定在自變量樣本值的范圍內(nèi)。
7 定性自變量的回歸
虛擬變量(dummy variable)
定性自變量————只有兩個(gè)水平的定性自變量或有兩個(gè)以上水平的定性自變量。
虛擬變量——用數(shù)字代碼表示的定性自變量。
虛擬變量的取值為0,1。
虛擬變量的個(gè)數(shù)
8 非線性回歸
(1)二階回歸模型(Quadratic Regression Model)——當(dāng)散點(diǎn)圖如下所示,可考慮二次回歸模型。

二階回歸模型的顯著性檢驗(yàn)
(2)交互作用
交互作用——兩個(gè)自變量共同作用對(duì)因變量產(chǎn)生的潛在影響。
交互作用顯著性檢驗(yàn)
(3)其他非線性回歸
因變量y與x之間不是線性關(guān)系,可通過變量代換轉(zhuǎn)換成線性關(guān)系,用最小二乘法求出參數(shù)的估計(jì)值。但是并非所有的非線性模型都可以化為線性模型。
- 雙曲線

- 冪函數(shù)曲線

- 對(duì)數(shù)曲線

- 指數(shù)曲線

- S型曲線

9 建立回歸模型
得到描述因變量與一個(gè)或一個(gè)以上自變量之間關(guān)系的估計(jì)的回歸方程。目的是建立一個(gè)基于最好自變量集合的模型。找到一個(gè)適合的描述變量關(guān)系之間關(guān)系的函數(shù)。選擇模型應(yīng)包含的變量。
- 儉約的模型–用盡可能少的變量來(lái)提供足夠精度的預(yù)測(cè)。
- 將不重要的變量除去更容易對(duì)模型進(jìn)行解釋。
- 發(fā)生多重共線性的可能變小。
變量選擇Variable Selection
有些變量的作用不是很大,SSE 不會(huì)隨著變量個(gè)數(shù)的增加而增加,但MSE=SSE/(n-k-1) 有可能會(huì)隨著變量
個(gè)數(shù)的增加而增加。最小的MSE可作為最優(yōu)變量選擇的一個(gè)準(zhǔn)則,但需考慮所有子集 (2^p個(gè))。
檢驗(yàn)增加變量是否適宜的F統(tǒng)計(jì)
F越大,說明增加變量減少預(yù)測(cè)誤差的效果越顯著。
變量選擇過程
- 向前選擇(Forward Selection)
- 從沒有自變量的模型開始。
- 如果所有的F統(tǒng)計(jì)量的p-值大于預(yù)先設(shè)定的終止值,說明增加任一變量效果不顯著,停止。
- 否則,加入具有最大F統(tǒng)計(jì)量值的變量。
- 重新回歸, Go to Step 2。
- 后向消元(Backward Elimination)
- 從包含所有自變量的模型開始。
- 如果所有的F統(tǒng)計(jì)量的p-值小于預(yù)先設(shè)定的終止值,說明減少任一變量效果顯著,停止。
- 否則,刪除具有最小F統(tǒng)計(jì)量值的變量。
- 重新回歸, Go to Step 2。
- 逐步回歸(Stepwise regression procedure)
向前選擇和后向消元的結(jié)合。
1.先檢查是否有變量需從模型中刪除。
2.再檢查增加一個(gè)變量是否能改善模型。
3.重復(fù)以上過程。
注意: α進(jìn)≤α出,否則F進(jìn)<F<F出,會(huì)導(dǎo)致無(wú)限循環(huán)。- 最佳子集回歸(Best-subset approach)
對(duì)所有可能的自變量組合進(jìn)行估計(jì)。找出具有最大的修正判定系數(shù)$adj.R^2$和最小的估計(jì)誤差標(biāo)準(zhǔn)差$s_ε$。
10 回歸中的常見錯(cuò)誤
(1)沒有檢驗(yàn)線性關(guān)系假設(shè)
畫散點(diǎn)圖。
如果不是線性的,檢驗(yàn)其它非線性。
用線性關(guān)系描述非線性關(guān)系會(huì)引起誤導(dǎo)。
(2)只看結(jié)果不看圖表
要將畫散點(diǎn)圖作為回歸分析的一部分。
檢驗(yàn)回歸直線與實(shí)際觀測(cè)值間的關(guān)系。
對(duì)自動(dòng)回歸來(lái)說這一步更為重要。
(3)用回歸系數(shù)判定變量的重要性
回歸系數(shù)依賴于自變量的量綱,因此系數(shù)的大小與變量的重要性無(wú)關(guān)。
例如,將秒變?yōu)槲⒚霙]有改變?nèi)魏问聦?shí),但是變量的系數(shù)卻有所改變。
(4)沒有確定置信區(qū)間
觀察值是隨機(jī)樣本,所以回歸結(jié)果有一定隨機(jī)性。
不確定置信區(qū)間,不可能理解參數(shù)的真正含義。
(5)沒有計(jì)算判定系數(shù)
沒有$R^2$,很難確定多少變異是由回歸解釋的。
即使$R^2$看起來(lái)很好,安全起見還應(yīng)做F-test。
(6)錯(cuò)誤解釋相關(guān)系數(shù)
判定系數(shù)是R2。
相關(guān)系數(shù)是R。
R2給出變異由回歸解釋的百分比,不是R。
如:R =0.5,R2=0.25——回歸解釋了25%的變異,不是50%。
(7)使用強(qiáng)相關(guān)的自變量
模型同時(shí)包括兩強(qiáng)相關(guān)的自變量會(huì)降低回歸模型的顯著性。
要盡可能的了解自變量間的關(guān)系。
(8)用回歸模型預(yù)測(cè)觀測(cè)值范圍之外的區(qū)域
回歸是基于某一特定觀測(cè)樣本的。
在樣本觀測(cè)值范圍內(nèi)能提供較為精確的估計(jì)。
(9)觀測(cè)值取值范圍太小
回歸只有在觀測(cè)值取值范圍附近預(yù)測(cè)的結(jié)果比較好。
如果不在常用的范圍內(nèi)取值,回歸模型用處不大。
(10)包括太多的自變量
變量越多的模型不一定越好。
有可能出現(xiàn)多重共線性。
(11)認(rèn)為好的預(yù)測(cè)變量是好的控制變量
相關(guān)關(guān)系不一定因果關(guān)系:A與B相關(guān),并不意味著可以通過改變A來(lái)控制B。
(12)線性回歸結(jié)果會(huì)給人以誤導(dǎo)
為了提供一個(gè)簡(jiǎn)練的總結(jié),回歸過程中舍棄了一些信息。
有時(shí)一些重要的特征也舍棄了——看圖形表示可以告訴我們是否有問題。
11 Logistic 回歸
Logistic回歸提出的目的是為了解決二值化數(shù)據(jù)的回歸問題。那么為什么簡(jiǎn)單線性回歸模型不適合二值化數(shù)據(jù)的回歸呢?詳細(xì)原因可見如下圖。

二值化變量是“yes”或者"no"的數(shù)據(jù)。可以被編碼為1和0,也就是說不會(huì)有其他的變異數(shù)值。所以對(duì)于這種情況模型的要求是:模型的邊界為0和1,模型可以輸出的是一個(gè)在這類或者另一類的概率。我們想要的是一個(gè)實(shí)際值落入這類或者另一類的概率大小。而理想的模型是很好的估計(jì)0和1,或者換句話說,結(jié)果是0或1。所以解決方案就是Logistic回歸。

Logistic的基本形式為
典型案例:
城市增長(zhǎng)問題,城市化預(yù)測(cè)模擬,
常見的問題
- 都有一個(gè)二值化(或分類)變量:
- 都涉及到預(yù)測(cè)的思想機(jī)會(huì),概率,比例或百分比。
- 不像其他的預(yù)測(cè)情況,y值是有界的。
Logistic 回歸與簡(jiǎn)單線性回歸
logistic回歸是一種統(tǒng)計(jì)技術(shù),可以用二值化變量問題中。回歸雖有相似之處,但它不同于普通最小二乘法。識(shí)別重要和相似之處是兩種技術(shù)的區(qū)別。