重點歸納
image.png
關系
函數關系:確定性關系,y=3+10*x
相關關系:非確定性關系
相關系數
image.png
一元線性回歸模型
image.png
- 參數
Y=α+βX+ε
截距項α
斜率β
誤差項ε
例子:商品銷量s關于電視廣告費用t的回歸方程:s=10+3.4*t(單位:萬元)
- 如何確定參數
image.png
lm()線性模型函數
image.png
- 求模型系數
coef(a)
(Intercept) x
-140.36436 1.15906
- 提取模型公式
formula(a)
y ~ x
- 計算殘差平方和(什么是殘差平方和)
deviance(a)
[1] 64.82657
- 繪畫模型診斷圖(很強大,顯示殘差、擬合值和一些診斷情況)
plot(a)
- 計算殘差
residuals(a)
1 2 3 4 5 6 7
-0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708
8 9 10 11 12
1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322
- 計算方差分析表
anova(a)
- 提取模型匯總資料
summary(a)
- 作出預測
z=data.frame(x=185)
predict(a,z)
1
74.0618
predict(a,z,interval="prediction", level=0.95)
fit lwr upr
1 74.0618 65.9862 82.13739
內推插值不外推歸納
多元線性回歸模型
image.png
- 參數估計
最小二乘法:不一元回歸方程的算法相似
image.png
虛擬變量
- 虛擬變量的定義
- 虛擬變量的作用
- 虛擬變量的設置
- 虛擬變量的使用
應該選擇哪些變量?
- RSS(殘差平方和)不R2(相關系數平方)選擇法:遍歷所有可能的組合,選出使RSS最小,R2最大的模型
- AIC(Akaike information criterion)準則不BIC(Bayesian information criterion)準則
AIC=n ln (RSSp/n)+2p
n為變量總個數,p為選出的變量個數,AIC越小越好
逐步回歸
向前引入法:從一元回歸開始,逐步增加變量,使指標值達到最優為止
向后剔除法:從全變量回歸方程開始,逐步刪去某個變量,使指標值達到最優為止
逐步篩選法:綜合上述兩種方法
step()函數 forward backward both
sl=step(s,direction="forward")
回歸診斷
- 樣本是否符合正態分布假設?
正態性檢驗:函數shapiro.test( X$X1)
P>0.05,正態性分布
- 是否存在離群值導致模型產生較大誤差?
- 線性模型是否合理?
- 誤差是否滿足獨立性、等方差、正態分布等假設條件?
- 是否存在多重共線性?
廣義線性模型
image.png
image.png
logistic回歸
image.png