機器學習第二周筆記 線性回歸與Logistic

重點歸納

image.png

關系

函數關系:確定性關系,y=3+10*x
相關關系:非確定性關系

相關系數

image.png

一元線性回歸模型

image.png
  • 參數

Y=α+βX+ε
截距項α
斜率β
誤差項ε
例子:商品銷量s關于電視廣告費用t的回歸方程:s=10+3.4*t(單位:萬元)

  • 如何確定參數
image.png

lm()線性模型函數

image.png
  • 求模型系數

coef(a)

(Intercept) x
-140.36436 1.15906

  • 提取模型公式

formula(a)

y ~ x

  • 計算殘差平方和(什么是殘差平方和)

deviance(a)

[1] 64.82657

  • 繪畫模型診斷圖(很強大,顯示殘差、擬合值和一些診斷情況)

plot(a)

  • 計算殘差

residuals(a)

1 2 3 4 5 6 7
-0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708
8 9 10 11 12
1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322

  • 計算方差分析表

anova(a)

  • 提取模型匯總資料

summary(a)

  • 作出預測

z=data.frame(x=185)
predict(a,z)
1
74.0618
predict(a,z,interval="prediction", level=0.95)
fit lwr upr
1 74.0618 65.9862 82.13739

內推插值不外推歸納

多元線性回歸模型

image.png
  • 參數估計
    最小二乘法:不一元回歸方程的算法相似
image.png

虛擬變量

  • 虛擬變量的定義
  • 虛擬變量的作用
  • 虛擬變量的設置
  • 虛擬變量的使用

應該選擇哪些變量?

  • RSS(殘差平方和)不R2(相關系數平方)選擇法:遍歷所有可能的組合,選出使RSS最小,R2最大的模型
  • AIC(Akaike information criterion)準則不BIC(Bayesian information criterion)準則
    AIC=n ln (RSSp/n)+2p
    n為變量總個數,p為選出的變量個數,AIC越小越好

逐步回歸
向前引入法:從一元回歸開始,逐步增加變量,使指標值達到最優為止
向后剔除法:從全變量回歸方程開始,逐步刪去某個變量,使指標值達到最優為止
逐步篩選法:綜合上述兩種方法
step()函數 forward backward both
sl=step(s,direction="forward")

回歸診斷

  • 樣本是否符合正態分布假設?

正態性檢驗:函數shapiro.test( X$X1)
P>0.05,正態性分布

  • 是否存在離群值導致模型產生較大誤差?
  • 線性模型是否合理?
  • 誤差是否滿足獨立性、等方差、正態分布等假設條件?
  • 是否存在多重共線性?

廣義線性模型

image.png
image.png

logistic回歸

image.png

非線性模型

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容