廣義線性模型(1)廣義線性模型

本文旨在將一些線性模型統(tǒng)一放在廣義線性模型的體系下,從而更好的理解這些模型之間的聯(lián)系和區(qū)別,屬于總結(jié)和復(fù)習(xí),最好對(duì)線性回歸、邏輯回歸稍微有所了解,不過(guò)后面幾篇也是會(huì)復(fù)習(xí)到這些內(nèi)容的。

1 概念理解

什么是廣義線性模型?如果用大白話來(lái)翻譯的話,就是:適用性更廣的、更抽象的線性模型。我們可能平時(shí)使用的更多的是像線性回歸、邏輯回歸之類的比較具體的線性模型,他們會(huì)有各自獨(dú)特的假設(shè)和適用場(chǎng)景,而廣義線性模型的廣義就體現(xiàn)在他的假設(shè)和適用場(chǎng)景范圍更大,能把線性回歸、邏輯回歸之類的模型都囊括其中。

其實(shí)按我們編程的思路來(lái)想,廣義線性模型GLM就像是抽象出來(lái)的一個(gè)抽象類,這個(gè)類定義了抽象的假設(shè)方法、屬性等,在面對(duì)具體問(wèn)題時(shí),我們不能用這個(gè)抽象類來(lái)直接解決問(wèn)題的,需要針對(duì)場(chǎng)景來(lái)實(shí)現(xiàn)一個(gè)可實(shí)例化的類,比如面對(duì)二分類問(wèn)題我們繼承GLM類,實(shí)現(xiàn)一個(gè)邏輯回歸類,用邏輯回歸來(lái)解決具體問(wèn)題。廣義線性模型GLM并不是這個(gè)類的源頭,再向上還可以抽象出廣義線性混合模型GLMM類,再向上抽象還有投影尋蹤回歸PPR類...估計(jì)這個(gè)分支抽象到最后就成了“模型”類。(當(dāng)然,比如線性回歸也并不是說(shuō)只能抽象成GLM,也可能抽象成廣義相加模型(GAM),這些方法本文不做詳述)

本文中我們不會(huì)涉及太高層的抽象類,只稍微提一下廣義線性混合模型GLMM,然后主要還是說(shuō)回廣義線性模型GLM,畢竟既然要說(shuō)GLM,還是得提一嘴他的其中一個(gè)爸爸的(畢竟除了GLMM也可能抽象出別的爸爸)。

廣義線性混合模型GLMM(Generalized Linear Mixed Model),是廣義線性模型GLM 和線性混淆模型LMM 的擴(kuò)展形式,兼具了二者的特點(diǎn),他的因變量不再要求滿足正態(tài)分布(來(lái)自GLM),他的自變量可以同時(shí)包含固定效應(yīng)和隨機(jī)效應(yīng)(來(lái)自LMM),很是強(qiáng)大,不過(guò)說(shuō)實(shí)在的不怎么常用,可能醫(yī)學(xué)生物學(xué)用的更多一些吧,就不詳述了。GLM的適用范圍要小于GLMM,因?yàn)樗淖宰兞恐挥泄潭ㄐ?yīng),所以是沒(méi)法很好的處理縱向數(shù)據(jù)的,因此對(duì)GLM適用的數(shù)據(jù)一般有幾點(diǎn)基本要求:

  • 數(shù)據(jù)是線性的:這個(gè)不用說(shuō),畢竟是線性模型;
  • 方差齊性:其實(shí)也就是說(shuō)你的數(shù)據(jù)要基本上是同一個(gè)分布的,這也沒(méi)啥說(shuō)的;
  • 不能有共線性,數(shù)據(jù)要獨(dú)立:因?yàn)镚LM自變量只有固定效應(yīng),處理不了非獨(dú)立數(shù)據(jù);

2 GLM理解

2.1 GLM的假設(shè)

要理解GLM,需要我們站在概率論的視角下來(lái)看待回歸問(wèn)題?;貧w的目的是通過(guò)給定的自變量x,使用參數(shù)\theta所定義的模型計(jì)算出y,其本質(zhì)是一個(gè)數(shù)理統(tǒng)計(jì)問(wèn)題,不要把xy看做兩個(gè)數(shù)字,而把他們視為兩個(gè)隨機(jī)變量,那么回歸就是在樣本x的條件下,得到y的條件概率分布P ( y | x; \theta),通過(guò)計(jì)算分布的期望E ( y | x; \theta ),就可以得到y的估計(jì)值。

我們注意到,上面的這段解釋中存在一些有疑問(wèn)的地方,比如:

  • 只有樣本的情況下,y的條件概率分布P ( y | x; \theta)和期望E ( y | x; \theta )怎么計(jì)算呢?
  • 為什么E ( y | x; \theta )就是y的估計(jì)值呢?
  • 參數(shù)\theta所定義的是什么模型,\theta怎么求出來(lái)呢?

只有這些問(wèn)題得以解決,才能走通上面對(duì)于回歸問(wèn)題的解釋,怎么回答這些問(wèn)題呢?想想我們手里有什么信息,好吧,只有一些樣x及其對(duì)應(yīng)的y,這種情況下這幾個(gè)問(wèn)題是無(wú)法回答的,于是我們需要拿出增加信息的常用手段——假設(shè)。廣義線性模型GLM就針對(duì)這些問(wèn)題做出了以下三點(diǎn)假設(shè):

  1. 定義 y 的估值概率分布屬于某種指數(shù)分布族,y|x,θ~ExponentialFamily(η),其包含多種分布,即是“廣義”之所在:

P ( y | x , θ ) = b ( y ) e x p ( η^T T ( y ) ? a ( η ) )

其中η是分布的自然參數(shù),T ( y )是充分統(tǒng)計(jì)量(sufficient statistic, 能為相應(yīng)分布提供足夠信息的統(tǒng)計(jì)量),一般情況下T ( y ) =ya(η)是對(duì)數(shù)分配函數(shù)(log partition function),而abT一般都是給定的,隨著η的變化,會(huì)得到不同的分布。知道了分布的形式,第一個(gè)問(wèn)題也就解決了,使用期望的計(jì)算公式,根據(jù)分布求期望唄;

  1. 定義y 的估計(jì)值 h ( x , θ ) = E ( T ( y ) | x , θ )=E ( y | x , θ ),即y的估計(jì)值就是 Pr(y|x,θ)的期望值,所以這個(gè)假設(shè)解決了我們的第二個(gè)問(wèn)題;

  2. 定義線性預(yù)測(cè)算子,即廣義線性模型中的線性因素,對(duì)y相關(guān)的指數(shù)分布族的自然參數(shù)ηη = θ^T x,當(dāng)η是向量時(shí),有η_i=θ^T_ix,這個(gè)假設(shè)告訴了我們參數(shù)\theta所定義的是什么模型,至于\theta怎么求解——又有分布又有樣本,極大似然估計(jì)是不是很合適?具體求解我們?cè)诤竺娴木唧w模型中再細(xì)說(shuō)。

這這些假設(shè)條件下,我們對(duì)不同數(shù)據(jù) x 得到的其實(shí)是不同的響應(yīng)變量y的分布(因?yàn)殡m然\theta沒(méi)變,但分布y|x,θ~ExponentialFamily(η)的參數(shù)η = θ^T x發(fā)生了改變),不同分布的期望不同,即得到不同的估計(jì)值。這就是GLM的基本邏輯,下面我們來(lái)了解一下GLM的結(jié)構(gòu)。

2.2 GLM的結(jié)構(gòu)及推導(dǎo)

廣義線性模型GLM包含3個(gè)部分: Random Component(隨機(jī)成分)、System Component(系統(tǒng)成分) 和 Link Function(聯(lián)結(jié)函數(shù)),這也是回歸問(wèn)題中普遍都要有的三個(gè)部分。

System Component(系統(tǒng)成分)

系統(tǒng)成分是給定的回歸中,用來(lái)解釋研究現(xiàn)象的部分,好像很抽象,我理解的就是System Component描述了這個(gè)問(wèn)題的形態(tài),比如在GLM中,系統(tǒng)成分是linear predictor(線性預(yù)測(cè)算子),這里對(duì)應(yīng)著我們上面的第三點(diǎn)假設(shè) :η = θ^T x。

Random Component(隨機(jī)成分)

隨機(jī)成分則是用來(lái)定義待預(yù)測(cè)的未知的形態(tài),即響應(yīng)變量的形態(tài)。在GLM中,就是指數(shù)分布族模型,對(duì)應(yīng)著我們上面假設(shè)中的第一點(diǎn):y|x,θ~ExponentialFamily(η)。

指數(shù)族分布的例子:

Link Function(聯(lián)結(jié)函數(shù))

聯(lián)結(jié)函數(shù),顧名思義,它描述了隨機(jī)成分與系統(tǒng)成分之間的關(guān)系,在GLM中,聯(lián)結(jié)函數(shù)連接了響應(yīng)變量的期望(也就是我們的預(yù)測(cè)目標(biāo))與linear predictor,那他是怎么連接的呢?怎么理解這個(gè)事呢?下面我們來(lái)推導(dǎo)一下:

根據(jù)假設(shè)已知:

P(y|x,\theta) = b(y) e^{\eta^TT(y)-a(\eta)},η = θ^T x

所以:

P(y|η) = b(y) e^{\eta^TT(y)-a(\eta)}

極大似然估計(jì)求參數(shù)η

L(y,\eta) = \log P(y|\eta) = \log(b(y) e^{\eta T(y)-a(\eta)})

L(y,\eta) = \log(b(y)) + \eta~y – a(\eta)

\frac{dL(y,\eta)}{d\eta} = y – \fracsneivi9{d\eta} a(\eta)

E(\frac{dL(y,\eta)}{d\eta}) =\int{\frac{d\log P(y|\eta)}{d\eta}P(y|\eta)dy} =\int{\frac{1}{P(y|\eta)}\frac{dP(y|\eta)}{d\eta}P(y|\eta)dy}

=\fracfwsznmd{d\eta}\int{P(y|\eta)dy}=\fraczpv1c33{d\eta}1=0

E(\frac{dL(y,\eta)}{d\eta}) =E(y – \fraccpoo6ar{d\eta} a(\eta)) = 0

所以:

E(y) = \fraczucyxo6{d\eta} a(\eta),( \frac1sofff1{d\eta} a(\eta)與y無(wú)關(guān))

E(y) =a'(\eta)

因?yàn)槲覀兗僭O(shè)線性預(yù)測(cè)算子η = θ^T x,所以:

θ^T x=η =a'^{-1}( a'(\eta))=a'^{-1}( E(y))=g( E(y))

η =θ^T x=g( \mu)

因此可以說(shuō):聯(lián)結(jié)函數(shù)連接了響應(yīng)變量的期望(也就是我們的預(yù)測(cè)目標(biāo))與linear predictor。實(shí)際上, link function 把原始y的值域(預(yù)測(cè)目標(biāo))轉(zhuǎn)換統(tǒng)一到了 linear predictor 的值域上,反之,link function 的反函數(shù)就把 linear predictor 直接映射到了預(yù)測(cè)目標(biāo) y, 反函數(shù)g^{?1}(η)=μ 稱為響應(yīng)函數(shù)(response function),較常用的響應(yīng)函數(shù)例如logistic(sigmoid)、softmax(都是 logit 的反函數(shù))。

舉例

  • 比如在線性回歸中,y|x,θ~N(\mu,\sigma^2),響應(yīng)變量服從正態(tài)分布,按照指數(shù)分布族來(lái)表示:

P(y|x,\theta) =\frac{1}{\sqrt{2\pi }\sigma } e^{\frac{(y-\mu)^2}{2\sigma^2} } =\frac{1}{\sqrt{2\pi }\sigma } exp(\frac{y^2}{2\sigma^2})exp(\frac{2\mu y-\mu^2}{2\sigma^2})

其中,η =\mu,\ a(η)=\frac{\mu^2}{\sigma^2} ,\ b(y)=\frac{1}{\sqrt{2\pi }\sigma } exp(\frac{y^2}{2\sigma^2}),可知線性回歸的聯(lián)結(jié)函數(shù):g( \mu)=\mu,相當(dāng)于沒(méi)有對(duì)linear predictor 的值域做轉(zhuǎn)換。

  • 而在邏輯回歸中,y|x,θ~Bernoulli(\phi ),響應(yīng)變量服從二項(xiàng)分布,按照指數(shù)分布族來(lái)表示:

P(y|x,\theta) =\phi^y(1-\phi)^{1-y} =exp(log(\phi^y(1-\phi)^{1-y}))= exp[(log\frac{\phi}{1-\phi})y+log(1-\phi)]

其中

a(η)=-log(1-\phi)=-log(1-\frac{1}{1+e^{-η}})=-log(\frac{e^{-η}}{1+e^{-η}})=log(1+e^{η})

所以,聯(lián)結(jié)函數(shù):

g( \mu)=g(\phi)=η=log(\frac{\phi}{1-\phi})

可知邏輯回歸的聯(lián)結(jié)函數(shù):g( \phi)=η =log(\frac{\phi}{1-\phi}),即logit函數(shù),logit函數(shù)能把自變量從(0,1)連續(xù)單調(diào)地映射到正負(fù)無(wú)窮,相當(dāng)于對(duì)linear predictor 的值域η = θ^T x做了映射到(0,1)的轉(zhuǎn)換,其響應(yīng)函數(shù)g^{-1}( η )=\phi=\frac{1}{1+e^{-η}},即logistic 或 sigmoid函數(shù)。

總結(jié)

通過(guò)以上的推導(dǎo)我們發(fā)現(xiàn):一旦給定待估計(jì)的 y的概率分布的指數(shù)分布族形式(也就是給定了具體的 a,b,T),那么我們就可以直接套用公式 h ( x , θ ) = E ( y | x , θ ) = a' ( η ) 構(gòu)建回歸模型,這可能也是GLM假設(shè)了指數(shù)分布族這么一個(gè)奇怪的分布形式的原因吧。

以上就是廣義線性模型的基本內(nèi)容,根據(jù)這些假設(shè)和結(jié)構(gòu),我們就可以構(gòu)造出常用的線性回歸、邏輯回歸之類的算法了,下一篇我們就具體講一下線性回歸相關(guān)的內(nèi)容。



主要參考

斯坦福CS229機(jī)器學(xué)習(xí)課程
GLM(廣義線性模型) 與 LR(邏輯回歸) 詳解
廣義線性模型中, 聯(lián)系函數(shù)(link function) 的作用是不是就是將不是正態(tài)分布的Y轉(zhuǎn)換成正態(tài)分布?——知乎

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。