本文旨在將一些線性模型統(tǒng)一放在廣義線性模型的體系下,從而更好的理解這些模型之間的聯(lián)系和區(qū)別,屬于總結(jié)和復(fù)習(xí),最好對(duì)線性回歸、邏輯回歸稍微有所了解,不過(guò)后面幾篇也是會(huì)復(fù)習(xí)到這些內(nèi)容的。
1 概念理解
什么是廣義線性模型?如果用大白話來(lái)翻譯的話,就是:適用性更廣的、更抽象的線性模型。我們可能平時(shí)使用的更多的是像線性回歸、邏輯回歸之類的比較具體的線性模型,他們會(huì)有各自獨(dú)特的假設(shè)和適用場(chǎng)景,而廣義線性模型的廣義就體現(xiàn)在他的假設(shè)和適用場(chǎng)景范圍更大,能把線性回歸、邏輯回歸之類的模型都囊括其中。
其實(shí)按我們編程的思路來(lái)想,廣義線性模型GLM就像是抽象出來(lái)的一個(gè)抽象類,這個(gè)類定義了抽象的假設(shè)方法、屬性等,在面對(duì)具體問(wèn)題時(shí),我們不能用這個(gè)抽象類來(lái)直接解決問(wèn)題的,需要針對(duì)場(chǎng)景來(lái)實(shí)現(xiàn)一個(gè)可實(shí)例化的類,比如面對(duì)二分類問(wèn)題我們繼承GLM類,實(shí)現(xiàn)一個(gè)邏輯回歸類,用邏輯回歸來(lái)解決具體問(wèn)題。廣義線性模型GLM并不是這個(gè)類的源頭,再向上還可以抽象出廣義線性混合模型GLMM類,再向上抽象還有投影尋蹤回歸PPR類...估計(jì)這個(gè)分支抽象到最后就成了“模型”類。(當(dāng)然,比如線性回歸也并不是說(shuō)只能抽象成GLM,也可能抽象成廣義相加模型(GAM),這些方法本文不做詳述)
本文中我們不會(huì)涉及太高層的抽象類,只稍微提一下廣義線性混合模型GLMM,然后主要還是說(shuō)回廣義線性模型GLM,畢竟既然要說(shuō)GLM,還是得提一嘴他的其中一個(gè)爸爸的(畢竟除了GLMM也可能抽象出別的爸爸)。
廣義線性混合模型GLMM(Generalized Linear Mixed Model),是廣義線性模型GLM 和線性混淆模型LMM 的擴(kuò)展形式,兼具了二者的特點(diǎn),他的因變量不再要求滿足正態(tài)分布(來(lái)自GLM),他的自變量可以同時(shí)包含固定效應(yīng)和隨機(jī)效應(yīng)(來(lái)自LMM),很是強(qiáng)大,不過(guò)說(shuō)實(shí)在的不怎么常用,可能醫(yī)學(xué)生物學(xué)用的更多一些吧,就不詳述了。GLM的適用范圍要小于GLMM,因?yàn)樗淖宰兞恐挥泄潭ㄐ?yīng),所以是沒(méi)法很好的處理縱向數(shù)據(jù)的,因此對(duì)GLM適用的數(shù)據(jù)一般有幾點(diǎn)基本要求:
- 數(shù)據(jù)是線性的:這個(gè)不用說(shuō),畢竟是線性模型;
- 方差齊性:其實(shí)也就是說(shuō)你的數(shù)據(jù)要基本上是同一個(gè)分布的,這也沒(méi)啥說(shuō)的;
- 不能有共線性,數(shù)據(jù)要獨(dú)立:因?yàn)镚LM自變量只有固定效應(yīng),處理不了非獨(dú)立數(shù)據(jù);
2 GLM理解
2.1 GLM的假設(shè)
要理解GLM,需要我們站在概率論的視角下來(lái)看待回歸問(wèn)題?;貧w的目的是通過(guò)給定的自變量,使用參數(shù)
所定義的模型計(jì)算出
,其本質(zhì)是一個(gè)數(shù)理統(tǒng)計(jì)問(wèn)題,不要把
和
看做兩個(gè)數(shù)字,而把他們視為兩個(gè)隨機(jī)變量,那么回歸就是在樣本
的條件下,得到
的條件概率分布
,通過(guò)計(jì)算分布的期望
,就可以得到
的估計(jì)值。
我們注意到,上面的這段解釋中存在一些有疑問(wèn)的地方,比如:
- 只有樣本的情況下,
的條件概率分布
和期望
怎么計(jì)算呢?
- 為什么
就是
的估計(jì)值呢?
- 參數(shù)
所定義的是什么模型,
怎么求出來(lái)呢?
只有這些問(wèn)題得以解決,才能走通上面對(duì)于回歸問(wèn)題的解釋,怎么回答這些問(wèn)題呢?想想我們手里有什么信息,好吧,只有一些樣及其對(duì)應(yīng)的
,這種情況下這幾個(gè)問(wèn)題是無(wú)法回答的,于是我們需要拿出增加信息的常用手段——假設(shè)。廣義線性模型GLM就針對(duì)這些問(wèn)題做出了以下三點(diǎn)假設(shè):
- 定義 y 的估值概率分布屬于某種指數(shù)分布族,
,其包含多種分布,即是“廣義”之所在:
其中是分布的自然參數(shù),
是充分統(tǒng)計(jì)量(sufficient statistic, 能為相應(yīng)分布提供足夠信息的統(tǒng)計(jì)量),一般情況下
;
是對(duì)數(shù)分配函數(shù)(log partition function),而
、
與
一般都是給定的,隨著
的變化,會(huì)得到不同的分布。知道了分布的形式,第一個(gè)問(wèn)題也就解決了,使用期望的計(jì)算公式,根據(jù)分布求期望唄;
定義
的估計(jì)值
,即
的估計(jì)值就是
的期望值,所以這個(gè)假設(shè)解決了我們的第二個(gè)問(wèn)題;
定義線性預(yù)測(cè)算子,即廣義線性模型中的線性因素,對(duì)
相關(guān)的指數(shù)分布族的自然參數(shù)
:
,當(dāng)
是向量時(shí),有
,這個(gè)假設(shè)告訴了我們參數(shù)
所定義的是什么模型,至于
怎么求解——又有分布又有樣本,極大似然估計(jì)是不是很合適?具體求解我們?cè)诤竺娴木唧w模型中再細(xì)說(shuō)。
這這些假設(shè)條件下,我們對(duì)不同數(shù)據(jù) 得到的其實(shí)是不同的響應(yīng)變量
的分布(因?yàn)殡m然
沒(méi)變,但分布
的參數(shù)
發(fā)生了改變),不同分布的期望不同,即得到不同的估計(jì)值。這就是GLM的基本邏輯,下面我們來(lái)了解一下GLM的結(jié)構(gòu)。
2.2 GLM的結(jié)構(gòu)及推導(dǎo)
廣義線性模型GLM包含3個(gè)部分: Random Component(隨機(jī)成分)、System Component(系統(tǒng)成分) 和 Link Function(聯(lián)結(jié)函數(shù)),這也是回歸問(wèn)題中普遍都要有的三個(gè)部分。
System Component(系統(tǒng)成分)
系統(tǒng)成分是給定的回歸中,用來(lái)解釋研究現(xiàn)象的部分,好像很抽象,我理解的就是System Component描述了這個(gè)問(wèn)題的形態(tài),比如在GLM中,系統(tǒng)成分是linear predictor(線性預(yù)測(cè)算子),這里對(duì)應(yīng)著我們上面的第三點(diǎn)假設(shè) :。
Random Component(隨機(jī)成分)
隨機(jī)成分則是用來(lái)定義待預(yù)測(cè)的未知的形態(tài),即響應(yīng)變量的形態(tài)。在GLM中,就是指數(shù)分布族模型,對(duì)應(yīng)著我們上面假設(shè)中的第一點(diǎn):。
指數(shù)族分布的例子:
Link Function(聯(lián)結(jié)函數(shù))
聯(lián)結(jié)函數(shù),顧名思義,它描述了隨機(jī)成分與系統(tǒng)成分之間的關(guān)系,在GLM中,聯(lián)結(jié)函數(shù)連接了響應(yīng)變量的期望(也就是我們的預(yù)測(cè)目標(biāo))與linear predictor,那他是怎么連接的呢?怎么理解這個(gè)事呢?下面我們來(lái)推導(dǎo)一下:
根據(jù)假設(shè)已知:
所以:
極大似然估計(jì)求參數(shù):
所以:
因?yàn)槲覀兗僭O(shè)線性預(yù)測(cè)算子,所以:
因此可以說(shuō):聯(lián)結(jié)函數(shù)連接了響應(yīng)變量的期望(也就是我們的預(yù)測(cè)目標(biāo))與linear predictor。實(shí)際上, link function 把原始的值域(預(yù)測(cè)目標(biāo))轉(zhuǎn)換統(tǒng)一到了 linear predictor 的值域上,反之,link function 的反函數(shù)就把 linear predictor 直接映射到了預(yù)測(cè)目標(biāo)
, 反函數(shù)
稱為響應(yīng)函數(shù)(response function),較常用的響應(yīng)函數(shù)例如logistic(sigmoid)、softmax(都是 logit 的反函數(shù))。
舉例
- 比如在線性回歸中,
,響應(yīng)變量服從正態(tài)分布,按照指數(shù)分布族來(lái)表示:
其中,,可知線性回歸的聯(lián)結(jié)函數(shù):
,相當(dāng)于沒(méi)有對(duì)linear predictor 的值域做轉(zhuǎn)換。
- 而在邏輯回歸中,
,響應(yīng)變量服從二項(xiàng)分布,按照指數(shù)分布族來(lái)表示:
其中
所以,聯(lián)結(jié)函數(shù):
可知邏輯回歸的聯(lián)結(jié)函數(shù):,即logit函數(shù),logit函數(shù)能把自變量從(0,1)連續(xù)單調(diào)地映射到正負(fù)無(wú)窮,相當(dāng)于對(duì)linear predictor 的值域
做了映射到
的轉(zhuǎn)換,其響應(yīng)函數(shù)
,即logistic 或 sigmoid函數(shù)。
總結(jié)
通過(guò)以上的推導(dǎo)我們發(fā)現(xiàn):一旦給定待估計(jì)的 的概率分布的指數(shù)分布族形式(也就是給定了具體的
),那么我們就可以直接套用公式
構(gòu)建回歸模型,這可能也是GLM假設(shè)了指數(shù)分布族這么一個(gè)奇怪的分布形式的原因吧。
以上就是廣義線性模型的基本內(nèi)容,根據(jù)這些假設(shè)和結(jié)構(gòu),我們就可以構(gòu)造出常用的線性回歸、邏輯回歸之類的算法了,下一篇我們就具體講一下線性回歸相關(guān)的內(nèi)容。
主要參考
斯坦福CS229機(jī)器學(xué)習(xí)課程
GLM(廣義線性模型) 與 LR(邏輯回歸) 詳解
廣義線性模型中, 聯(lián)系函數(shù)(link function) 的作用是不是就是將不是正態(tài)分布的Y轉(zhuǎn)換成正態(tài)分布?——知乎