山中何事?
松花釀酒,
春水煎茶。
面對(duì)日益復(fù)雜的數(shù)據(jù),線性模型正處于一個(gè)蹙迫的境地,如大量的離散型隨機(jī)變量的響應(yīng)變量問題——大量的計(jì)數(shù)資料類型、重復(fù)測(cè)量資料的數(shù)據(jù)處理。面對(duì)這些離散型、非獨(dú)立的數(shù)據(jù),我們既無法直接采用限于連續(xù)型數(shù)據(jù)的線性混合模型,又不能直接運(yùn)用基于獨(dú)立性假定的廣義線性模型,而這些實(shí)際需求催生了廣義線性混合模型(generalized linear mixed models, GLMMs)。
目前GLMMs尚未普及運(yùn)用,報(bào)道相關(guān)文獻(xiàn)較為艱澀難懂,結(jié)合筆者目前工作內(nèi)容,總結(jié)摸索如下。
廣義
離散分布:二點(diǎn)分布、二項(xiàng)分布、Poisson分布、負(fù)二項(xiàng)分布
連續(xù)分布:正態(tài)分布、Beta分布、Gamma分布、卡方分布
混合效應(yīng)
該模型基本形式: y = Xβ + Zu + ε
y 是因變量的觀測(cè)變量,X 是協(xié)變量的設(shè)計(jì)矩陣(已知),β是未知回歸系數(shù)向量(非隨機(jī)),為固定效應(yīng)。Z 是已知矩陣,u 是隨機(jī)效應(yīng)向量,ε 是隨機(jī)誤差向量,u 與 ε 相互獨(dú)立,無法觀測(cè)。
不失一般性,總假定 u 和 ε 的期望均為 0,事實(shí)上,若即 μ = E(u),注意到 ZU= Zμ + Z(U - μ),故可將 u 中心化,而將其期望歸并到固定效應(yīng)部分。
該模型最大的優(yōu)勢(shì)在于可將某些分組變量作為隨機(jī)效應(yīng)進(jìn)行模型擬合。將全部分組因素作為固定效應(yīng)進(jìn)行模型擬合是,可能造成模型的過離散(類似于廣義線性模型),而將部分固定效應(yīng)提取出來作為隨機(jī)效應(yīng)再進(jìn)行擬合,往往可以消除過離散,從而得到更加準(zhǔn)確的參數(shù)估計(jì)。需要注意的是,固定效應(yīng)和隨機(jī)效應(yīng)并不是隨意界定的,要根據(jù)試驗(yàn)設(shè)計(jì)的具體內(nèi)容,有理有據(jù)地進(jìn)行效應(yīng)分類。
在運(yùn)用上,GLMMs可通過SPSS、R以及SAS中的GLIMMIX過程實(shí)現(xiàn)。SPSS中的GLIMMIX過程人機(jī)交互界面十分友好,但時(shí)長(zhǎng)面臨卡死的風(fēng)險(xiǎn),且運(yùn)算時(shí)間過長(zhǎng),不太適合較大量較復(fù)雜數(shù)據(jù)的處理,筆者嘗試采用的是SAS中的“The Glimmix”過程實(shí)現(xiàn)建模。
SAS中的實(shí)現(xiàn)
打開數(shù)據(jù)
proc import datafile = "F:\Toxicology Institute\MARCHS\XXX.sav" out= work1;
run;
相應(yīng)變量分布檢驗(yàn)
proc univariate data=work1;
var y;
histogram y / gamma;
run;
GLMMs 中離散變量可為binomial、binary、Poisson、negative binomial 分布,連續(xù)變量可為Gaussian、beta、gamma分布(卡方分布為gamma分布的一個(gè)特例)。連續(xù)變量默認(rèn)Gaussian分布,離散變量默認(rèn)為binary分布,連接函數(shù)默認(rèn)為logit。
The Glimmix 過程
離散變量
proc glimmix data=work1;
t = year-2012;
class year smoking(ref=first) friedfood(ref=first) bakedfood(ref=first) alcoholgroup(ref=first) greentea(ref=first) cola(ref=first) coffee(ref=first) milktea(ref=first);
model y=year age abs bmi smoking friedfood bakedfood alcoholgroup cola coffee milktea greentea /s dist=binary cl ddfm=kr;
random intercept t / subject=ID;
run;
該數(shù)據(jù)來自一個(gè),自2013年起隨訪三年的,隊(duì)列研究,我們認(rèn)為存在的隨機(jī)效應(yīng)來自重復(fù)測(cè)量 t 與個(gè)體差異 ID。值得注意的是,在不存在隨機(jī)效應(yīng)時(shí),可采用廣義線性模型(GLM)擬合,如過隨機(jī)效應(yīng)僅來自重復(fù)測(cè)量,亦可采用廣義線性模型(GLM),即采用SAS中的 The Glm 過程(利用 repeat 語句)。
上述語句中,值得注意的,“class”標(biāo)注的為分組變量,“model”中的均為考慮到的固定效應(yīng),“dist”為分布,“cl”為顯示固定效應(yīng)的解,“ddfm”為自由度計(jì)算方法,“random”中為截距、重復(fù)測(cè)量 t 以及個(gè)體差異 ID。
模型的擬合統(tǒng)計(jì)量一般用 “廣義卡方/自由度”與“1”的比較。
還是須尊崇多變量分析的逐步納入,向后消去等等納入排除變量標(biāo)準(zhǔn),調(diào)整模型中的變量,注意樣本量少是變量數(shù)的十倍。
至此,對(duì)GLMMs模型有了一個(gè)初步了解,在隨機(jī)效應(yīng)的設(shè)計(jì)上與建模的選項(xiàng)上尚有空間。不能忘記的是,建模結(jié)果的生物學(xué)意義。人群資料研究的論證強(qiáng)度還是基于科學(xué)的生物學(xué)解釋的。
參考文獻(xiàn)
· SAS/STAT 14.1 User's Guide
· 《SAS語言基礎(chǔ)于高級(jí)編程技術(shù)》
· 《線性和廣義線性混合模型及其統(tǒng)計(jì)診斷》
· 《發(fā)現(xiàn)數(shù)據(jù)之美》