線性混合模型LMM&BLUP

線性混合模型基礎

線性混合模型(LMM)是遺傳評估中必用的統計模型,用以將群體中每個個體的觀測值按照潛在影響因素進行分解。決定觀測值的大小和幅度受2個參數(均值和方差)控制,反過來說也可以。一般我們更關注方差,圍繞方差的運算與處理也更為復雜,所以能夠將LMM中涉及的方差們的關系搞明白,就大體能理解這些沒什么親和力的模型們了。通常在介紹這一部分內容時,很容易讓人發蒙,因為太抽象了,全是符號,所以前提是必須對數學這門外語有一定了解,就是一門外語啊。比如告訴我一個矩陣的維度是4×5,我頭腦里有概念,這是小學的數學知識學得好,但你告訴我它的維度是n×p,我的CPU和GPU就不太夠用了,所以得像學習英語一樣,方法+重復才是硬道理。

如果知道了這些方差們的具體數值,求算各個因素的系數(我們最終要的是這個)就相對容易多了。但這些方差是怎么計算的?一般會告訴采用了什么方法(REML用的多),但這又是什么我想很多人想知道但沒人教,所以一直糊涂著,只停留在會用的地步,當然會處理數據也夠用。我很有興趣,但到今天我也不全會,也沒有能力在R中實現,原因是沒那個功底,不會矩陣求導,盼望有一天誰來引領一下,但這不是剛需,因此參數求解就停在這里了。下面就我了解的知識對LMM做2部分的介紹,主要目的是自我梳理,學識有限,錯誤難免。

1. LMM的形式

y=X\beta+Za+e

這是基本形式,更復雜的都是在其基礎上演變出來的。

式子里一共有6個字母,4個小寫,2個大寫。小寫是向量(1維矩陣),大寫是矩陣。這幾個字母的意思分別是:

字母 名稱 維度
y 觀測值 n×1
\beta 固定效應(p個水平) p×1
a 隨機效應(q個水平) q×1
e 隨機殘差 n×1
X 固定效應設計矩陣 n×p
Z 隨機效應設計矩陣 n×q

有幾個假設

\left[\begin{array}{c} a\\e \end{array} \right] \sim N \left( \left[\begin{array}{c} 0\\0 \end{array} \right], \left[\begin{array}{c} G&0\\ 0&R\\ \end{array} \right] \right)

意思是ae這2個向量的參數(均值和方差),均值都是0,方差分別是G和R,協方差是0(彼此獨立,沒有線性關系)。G和R具體又是什么?var(a)=A_{q×q}\sigma_a^2=Gvar(e)=I_{n×n}\sigma_e^2=RA是隨機效應中q個水平之間的關系矩陣(分子關系矩陣),如果水平間不相關(獨立),那么就等同于單位矩陣I。這里只假設a是1個效應,a也可以是含有多個效應的列向量;同樣,在某些情況下,也可以繼續分解R(如AR模型)。此外,觀測值的期望是E(y)=X\beta,方差(marginal)var(y)=V=ZGZ^T+R。期望比較容易理解,方差為何是這個形式?G左右為何乘以Z?很多材料沒有給詳細的推導式子。Mrode(2014,p35[1])中:
\begin{eqnarray} var(y)&=&V=var(Za+e)\\ &=&Zvar(a)Z^T+var(e)+cov(Za,e)+cov(e,Za)\\ &=&ZGZ^T+R+Zcov(a,e)+cov(e,a)Z^T\\ &=&ZGZ^T+R \end{eqnarray}

總之,一個普通LMM中的元素就這么多,了解了這些內容,才有可能看懂后續的似然函數以及參數具體的ML或REML過程。

2. BLUP最佳線性無偏預測

BLUP是預測隨機效應的方法,對應的固定效應值的方法是BLUE【統計上,擬合模型階段叫估計,預測階段稱預測;在LMM中,則分別指固定和隨機參數的計算,目的是一樣的——求解方程組】。
BLUP是上世紀50年代由Henderson提出,按照最佳線性無偏的原則求解混合模型方程組中固定和隨機效應。混合模型方程組的形式如下:
\left[ \begin{array}{c} X'R^{-1}X & X'R^{-1}Z\\ Z'R^{-1}X & Z'R^{-1}Z+G^{-1} \end{array} \right] \left[ \begin{array}{c} \hat{b}\\ \hat{a} \end{array} \right] = \left[ \begin{array}{c} X'R^{-1}y\\ Z'R^{-1}y \end{array} \right]
如果我們假設殘差方差是IID(對于所有觀測值是相同和獨立的,獨立同分布),則可以將R矩陣作為因子。 在大多數應用中用下面的方程式會更方便:
\left[ \begin{array}{c} X'X & X'Z\\ Z'X & Z'Z+A\alpha \end{array} \right] \left[ \begin{array}{c} \hat{b}\\ \hat{u} \end{array} \right] = \left[ \begin{array}{c} X'y\\ Z'y \end{array} \right]

于是:
\left[ \begin{array}{c} \hat{b}\\ \hat{u} \end{array} \right] = \left[ \begin{array}{c} X'X & X'Z\\ Z'X & Z'Z+A\alpha \end{array} \right]^{-1}\left[ \begin{array}{c} X'y\\ Z'y \end{array} \right]
其中,\alpha= \frac{\sigma_e^2}{\sigma_a^2}
用REML等方法估計出方差,代入上面的方程組即可。


  1. Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容