線性混合模型基礎
線性混合模型(LMM)是遺傳評估中必用的統計模型,用以將群體中每個個體的觀測值按照潛在影響因素進行分解。決定觀測值的大小和幅度受2個參數(均值和方差)控制,反過來說也可以。一般我們更關注方差,圍繞方差的運算與處理也更為復雜,所以能夠將LMM中涉及的方差們的關系搞明白,就大體能理解這些沒什么親和力的模型們了。通常在介紹這一部分內容時,很容易讓人發蒙,因為太抽象了,全是符號,所以前提是必須對數學這門外語有一定了解,就是一門外語啊。比如告訴我一個矩陣的維度是4×5,我頭腦里有概念,這是小學的數學知識學得好,但你告訴我它的維度是n×p,我的CPU和GPU就不太夠用了,所以得像學習英語一樣,方法+重復才是硬道理。
如果知道了這些方差們的具體數值,求算各個因素的系數(我們最終要的是這個)就相對容易多了。但這些方差是怎么計算的?一般會告訴采用了什么方法(REML用的多),但這又是什么我想很多人想知道但沒人教,所以一直糊涂著,只停留在會用的地步,當然會處理數據也夠用。我很有興趣,但到今天我也不全會,也沒有能力在R
中實現,原因是沒那個功底,不會矩陣求導,盼望有一天誰來引領一下,但這不是剛需,因此參數求解就停在這里了。下面就我了解的知識對LMM做2部分的介紹,主要目的是自我梳理,學識有限,錯誤難免。
1. LMM的形式
這是基本形式,更復雜的都是在其基礎上演變出來的。
式子里一共有6個字母,4個小寫,2個大寫。小寫是向量(1維矩陣),大寫是矩陣。這幾個字母的意思分別是:
字母 | 名稱 | 維度 |
---|---|---|
y | 觀測值 | n×1 |
固定效應(p個水平) | p×1 | |
a | 隨機效應(q個水平) | q×1 |
e | 隨機殘差 | n×1 |
X | 固定效應設計矩陣 | n×p |
Z | 隨機效應設計矩陣 | n×q |
有幾個假設
意思是和
這2個向量的參數(均值和方差),均值都是0,方差分別是G和R,協方差是0(彼此獨立,沒有線性關系)。G和R具體又是什么?
,
。
是隨機效應中q個水平之間的關系矩陣(分子關系矩陣),如果水平間不相關(獨立),那么就等同于單位矩陣
。這里只假設
是1個效應,
也可以是含有多個效應的列向量;同樣,在某些情況下,也可以繼續分解R(如AR模型)。此外,觀測值的期望是
,方差(marginal)
。期望比較容易理解,方差為何是這個形式?G左右為何乘以Z?很多材料沒有給詳細的推導式子。Mrode(2014,p35[1])中:
總之,一個普通LMM中的元素就這么多,了解了這些內容,才有可能看懂后續的似然函數以及參數具體的ML或REML過程。
2. BLUP最佳線性無偏預測
BLUP是預測隨機效應的方法,對應的固定效應值的方法是BLUE【統計上,擬合模型階段叫估計,預測階段稱預測;在LMM中,則分別指固定和隨機參數的計算,目的是一樣的——求解方程組】。
BLUP是上世紀50年代由Henderson提出,按照最佳線性無偏的原則求解混合模型方程組中固定和隨機效應。混合模型方程組的形式如下:
如果我們假設殘差方差是IID(對于所有觀測值是相同和獨立的,獨立同分布),則可以將R矩陣作為因子。 在大多數應用中用下面的方程式會更方便:
于是:
其中,。
用REML等方法估計出方差,代入上面的方程組即可。
-
Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ?