Kang HM, Sul JH, Service SK, et al. Variance component model to account for sample structure in genome-wide association studies. Nature genetics, 2010, 42(4): 348–354. DOI: 10.1038/ng.548.
計(jì)算基因組預(yù)測的有效方法
摘要
盡管全基因組關(guān)聯(lián)研究(GWAS)已經(jīng)鑒定了許多與復(fù)雜性狀相關(guān)的基因座,但研究樣本中遺傳相關(guān)性的不精確建模可能導(dǎo)致測試統(tǒng)計(jì)數(shù)據(jù)的大量膨脹以及可能的虛假關(guān)聯(lián)。方差分量方法,例如有效的混合模型關(guān)聯(lián)(EMMA),可以通過明確地考慮個體之間的成對相關(guān)性來校正多種樣本結(jié)構(gòu),使用高密度標(biāo)記來模擬表型分布;但這種方法在【EMMA計(jì)算要求高】計(jì)算上是不切實(shí)際的。我們在此報(bào)告在公共可用軟件EMMA eXpedited(EMMAX)中實(shí)施的方差分量方法,該方法將用于分析大型GWAS數(shù)據(jù)集的計(jì)算時(shí)間從數(shù)年縮短至數(shù)小時(shí)。我們將此方法應(yīng)用于兩個人類GWAS數(shù)據(jù)集,對來自芬蘭北部出生隊(duì)列的10個數(shù)量性狀和來自Wellcome Trust Case Control Consortium的7種常見疾病進(jìn)行關(guān)聯(lián)分析。我們發(fā)現(xiàn)EMMAX在校正樣品結(jié)構(gòu)方面優(yōu)于主成分分析和基因組控制。
GWAS可以利用病例對照組來測試與疾病或群體群組的關(guān)聯(lián)以鑒定與數(shù)量性狀的關(guān)聯(lián)。在這兩種情況下,假設(shè)群組由具有相同群體背景的無關(guān)個體組成,盡管在許多當(dāng)前GWAS中使用的群組實(shí)際上可能不適用。研究樣本中相關(guān)個體的存在導(dǎo)致樣本結(jié)構(gòu),該術(shù)語包含群體分層和隱藏的相關(guān)性。群體分層是指在同一研究樣本中包含來自不同人群的個體。隱藏的相關(guān)性是指研究樣本中個體之間存在未知的遺傳關(guān)系1,2。用于遺傳關(guān)聯(lián)研究的隊(duì)列中存在的樣本結(jié)構(gòu)的影響已被充分記錄,并被確定為一些虛假關(guān)聯(lián)的原因3,4。
雖然將研究樣本完全限制于無關(guān)個體可能很困難或不可能,但基因型數(shù)據(jù)提供了有關(guān)樣本結(jié)構(gòu)的有價(jià)值信息,可以為遺傳關(guān)聯(lián)分析提供信息。例如,STRUCTURE軟件5使用基因型數(shù)據(jù)將樣本分成不存在樣本結(jié)構(gòu)的子群體,隨后在所識別的子群體內(nèi)進(jìn)行關(guān)聯(lián)測試。為了消除隱藏相關(guān)性的影響,可以估計(jì)樣本中任何一對個體之間下降相同的基因(IBD)的比例,并從分析中排除那些看起來密切相關(guān)的個體1,6。然而,群體分層和隱藏的相關(guān)性只是樣本結(jié)構(gòu)的兩種極端表現(xiàn)形式,需要采用方法來糾正其他形式的樣本結(jié)構(gòu)。在廣泛采用的基因組控制方法7,8中,使用來自單標(biāo)記分析的測試統(tǒng)計(jì)分布來估計(jì)膨脹因子,隨后重新調(diào)整測試統(tǒng)計(jì)數(shù)據(jù),從而限制誤報(bào)的風(fēng)險(xiǎn)。 EIGENSTRAT軟件9,10使用主成分分析(PCA)來檢測和描述樣本結(jié)構(gòu),并已廣泛應(yīng)用于GWAS。一些主要成分可能代表給定數(shù)據(jù)集中個體之間的廣泛差異,有效地捕獲了一些主要的群體結(jié)構(gòu)軸,【PCA的局限】但目前還不清楚如何將其余主要成分解釋為樣本結(jié)構(gòu)的替代11,12。目前,關(guān)聯(lián)研究通常使用這些策略的組合,首先識別近親將其從分析中移除,然后使用主成分或空間信息校正廣泛的樣本結(jié)構(gòu),最后用基因組控制來校正殘余膨脹6,13,14。
如果我們知道群體的完整譜系,我們原則上可以應(yīng)用方差分量方法來模擬遺傳關(guān)系對表型的影響;這種方法在精神上與直接應(yīng)用于關(guān)聯(lián)映射16的經(jīng)典多基因模型15相似。方差分量將捕獲直接由家譜產(chǎn)生的種群分層和隱藏相關(guān)性的復(fù)雜混合,并在映射過程中糾正這些關(guān)系。盡管樣本中個體之間的確切遺傳關(guān)系是未知的,但我們可以利用高密度基因型信息來經(jīng)驗(yàn)地估計(jì)報(bào)告的無關(guān)個體之間的相關(guān)性水平。
我們在此報(bào)告基于線性混合模型(有時(shí)也稱為混合線性模型)校正GWAS內(nèi)的樣本結(jié)構(gòu)的方法,其具有經(jīng)驗(yàn)估計(jì)的相關(guān)性矩陣以模擬樣本受試者的表型之間的相關(guān)性。類似的方差分量方法已成功用于動物模型17?9。然而,由于在方差參數(shù)的估計(jì)中的大量計(jì)算負(fù)擔(dān),甚至應(yīng)用方差分量方法的有效實(shí)現(xiàn),例如EMMA(參考文獻(xiàn)19),對于由數(shù)千個個體組成的數(shù)據(jù)集而言在計(jì)算上是難以處理的。利用人類復(fù)雜性狀的特征,我們做了一些簡化的假設(shè),使我們能夠顯著提高計(jì)算速度,使我們的方法適用于GWASs,成千上萬的個體在數(shù)十萬個SNP中進(jìn)行分析。對于人類中的大多數(shù)遺傳關(guān)聯(lián)研究,因?yàn)槿魏谓o定基因座對性狀的影響非常小20,我們需要僅針對每個數(shù)據(jù)集估計(jì)方差參數(shù)一次,并且我們可以將它們?nèi)謶?yīng)用于每個標(biāo)記。我們的計(jì)算改進(jìn)減少了使用方差組件模型從幾年到幾小時(shí)分析典型GWAS數(shù)據(jù)集的運(yùn)行時(shí)間。方差分量方法的優(yōu)點(diǎn)是經(jīng)驗(yàn)相關(guān)性矩陣編碼廣泛的樣本結(jié)構(gòu),包括隱藏的相關(guān)性和種群分層。相反,通過估計(jì)成對遺傳相似性矩陣的主軸,主要成分是一種方法,捕獲一些(但不是全部)樣本結(jié)構(gòu),如下所示。我們使用來自1966年北芬蘭出生隊(duì)列(NFBC66)13,21和Wellcome Trust Case Control Consortium(WTCCC)6的兩個人類GWAS數(shù)據(jù)集來評估我們的方法。 NFBC66基于一個創(chuàng)始人群體,預(yù)計(jì)將最大限度地減少遺傳異質(zhì)性,增加繪制感興趣性狀基因的機(jī)會22。這是評估我們方法的理想樣本,因?yàn)樵摂?shù)據(jù)集的詳細(xì)研究23揭示了可能影響遺傳關(guān)聯(lián)研究結(jié)果的大量種群結(jié)構(gòu)的存在。此外,我們將我們的方法應(yīng)用于WTCCC6進(jìn)行的七種常見復(fù)雜疾病的病例對照研究。在這兩個數(shù)據(jù)集中,我們的方法始終優(yōu)于基因組控制和主成分分析。我們稱之為EMMA eXpedited(EMMAX)方法,因?yàn)樗⒃谙惹暗姆椒‥MMA(參考文獻(xiàn)19)之上,并顯著降低了計(jì)算成本。
方法
方差分量模型
我們在這里考慮最簡單的Fisher's15多基因模型。 讓成為因子
對個體
的貢獻(xiàn); 那么我們假設(shè)表型
可以建模為
其中是表示環(huán)境的隨機(jī)變量對表型的影響。 在等式(1)和整篇論文中,我們僅包括考慮遺傳因素的變量,并且所有遺傳因素都是相加的。 這純粹是簡化符號的簡便假設(shè),非遺傳因子可以建模為具有直接擴(kuò)展的附加回歸量。 可以通過在等式(1)中包括額外的相互作用項(xiàng)來合并上位基因座以模擬多種可能的相互作用類型46,47。
令向量包含從譜系計(jì)算的個體的表型。 假設(shè)環(huán)境成分是不相關(guān)的,
的方差協(xié)方差結(jié)構(gòu)取決于受試者之間共享的基因數(shù)量。 在沒有顯性效應(yīng)的情況下,我們得到
(2)
其中是譜系中每對個體之間的親緣關(guān)系系數(shù)矩陣,I是單位矩陣48。帶隨機(jī)效應(yīng)的方差分析能估計(jì)
和
,然后可以估計(jì)遺傳力
。
在連鎖研究中,這種方差分解更進(jìn)一步。 通過跟蹤基因座附近的標(biāo)記基因的傳遞,可以計(jì)算條件親屬系數(shù)(
,從基因座
處的兩個個體采樣的兩個基因是IBD的概率)并且分解方差
以強(qiáng)調(diào)第k個基因座的貢獻(xiàn)。
為了研究基因座對表型的貢獻(xiàn),檢驗(yàn)零假設(shè)
。方差參數(shù)的值可由最大似然估計(jì)得到。
在關(guān)聯(lián)研究中,使用更密集的一組基因型,我們的目標(biāo)是將表型直接與標(biāo)記基因座上的等位基因相關(guān)聯(lián); 換句話說,我們的目標(biāo)是估計(jì)固定效應(yīng)。 僅假設(shè)加性效應(yīng),方程式(1)可以轉(zhuǎn)換為以下回歸框架:
(3)
,
是個體在基因座
的次要等位基因計(jì)數(shù)(為簡單起見,我們假設(shè)所有標(biāo)記都是雙等位的)。 我們的目標(biāo)是確定
向量
中哪些元素與0不同。
而模型(3)基本上是多變量的,關(guān)聯(lián)研究通常通過測試每個基因座的假設(shè)
,一次一個基因座來進(jìn)行,基于模型
(4)
其中是標(biāo)記
的效應(yīng)大小,誤差項(xiàng)
。關(guān)于等式(3),等式(4)是錯誤指定的如果假定
的值是獨(dú)立同分布(i.i.d.):省略相關(guān)回歸量; 換句話說,我們忽略了性狀的多基因背景。
用于估計(jì)等式(4)中的的適當(dāng)統(tǒng)計(jì)方法取決于樣本的性質(zhì)。 如果
個個體與已知的相關(guān)度相關(guān),則等式(4)中的
的方差協(xié)方差可以近似地表示為等式(2)。 也就是說,基因座
的基因型的影響可以被建模為主效應(yīng),而所有個體之間的關(guān)系通過隨機(jī)多基因效應(yīng)的方差分量來考慮16。該模型有時(shí)被稱為混合效應(yīng)模型的實(shí)例17。
如果個個體不相關(guān)且基因型之間沒有依賴性,那么
值是i.i.d.,簡單的線性回歸將進(jìn)行適當(dāng)?shù)耐茢唷5牵@些條件不容易滿足。首先,由于連鎖不平衡,對應(yīng)于具有緊密基因組位置的標(biāo)記的
值是相關(guān)的。此外,在抽樣階段,人口背景的同質(zhì)性和相關(guān)性水平都不容易控制。如果樣本中的
個個體屬于不同的人群或者(盡管是遠(yuǎn)距離)相關(guān)的,則可以預(yù)期
的行和列之間存在實(shí)質(zhì)相關(guān)性。在從等式(4)估計(jì)
時(shí)就會轉(zhuǎn)換為偏差,而且
的分布,是
的最佳無偏線性估計(jì),與標(biāo)準(zhǔn)線性回歸中假設(shè)的不同(即,等式(4)中的
值不是iid)。
使用密集的,基因組范圍的基因型數(shù)據(jù),有可能在缺乏系譜信息的情況下估計(jì)獨(dú)立確定的受試者之間的關(guān)系或親屬關(guān)系矩陣50?5。利用估計(jì)的親屬矩陣,原則上可以使用線性混合模型中的方差分量技術(shù)(如參考文獻(xiàn)16中所述)來分析群體樣本。如果許多SNP參與性狀,并且每個SNP對總性狀差異的貢獻(xiàn)幾乎可以忽略不計(jì),就像人類數(shù)量特征出現(xiàn)的情況那樣20,56,等式(4)中的方差分量可以近似為
,不需要為每個SNP單獨(dú)估計(jì)。相反可以從類似等式(2)的方差分解模型估計(jì)
和
的值將它們保持固定,用GLS過程估計(jì)等式(4)中的參數(shù)
。