Kang2010 EMMAX

Kang HM, Sul JH, Service SK, et al. Variance component model to account for sample structure in genome-wide association studies. Nature genetics, 2010, 42(4): 348–354. DOI: 10.1038/ng.548.

計(jì)算基因組預(yù)測的有效方法

摘要

盡管全基因組關(guān)聯(lián)研究(GWAS)已經(jīng)鑒定了許多與復(fù)雜性狀相關(guān)的基因座,但研究樣本中遺傳相關(guān)性的不精確建模可能導(dǎo)致測試統(tǒng)計(jì)數(shù)據(jù)的大量膨脹以及可能的虛假關(guān)聯(lián)。方差分量方法,例如有效的混合模型關(guān)聯(lián)(EMMA),可以通過明確地考慮個體之間的成對相關(guān)性來校正多種樣本結(jié)構(gòu),使用高密度標(biāo)記來模擬表型分布;但這種方法在【EMMA計(jì)算要求高】計(jì)算上是不切實(shí)際的。我們在此報(bào)告在公共可用軟件EMMA eXpedited(EMMAX)中實(shí)施的方差分量方法,該方法將用于分析大型GWAS數(shù)據(jù)集的計(jì)算時(shí)間從數(shù)年縮短至數(shù)小時(shí)。我們將此方法應(yīng)用于兩個人類GWAS數(shù)據(jù)集,對來自芬蘭北部出生隊(duì)列的10個數(shù)量性狀和來自Wellcome Trust Case Control Consortium的7種常見疾病進(jìn)行關(guān)聯(lián)分析。我們發(fā)現(xiàn)EMMAX在校正樣品結(jié)構(gòu)方面優(yōu)于主成分分析和基因組控制

GWAS可以利用病例對照組來測試與疾病或群體群組的關(guān)聯(lián)以鑒定與數(shù)量性狀的關(guān)聯(lián)。在這兩種情況下,假設(shè)群組由具有相同群體背景的無關(guān)個體組成,盡管在許多當(dāng)前GWAS中使用的群組實(shí)際上可能不適用。研究樣本中相關(guān)個體的存在導(dǎo)致樣本結(jié)構(gòu),該術(shù)語包含群體分層和隱藏的相關(guān)性群體分層是指在同一研究樣本中包含來自不同人群的個體隱藏的相關(guān)性是指研究樣本中個體之間存在未知的遺傳關(guān)系1,2。用于遺傳關(guān)聯(lián)研究的隊(duì)列中存在的樣本結(jié)構(gòu)的影響已被充分記錄,并被確定為一些虛假關(guān)聯(lián)的原因3,4。
雖然將研究樣本完全限制于無關(guān)個體可能很困難或不可能,但基因型數(shù)據(jù)提供了有關(guān)樣本結(jié)構(gòu)的有價(jià)值信息,可以為遺傳關(guān)聯(lián)分析提供信息。例如,STRUCTURE軟件5使用基因型數(shù)據(jù)將樣本分成不存在樣本結(jié)構(gòu)的子群體,隨后在所識別的子群體內(nèi)進(jìn)行關(guān)聯(lián)測試。為了消除隱藏相關(guān)性的影響,可以估計(jì)樣本中任何一對個體之間下降相同的基因(IBD)的比例,并從分析中排除那些看起來密切相關(guān)的個體1,6。然而,群體分層和隱藏的相關(guān)性只是樣本結(jié)構(gòu)的兩種極端表現(xiàn)形式,需要采用方法來糾正其他形式的樣本結(jié)構(gòu)。在廣泛采用的基因組控制方法7,8中,使用來自單標(biāo)記分析的測試統(tǒng)計(jì)分布來估計(jì)膨脹因子,隨后重新調(diào)整測試統(tǒng)計(jì)數(shù)據(jù),從而限制誤報(bào)的風(fēng)險(xiǎn)。 EIGENSTRAT軟件9,10使用主成分分析(PCA)來檢測和描述樣本結(jié)構(gòu),并已廣泛應(yīng)用于GWAS。一些主要成分可能代表給定數(shù)據(jù)集中個體之間的廣泛差異,有效地捕獲了一些主要的群體結(jié)構(gòu)軸,【PCA的局限】但目前還不清楚如何將其余主要成分解釋為樣本結(jié)構(gòu)的替代11,12。目前,關(guān)聯(lián)研究通常使用這些策略的組合,首先識別近親將其從分析中移除,然后使用主成分或空間信息校正廣泛的樣本結(jié)構(gòu),最后用基因組控制來校正殘余膨脹6,13,14。
如果我們知道群體的完整譜系,我們原則上可以應(yīng)用方差分量方法來模擬遺傳關(guān)系對表型的影響;這種方法在精神上與直接應(yīng)用于關(guān)聯(lián)映射16的經(jīng)典多基因模型15相似。方差分量將捕獲直接由家譜產(chǎn)生的種群分層和隱藏相關(guān)性的復(fù)雜混合,并在映射過程中糾正這些關(guān)系。盡管樣本中個體之間的確切遺傳關(guān)系是未知的,但我們可以利用高密度基因型信息來經(jīng)驗(yàn)地估計(jì)報(bào)告的無關(guān)個體之間的相關(guān)性水平。
我們在此報(bào)告基于線性混合模型(有時(shí)也稱為混合線性模型)校正GWAS內(nèi)的樣本結(jié)構(gòu)的方法,其具有經(jīng)驗(yàn)估計(jì)的相關(guān)性矩陣以模擬樣本受試者的表型之間的相關(guān)性。類似的方差分量方法已成功用于動物模型17?9。然而,由于在方差參數(shù)的估計(jì)中的大量計(jì)算負(fù)擔(dān),甚至應(yīng)用方差分量方法的有效實(shí)現(xiàn),例如EMMA(參考文獻(xiàn)19),對于由數(shù)千個個體組成的數(shù)據(jù)集而言在計(jì)算上是難以處理的。利用人類復(fù)雜性狀的特征,我們做了一些簡化的假設(shè),使我們能夠顯著提高計(jì)算速度,使我們的方法適用于GWASs,成千上萬的個體在數(shù)十萬個SNP中進(jìn)行分析。對于人類中的大多數(shù)遺傳關(guān)聯(lián)研究,因?yàn)槿魏谓o定基因座對性狀的影響非常小20,我們需要僅針對每個數(shù)據(jù)集估計(jì)方差參數(shù)一次,并且我們可以將它們?nèi)謶?yīng)用于每個標(biāo)記。我們的計(jì)算改進(jìn)減少了使用方差組件模型從幾年到幾小時(shí)分析典型GWAS數(shù)據(jù)集的運(yùn)行時(shí)間。方差分量方法的優(yōu)點(diǎn)是經(jīng)驗(yàn)相關(guān)性矩陣編碼廣泛的樣本結(jié)構(gòu),包括隱藏的相關(guān)性和種群分層。相反,通過估計(jì)成對遺傳相似性矩陣的主軸,主要成分是一種方法,捕獲一些(但不是全部)樣本結(jié)構(gòu),如下所示。我們使用來自1966年北芬蘭出生隊(duì)列(NFBC66)13,21和Wellcome Trust Case Control Consortium(WTCCC)6的兩個人類GWAS數(shù)據(jù)集來評估我們的方法。 NFBC66基于一個創(chuàng)始人群體,預(yù)計(jì)將最大限度地減少遺傳異質(zhì)性,增加繪制感興趣性狀基因的機(jī)會22。這是評估我們方法的理想樣本,因?yàn)樵摂?shù)據(jù)集的詳細(xì)研究23揭示了可能影響遺傳關(guān)聯(lián)研究結(jié)果的大量種群結(jié)構(gòu)的存在。此外,我們將我們的方法應(yīng)用于WTCCC6進(jìn)行的七種常見復(fù)雜疾病的病例對照研究。在這兩個數(shù)據(jù)集中,我們的方法始終優(yōu)于基因組控制和主成分分析。我們稱之為EMMA eXpedited(EMMAX)方法,因?yàn)樗⒃谙惹暗姆椒‥MMA(參考文獻(xiàn)19)之上,并顯著降低了計(jì)算成本。

方法

方差分量模型

我們在這里考慮最簡單的Fisher's15多基因模型。 讓Z_{i,j}成為因子j對個體i的貢獻(xiàn); 那么我們假設(shè)表型y_i可以建模為
y_i=\sum_{j=1}^{J} Z_{i,j}+\varepsilon_i \quad E(\varepsilon_i)=0 \quad Cov(\varepsilon_{i1}, \varepsilon_{i2})=0 \quad if \quad i_1 \neq i_2
其中\varepsilon_i是表示環(huán)境的隨機(jī)變量對表型的影響。 在等式(1)和整篇論文中,我們僅包括考慮遺傳因素的變量,并且所有遺傳因素都是相加的。 這純粹是簡化符號的簡便假設(shè),非遺傳因子可以建模為具有直接擴(kuò)展的附加回歸量。 可以通過在等式(1)中包括額外的相互作用項(xiàng)來合并上位基因座以模擬多種可能的相互作用類型46,47。
令向量Y = {y_1,...,y_n}包含從譜系計(jì)算的個體的表型。 假設(shè)環(huán)境成分是不相關(guān)的,Y的方差協(xié)方差結(jié)構(gòu)取決于受試者之間共享的基因數(shù)量。 在沒有顯性效應(yīng)的情況下,我們得到
Var(Y)= 2\sigma_a^2 \Phi + \sigma_e^2I

(2)
其中\Phi是譜系中每對個體之間的親緣關(guān)系系數(shù)矩陣,I是單位矩陣48。帶隨機(jī)效應(yīng)的方差分析能估計(jì)\sigma_a^2\sigma_e^2,然后可以估計(jì)遺傳力\sigma_a^2/(\sigma_a^2+\sigma_e^2)
在連鎖研究中,這種方差分解更進(jìn)一步。 通過跟蹤基因座k附近的標(biāo)記基因的傳遞,可以計(jì)算條件親屬系數(shù)(\Phi_k,從基因座k處的兩個個體采樣的兩個基因是IBD的概率)并且分解方差Var(Y)以強(qiáng)調(diào)第k個基因座的貢獻(xiàn)。
Var(Y)= 2\sigma_{ak}^2 \Phi_{ak} + 2\sigma_a^2 \Phi + \sigma_e^2I

為了研究基因座k對表型的貢獻(xiàn),檢驗(yàn)零假設(shè)\sigma_{ak}^2=0。方差參數(shù)的值可由最大似然估計(jì)得到。
在關(guān)聯(lián)研究中,使用更密集的一組基因型,我們的目標(biāo)是將表型直接與標(biāo)記基因座上的等位基因相關(guān)聯(lián); 換句話說,我們的目標(biāo)是估計(jì)固定效應(yīng)。 僅假設(shè)加性效應(yīng),方程式(1)可以轉(zhuǎn)換為以下回歸框架:
y_i=\beta_0+\sum_{i=k}^{M}\beta_k X_{ik}+\varepsilon_i
(3)
Var(\varepsilon)=\sigma_e^2IX_k是個體在基因座k \in {1,2,L,M}的次要等位基因計(jì)數(shù)(為簡單起見,我們假設(shè)所有標(biāo)記都是雙等位的)。 我們的目標(biāo)是確定M\times 1向量\beta中哪些元素與0不同。
而模型(3)基本上是多變量的,關(guān)聯(lián)研究通常通過測試每個M基因座的假設(shè)H_0: \beta_k = 0,一次一個基因座來進(jìn)行,基于模型
y_i=\beta_0+\beta_k X_{ik} + \eta_{i \bar{k}}
(4)
其中\beta_k是標(biāo)記k的效應(yīng)大小,誤差項(xiàng)\eta_{i \bar{k}}=\sum_{s\neq k}\beta_s X_{is}+\varepsilon_i。關(guān)于等式(3),等式(4)是錯誤指定的如果假定\eta_{i \bar{k}}的值是獨(dú)立同分布(i.i.d.):省略相關(guān)回歸量; 換句話說,我們忽略了性狀的多基因背景。
用于估計(jì)等式(4)中的\beta_k的適當(dāng)統(tǒng)計(jì)方法取決于樣本的性質(zhì)。 如果n個個體與已知的相關(guān)度相關(guān),則等式(4)中的\eta_{i \bar{k}}的方差協(xié)方差可以近似地表示為等式(2)。 也就是說,基因座k的基因型的影響可以被建模為主效應(yīng),而所有個體之間的關(guān)系通過隨機(jī)多基因效應(yīng)的方差分量來考慮16。該模型有時(shí)被稱為混合效應(yīng)模型的實(shí)例17。
如果n個個體不相關(guān)且基因型之間沒有依賴性,那么\eta_{i \bar{k}}值是i.i.d.,簡單的線性回歸將進(jìn)行適當(dāng)?shù)耐茢唷5牵@些條件不容易滿足。首先,由于連鎖不平衡,對應(yīng)于具有緊密基因組位置的標(biāo)記的X_k值是相關(guān)的。此外,在抽樣階段,人口背景的同質(zhì)性和相關(guān)性水平都不容易控制。如果樣本中的n個個體屬于不同的人群或者(盡管是遠(yuǎn)距離)相關(guān)的,則可以預(yù)期X的行和列之間存在實(shí)質(zhì)相關(guān)性。在從等式(4)估計(jì)\beta_k時(shí)就會轉(zhuǎn)換為偏差,而且\hat{\beta_k}的分布,是\beta_k的最佳無偏線性估計(jì),與標(biāo)準(zhǔn)線性回歸中假設(shè)的不同(即,等式(4)中的\eta_{i \bar{k}}值不是iid)。
使用密集的,基因組范圍的基因型數(shù)據(jù),有可能在缺乏系譜信息的情況下估計(jì)獨(dú)立確定的受試者之間的關(guān)系或親屬關(guān)系矩陣50?5。利用估計(jì)的親屬矩陣,原則上可以使用線性混合模型中的方差分量技術(shù)(如參考文獻(xiàn)16中所述)來分析群體樣本。如果許多SNP參與性狀,并且每個SNP對總性狀差異的貢獻(xiàn)幾乎可以忽略不計(jì),就像人類數(shù)量特征出現(xiàn)的情況那樣20,56,等式(4)中\eta_{i \bar{k}}的方差分量可以近似為\eta_{i}=\sum_{s=1}^{M}\beta_k X_{ik}+\varepsilon_i,不需要為每個SNP單獨(dú)估計(jì)。相反可以從類似等式(2)的方差分解模型估計(jì)\sigma_a^2\sigma_e^2的值將它們保持固定,用GLS過程估計(jì)等式(4)中的參數(shù)\beta_k

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,643評論 2 380

推薦閱讀更多精彩內(nèi)容