Wang2005 gwas理論與實踐上的一些擔心

Wang WYS, Barratt BJ, Clayton DG, Todd JA (2005) Genome-wide association studies: theoretical and practical concerns. Nat Rev Genet 6:109–118. doi: 10.1038/nrg1522

摘要|為了完全了解常見疾病基礎的等位基因變異,需要對具有和不具有疾病的許多個體進行完全的基因組測序。這在技術上仍然不可行。然而,最近已經可能通過在全基因組關聯研究中對大量常見SNP進行基因分型來進行基因組的部分調查。在這里,我們概述了需要考慮的主要因素 - 包括常見疾病的等位基因結構,樣本大小,地圖密度和樣本收集偏差的模型,以便優化識別真正的疾病易感性位點的成本效率

常見疾病的發展起因于許多環境因素和許多基因的等位基因之間的復雜相互作用。識別影響發展疾病風險的等位基因將有助于了解疾病病因和亞分類。在過去30年中,多因素人類疾病的遺傳研究已經確定了?50個基因及其等位基因變異,可以認為是不可逆的或真陽性1,2。然而,可能有數百個易感基因座增加了每種常見疾病的風險。關鍵問題是如何利用我們對基因組序列及其在群體中的變化的知識的顯著的最近的改進,以及基因分型技術的進步,以最低的成本加速易感性基因座發現。
在本期雜志的一篇附隨評論中,Hirschorn和Daly3為全基因組關聯方法提出了一個案例,“其中跨基因組的一組密集的SNP被基因分型以檢測最常見的遺傳變異在疾病中的作用或確定作為疾病風險因素的可遺傳數量性狀“。他們建議謹慎使用最新的高通量方法進行基因分型4 - 8,因為失敗的成本對于設計和執行具有低統計功效和不充分的質量控制的研究可能是巨大的。在這里,在全基因組關聯研究和最小化每個真陽性的成本的上下文中,我們更詳細地討論使用大樣本大小根據可行的最小等位基因風險的理由,檢測,單核苷酸多態性的選擇基因分型,研究設計效率和這些數據的統計分析的某些方面。我們不主張放棄對共同疾病的聯系研究9-12。我們還不能說是否LINKAGE ANALYSIS方法在一般意義上是“失敗”的,因為幾乎所有已發表的研究都使用小樣本大小13(少于500個受影響的SIB對),所以這不能單獨用作執行的理由全基因組關聯研究。基因組范圍的鏈接分析將仍然是一個重要的方法,直到技術可用,允許在實際成本和高吞吐量關聯分析罕見和共同變體。
此外,如前所述14,我們查看全基因組關聯研究本身不是一種新的方法,而是作為一種更成本有效的方式來調查共同遺傳變異相比基因功能候選基因方法。后一種方法已經成功,但是由于迄今為止僅研究了少量基因,并且如我們所討論的,樣品量可能太小,盡管進行了大量的研究和大量的努力,但很少有真正的陽性。通過利用位于鄰近基因座(鏈接區域(LD))的等位基因的非隨機關聯,這是基因組5,15-18的重要和廣泛的特征,現在可以在關聯研究中調查sig-發生在高LD區域的大量基因的共同變異的顯著比例。可以獲得成本效率,因為不必對與其他SNP處于強LD的SNP進行基因分型;這可以通過選擇捕獲區域中大多數等位基因變異的SNP的子集(稱為標簽SNP(參見在線鏈接框))來完成。將討論該策略的理由和限制,同時銘記標簽SNP在檢測稀有可疑性變體方面的不足,并且根據定義,它們在低LD區域缺乏成本節約優勢,這可能構成20%的人類基因組。除了討論這些更實際的問題,我們首先討論關于兩個尚未知的參數的理論考慮,這些參數決定了關聯研究的潛在穩定性 - 群體中易感性等位基因的頻率及其影響的大小疾病表型。

常見疾病的等位基因譜
疾病的等位基因譜或結構指存在的疾病變異的數量,它們的等位基因頻率和它們賦予的風險9,20,21。來自理論模型和實際實驗的許多來源提供了對常見疾病的等位基因結構的了解,表明涉及的基因座的多樣性及其作用范圍。不管在疾病之間不同的光譜的確切形狀如何,傾向于疾病的變體的等位基因頻率和它們的表型效應的強度表明遺傳相關性研究的潛在統計學力量,并因此表明它們成功的可能性和成本每個真陽性結果。在這里,我們首先討論這兩個因素可能對全基因組關聯研究的可行性的影響,然后提供迄今為止已知的常見疾病的等位基因譜的概述。應該注意的是,其他因素也影響統計能力 - 例如,混雜因素,如人口結構和地理,錯誤分類錯誤和選擇偏差 - 其中一些因素將在后面的章節中討論。
對關聯研究的影響。圖1顯示如果易感性等位基因具有小于0.1的小分子頻率(MAF)和它們的效應大小小于1.3的ODDS比率,則超過10,000個病例和10,000個對照(或10,000個家族)將需要對疾病協會實現令人信服的統計支持。我們無法以任何準確性估計疾病易感性等位基因在該范圍之外的比例(即,優勢比為1.3或更高和MAF> 0.1的那些),因此在全基因組關聯研究中是可行的,這個限制在下面討論。然而,我們建議,與目前的候選基因和基于連鎖的方法相比,旨在檢測這種等位基因的研究 - 需要分析數千個樣品,而不是數百個樣品 - 將提供每個真陽性結果的總體更低的成本。
對6,000個病例和6,000個對照(或6,000個家庭,具有2個親本和受影響的后代)的研究將在理想條件下提供約0%,3%,43%和94%的功率以檢測疾病易感性變異,優勢比1.3和MAF為0.01,0.02,0.05和0.1,以相應的順序,P <10-6的顯著水平(圖1)。由于需要允許任何給定基因座或區域與疾病真正相關的非常小的先驗概率3,14,22,24,103,104,已經提出了P <10-6級的顯著性閾值用于全基因組關聯研究。對于優勢比為1.2或更小(例如,對于MAF為0.1的34%)的功率存在急劇的下降(圖1)。相反,對于優勢比為2,即使對于MAF為0.005,也存在76%的功率。然而,我們懷疑這種高比值比在常見疾病中很少見(見下文)。
毫無疑問,即使是最佳設計的研究,目標是最小MAF為10%和優勢比為1.3,由于許多因素,包括基因型和表型的錯誤分類和混雜因素,將具有比預期更低的功率,所以甚至更大的樣本大小可能是必需的。然而,應當注意,在12,000例病例和對照的研究中,例如,可以在幾乎沒有功率損失的階段進行基因分型。這提供了基因分型成本的顯著節省,因為大多數基因分型在樣品總數(約20-30%)的第一階段進行(參見REFS 3,25,關于這些方法)。
在下面的章節中,我們討論常見疾病的等位基因譜的理論模型,并估計其可能的分布。
易感基因座的等位基因頻率。兩種極化視圖主導了許多關于常見疾病的等位基因頻率的文獻9,21。常見疾病/常見變異(CDCV)假說提出,如其名稱所暗示的,常見疾病是常見變異的結果20。在這種模式下,疾病易感性被認為是由幾種常見變異體的聯合作用引起的,而無關的受影響個體具有顯著比例的疾病等位基因。
CDCV的極端替代方案是經典疾病異質性假說(或多重稀有變異假說),其中疾病易感性是由于不同個體的不同遺傳變異,疾病易感性等位基因具有低人口頻率26(MAF小于大于0.01)。
最常見的疾病的等位基因譜可能落在這兩個極端之間。經典異質性模型,其中多個稀有變體貢獻附加地和獨立地(在生物學意義上),導致相關受試者的性狀之間的相關性與它們之間的關系的距離線性地下降27(圖2)。這是疾病等位基因共享的線性減少與關系的增加的關系的結果。相反,如果一種常見疾病主要是由于幾個基因座與常見等位基因的相互依賴的相互作用,則具有相關性程度的風險的下降將比線性下降更快。這種相關性是否適用于不同的常見疾病和性狀的研究產生了不同的結果,為一些癌癥28和身高29中的遺傳加和性提供了支持,并且在1型糖尿病30中具有非加和性(參見在線鏈接框)。
用于支持這兩個假設的論據在很大程度上基于人口遺傳理論,因此將受這些理論的基本假設的影響20,31。經驗證據表明高頻和低頻等位基因都有助于常見疾病2,32-38。例如,在對映射的量化位點(QTL)的評價中,大約50%的候選因果變異體具有超過0.05的MAF,而另一半具有較低的MAF9。我們建議,最好避免罕見的與常見的疾病易感性等位基因的極化,而是考慮疾病變異體的等位基因譜與所有變體(有或沒有表型效應)在人類中的差異基因組(圖3)。最中性的假說是疾病變體的等位基因譜與所有遺傳變體的一般譜一致17,39,40。在這種中性模型下,雖然大多數易感變異是罕見的(MAF小于0.01),MAF大于0.01的SNP將占個體之間的遺傳差異的90%以上并且應該顯著地促進表型17,41。與總體等位基因譜相比,CDCV模型可以被認為是朝向常見變異的轉變,并且異質性模型朝向罕見變異40轉移(圖3)。基因組的蛋白編碼區具有比一般基因組更低的MAF的多態性,因此,導致非同義變化的疾病變體42,43可能導致罕見的變化。不同的進化力可導致不同的光譜移動;例如,PURIFYING SELECTION可能會導致罕見的shift31。相比之下,由免疫應答介導的疾病,如自身免疫性疾病,可能是由陽性選擇的等位基因引起的,以提供對傳染病的抗性,因此達到更高的人群頻率36。類似地,諸如2型糖尿病(參見在線鏈接框)的代謝疾病,其中選擇等位基因用于對饑餓或能量平衡的適應性反應,可能影響現代環境中的易感性 - 節儉基因假說44。因此,等位基因譜將在不同的常見疾病之間變化,并且可能由等位基因頻率26,32的復雜混合組成,接近圖1中所示的彎曲L形分布。注意,如果表示0和1.0之間的等位基因頻率,則曲線將是U形,而在僅考慮次要等位基因時代替0至0.5)。
對于基因組作為整體,已經預測,對于MAF大于0.01(REFS 41,45)的預期的10至15百萬個SNP,大約一半具有大于0.1的MAF,另一半具有MAF, 0.01至0.1由于賦予輕度至中度風險的疾病變異數可能很大(如下一部分所解釋),則除非等位基因譜的變化是嚴重的 - 鑒于遺傳和環境的多樣性,這似乎不大可能在常見疾病中的作用 - 可能有數百種常見的和罕見的變體,其導致每種常見人類疾病的家族聚集。
作為示例,使用圖3中的假設頻譜, 3,考慮一種復雜的疾病,其中有20個疾病易感性變異在中性模型下促成該疾病,其中這些變異體的MAF大于0.1,并且它們的優勢比足夠高以使它們在全基因組中被鑒定協會研究。在這種情況下,罕見的移位可能導致?10個變體,MAF大于0.1,并且共同移位可能導致?40個變體。對全基因組關聯分析的意義是基于常見變異體的存在的實驗可能產生大量的陽性結果,除非等位基因譜中存在極端的變化
與疾病易感性變異相關的風險。關于等位基因結構的第二個主要問題是由個體變體賦予的遺傳風險的分布。雖然不可能預測任何給定的常見疾病的等位基因效應的準確分布,但是幾個證據線指向潛在的潛在分布。例如,這些證據來自于在果蠅,作物和家畜中的QTL研究中使用誘變,選擇和連鎖方法,以及對人類疾病的嚙齒動物模型的研究。這些研究表明遺傳變異體的表型效應大小的分布與少數具有大效應的遺傳基因座和具有小效應的大量基因座的存在一致9,46-54。所得到的彎曲的L形分布已經通過使用指數或者分布(參見圖4中的圖,其具有與圖3中的曲線不同的形狀和原點)來建模。這些結果與目前的進化理論一致,其中通過將基因DRIFT和突變效應分解為經典適應模型55,QTL效應的預期分布是指數56。最近的研究結果表明,等位基因變異頻繁影響基因表達和外顯子剪接57-60-這可能具有比影響人類表型的多影響更小的效應。并且具有影響基因表達調節的等位基因的基因座可以通過連鎖分析61,62檢測。
迄今為止已經確定的大多數不可辯駁的疾病易感性變異體 - 主要來自功能 - 候選者相關性研究 - 具有1.1-1.5級(REFS 1,2)的等位基因比值比,并且對家族性復發風險很少11,22, 63。例如,假設等位基因的效應和基因座之間的相互作用的乘法模型,頻率為0.1的疾病易感性等位基因使風險增加1.5倍將導致SIBLING相對復發風險(?s)小于1.02,
所有?s為5,將等于1.2%的貢獻。預期QTL將會結合并不是不合理
類似尺寸的數量性狀的貢獻效應。然而,我們不知道這是否是常見疾病中有代表性的效應大小范圍,因為在設計良好的關聯研究中僅評估了基因組的一小部分(參見例如,T1DBase數據庫在在線鏈接在1型糖尿病中研究的基因的框)。然而,我們認為,進行全基因組關聯研究是不明智的,沒有足夠的能力來檢測這種量級的疾病和數量性狀的影響。

全基因組關聯研究中的SNP選擇為了以統計學上有效的方式靶向占據> 0.1的MAF范圍和> 1.3的優勢比的變異,我們需要知道群體中的所有常見變異,控制取自。雖然最近我們對人類基因組變異的了解有了快速增長17 - 主要是以單核苷酸多態性的形式 - 多達30%的常見變異可能仍未被檢測到。這可以通過進一步的基因組重測序校正更大的一組無關的個體(在后面的部分討論)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內容