Wray NR, Kemper KE, Hayes BJ, et al. Complex Trait Prediction from Genome Data: Contrasting EBV in Livestock to PRS in Humans. Genetics, 2019, 211(4): 1131–1141. DOI: 10.1534/genetics.119.301859.
摘要
在這篇綜述中,我們重點討論了家畜估計育種值(EBVs)和人類多基因風險評分(PRS)預測的基本概念的相似性【比較】。我們的研究跨越了這兩個領域,因此我們認識到一些因素對一個領域的人來說非常明顯,但對另一個領域的人來說則不那么明顯。物種間的家系大小差異是推動不同觀點和方法的楔子。非人類物種可達到的大家族規模伴隨著選擇產生了較小的有效群體規模、增加的連鎖不平衡以及群體內個體間較高的平均遺傳關系。在人類遺傳分析中,我們選擇經典意義上無關的個體(關系系數<0.05)來估計共有snp所捕獲的遺傳力。在家畜數據中,一個品種內的所有動物在某種程度上都是“相關的”,因此不可能選擇不相關的個體并保留足夠大的數據集進行分析。這些差異直接或間接影響數據分析的方式。在家畜中,通過對家系內親本基因組的取樣而暴露的遺傳分離變異是可以直接觀察到的,并且被認為是理所當然的。在人類中,這種基因組變異因其對常見疾病多基因風險變異的貢獻而被低估,無論是有或沒有家族病史的人。我們探索了用PRS解釋的預測期望方差比例的方程,并量化了GWAS樣本量是如何最大化人類和牲畜預測準確性的關鍵因素。最后,我們將討論的概念集合起來,以解決一些常見問題。
在這篇綜述中,我們對比了人類遺傳學中使用的多基因風險評分(PRS)(Wray等人,2007年;Evans等人,2009年;Purcell等人,2009年;Chatterjee等人,2016年;Torkamani等人,2018年)與家畜遺傳學中使用的估計育種值(EBV)(Henderson 1975;Meuwissen等人,2001年;Brotherstone和Goddard 2005年;de los Campos等人,2010年)。我們的目標受眾是來自這兩個領域的研究人員,我們試圖提供關鍵信息,根據我們的經驗,在這兩個領域的專家之間架起了橋梁。我們的畜牧業重點是奶牛,但飼養的點大多是跨物種轉移的。了解種間連鎖不平衡的差異(LD,基因組內的局部相關結構)是區分的基本點,這是由有效種群大小的差異驅動的,而有效種群大小又反映了家系大小的差異。我們提供了PRS和EBV方法的簡史,并比較了估計SNP效應大小的方法的差異。其次,我們考慮PRS樣本外預測的準確性,我們發現理論上對PRS預測精度的期望值還沒有得到實踐的認可。最后,我們討論了家系內變異的概念,盡管家系內變異是Fisher(1918)以來多基因性狀概念化的一個基本特征,盡管是作物和牲畜選擇范式的關鍵力量,在我們看來,人類遺傳學并沒有充分認識到作為世代間多基因變異的驅動力。傳統上,家畜的遺傳信息數據集比人類的數據集更大,但這種情況正在開始改變。綜合我們的觀點,我們將討論四個常見問題(FAQ)。
PRS與基因組EBV研究簡史
個體對某一特定性狀的育種值(BV)是其加性遺傳值的總和,個體平均將其中的一半遺傳給其后代(“一半”,因為后代只隨機獲得父母DNA補體的確切一半;“平均而言”,因為遺傳值與遺傳基因相關DNA可能偏離基于分離取樣的平均值)。理論上,這可以通過個體在所有影響性狀的位點上的基因型來計算,利用這些位點上每個等位基因的平均效應。也就是說,它是基因型(x=0,1,2個性狀增加等位基因)乘以每個等位基因(b)的性狀增加效應的平均效應的線性函數,即:。
實際上我們不知道影響性狀的基因座,也不知道它們的影響大小,所以我們必須估計每個個體的育種價值。在家畜遺傳學中,傳統上這是通過使用個體的表型及其親屬的表型來完成的。現在SNP芯片數據的基因組數據的信息已經可用于這些補充系譜ebv,生成基因組EBVs(GEBVs)。GEBV可以計算為SNP基因型的線性函數,加權每個基因型對性狀的明顯影響。SNP芯片檢測到的多態性并沒有導致性狀的變異,而是假設它們與未知的因果變異相關(在LD中)。
PRS和GEBV是一樣的,也就是說,它是SNP基因型(或其他DNA變體)的線性函數,每個基因型都由SNP的明顯效應加權。對人類來說,興趣主要集中在疾病特征上,因此產生了“風險”范式。每個DNA變體的明顯效果可以通過個體的發現樣本中的關聯分析來估計,這些樣本已經過DNA變異分析和表型記錄。由于我們希望PRS能反映盡可能多的遺傳變異,SNP效應大小在全基因組關聯研究(GWAS)中被估計出來。
人類和家畜的預測目的有一個根本的區別:人類的目的是預測個體未來的表型,而家畜的目的是(通常)預測動物遺傳物質對后代的平均值。因此,從本質上講,對EBV或GEBV的理解集中在群體的平均水平上,即個體后代的平均水平。EBV/GEBVs的單位是性狀的單位,例如,與來自基礎群體或參考群體的后代相比,后代的預期乳量偏差。PRS可以用性狀單位來表示,但大多數是用未選擇或對照樣本的SD單位來表示。在人類遺傳學中,雖然PRS的目標是預測表型,但對個體的預測準確率很低(見下文);因此,PRS的價值與家畜遺傳學一樣,在群體水平上得到最好的解釋。受試者-操作者特征曲線下面積(AUC)是用來評價PRS對疾病的準確性的一種統計方法【GS能用嗎?】。AUC的范圍從0.5(隨機預測)到1(完美預測),可以解釋為隨機選擇的疾病影響個體的等級高于隨機選擇的未受影響個體的概率。例如,基于PRS的冠心病(CAD)AUC估計為0.81[95%置信區間(CI)0.80–0.81],基于PRS的前10%的風險是其他人群平均風險的2.89倍(Khera等人,2018年)。值得注意的是,這些結果還包括年齡、性別、基因分型陣列和四個祖先信息主成分(PCs)。另一項研究也基于類似的GWAS匯總統計數據生成了CAD的PRS,并且與Khera等人(2018年)的研究一樣,使用英國生物銀行隊列(但子集略有不同)來評估療效(Inouye等人,2018年)。他們將AUC量化為0.79,比包括性別、基線年齡、基因分型陣列和10個基因型的基線模型增加了2.8%。
支撐我們現在所說的PRS和GEBV的概念發表在兩篇具有里程碑意義的遺傳學論文上。Russell-Lande和Robin-Thompson(Lande和Thompson,1990)認識到,測量的DNA變異(標記)和影響個體間變異的基因座(數量性狀基因座或QTL)之間的全基因組LD可用于選擇。他們引入了“分子分數”的概念,即與標記相關的性狀(即GEBV或PRS)的相加效應總和。當時,可測量的DNA變體是限制性片段長度多態性(RFLPs),然而作者引入了GWAS的概念,隨后選擇了最相關的標記。他們討論了對效應大小進行無偏估計的必要性(因為在人類遺傳學中被稱為贏家詛咒或家畜遺傳學中的Beavis效應,最顯著相關基因座的GWAS估計總是被高估了)。Lande和Thompson估計了當LD由漂移產生時(由于有效種群規模有限),需要多少個標記來代表基因組的變異,這為人類(500000-1000000)與牛(50000)SNP芯片陣列上包含的SNP數量非常不同提供了理論依據。在牛中,雜交預測需要更密集的SNP陣列。
十年后,Meuwissen等人(2001)發表了第二篇里程碑式的論文,該論文提供了額外的理論,并預測了密集SNP陣列的到來及其使用意義。他們考慮了估計SNP效應的方法,承認了贏家詛咒的問題和可估計性的問題,因為標記的數量通常大于個體的數量。他們考慮了最小二乘法(無P值閾值)、最佳線性無偏預測(BLUP)和貝葉斯方法來估計標記效應,并在模擬場景中考慮了不同的遺傳結構。
Illumina牛SNP50芯片于2008年上市。乳品業對所謂基因組選擇的吸收率令人震驚,到2015年,超過100萬頭荷斯坦牛(黑白)已被基因分型,到2018年,這一數字超過220萬頭(https://queries.uscdcb.com/Genotype/counts.html). 對美國7年來實施的基因組育種值的評估發現,產奶性狀的年度遺傳改良率為100%,低遺傳力生育性狀的年度遺傳改良率為300–400%(García-Ruiz et al.2016)。這些變化反映了通過使用DNA變異體在1歲公牛之間進行選擇的能力,在它們生下可以評估產奶量的女兒之前,可以根據GEBVs在1歲公牛之間進行選擇,從而縮短了世代間隔(例如,公公牛從7年到<2.5年)。也就是說,GEBV可以準確地預測哪些兒子從父母那里獲得了最佳的DNA變異組合。
在人類遺傳學方面,2007年發表的Wellcome Trust病例對照聯合研究(Wellcome Trust Case Control Consortium 2007)以GWAS時代為基準。在發表之前的幾個月里,人們對這項研究的成果充滿了興奮和期待;每種疾病2000個病例和3000個對照組的樣本規模是前所未有的。此時,我們(基于我們對非人類物種多基因特征的理解)對GWAS在個體變異發現方面的作用缺乏信心,但對PRS在社區衛生疾病預防計劃中的價值進行了假設(Wray等人,2007年、2008年)。我們進行了一項模擬研究(Wray等人,2007年)來調查PRS在常見疾病預測中的應用,結論是“我們的研究表明,預測遺傳風險是可能的,即使有數百個風險變異,每個變異的影響都很小。”并且“這些預測性SNP的價值可以在確定每一個促成變異的因果機制之前很久獲得。”其他人(Collins et al.2003;Bell 2004;Khoury et al.2006;Kathiresan et al.2008;Pharoah et al.2008)已經引入了多SNP遺傳圖譜的概念,但之前唯一考慮到這一點的研究全基因組分析(Janssens et al.2006)在模擬中假設所有風險位點都已知,因此風險預測有效性的關鍵決定因素缺失(即需要估計效應大小)。考慮到基因組中DNA變異的數量,PRS的準確性取決于估計效應大小的準確性,以及區分真陽性和假陽性的程度。
DNA變異表觀效應的估計方法
GEBV就像一個多元回歸方程,有大量的預測因子(即snp或其他DNA變體),目前通常大于發現數據集中的個體數。這些效應可以通過對它們進行聯合擬合來估計,但要將這些效應視為從某些特定分布中提取的隨機變量。如果假設所有效應大小均來自同一正態分布,則該方法為BLUP。其他常用的分布是正態分布的混合,包括零效應的比例。這些混合模型通常包含在通過馬爾可夫鏈蒙特卡羅方法實現的貝葉斯模型中(Habier et al.2011)。
相比之下,PRS的效應大小通常通過一次擬合一個SNP來估計,而忽略所有其他SNP。當我們進行2007年的模擬研究(Wray等人,2007年)時,我們做出了我們知道不是最優的決策,但我們的方法與當時的想法截然不同。一個決定是使用一個相當嚴格的關聯P值閾值來選擇用于PRS計算的snp。然而,當第一次有機會將該方法應用于實際GWAS數據時(Purcell et al.2009),我們研究了更寬松的P值閾值來生成PRS。我們(由Shaun-Purcell領導)(Purcell et al.2009)通過模擬表明,施加在發現樣本上的最佳P值閾值取決于其樣本量和性狀的遺傳結構(參見Purcell et al.2009的圖S8)。現在的“標準”PRS方法遵循了最初的應用,并基于基于LD修剪/聚集和P值閾值的GWAS分析選擇snp。然而,聚集和閾值化步驟都有一定的隨意性,在單個隊列中報告最大化樣本外預測的P值閾值的結果是贏家詛咒的一種形式。理想情況下,樣本外預測結果應報告許多隊列的平均結果,例如(精神病基因組學聯盟精神分裂癥工作組2014;Wray等人,2018)。2007年,我們知道[根據Meuwissen等人(2001年)的結果]標準的人類GWAS一次一個SNP回歸不是用于預測的估計SNP效應的最佳方法。在人類遺傳學中使用一次一個SNP回歸的原因是因為GWAS的主要目標是識別性狀SNP關聯,以便更好地理解性狀的潛在生物學;彼此高度相關的SNP都具有相似的效應大小。在BLUP中,如果在高LD中有許多SNP彼此之間和因果變異,單個SNP效應估計可能很小,因為因果變異的效應在相關變異中是“共享的”。研究了其他估算減貧戰略的方法,如GEBV常用的方法(de los Campos等人,2013年;Abraham等人,2014年;Golan and Rosset2014年;Moser等人,2015年;Vilhjálmsson等人,2015年)。在真實和模擬的人類和家畜數據中,同時擬合所有SNP的方法通常比一次擬合一個SNP的方法產生更準確的樣本外預測,而貝葉斯混合模型通常比BLUP更好。然而,準確度的提高有時很小,除非性狀有一些更大的變異。通過從較大樣本量的相關GWA中“借用”樣本量來增加發現樣本量的方法也可以提高準確性(Li et al.2014;Maier et al.2015、2018;Turley et al.2018)。幾十年來,多變量方法一直用于家畜研究,特別是在基于預測經濟重要性的許多性狀指數的選擇方面(Hazel 1943)。
樣本外預測的準確性
有或沒有表型記錄的個體,最終是誰沒有表型記錄的機會。PRS的療效是通過一組未被納入發現數據集但有表型記錄的個體來評估的。PRS的有效性從理論上得到了很好的理解(Daetwyler et al.2008;Visscher et al.2010;Wray et al.2013;Dudbridge 2013;Pasaniuc and Price 2017),然而,與家畜遺傳學相比,在人類遺傳學應用中,了解樣本外預測中解釋的方差比例的預期增加似乎不太被認可。
在這里被定義為表型y和表型的預測因子
之間的平方相關,即PRS,
已經證明(Daetwyler et al.2008;Visscher et al.2010;Wray et al.2013;Pasaniuc and Price 2017),期望,
,取決于樣本量(N)、估計效應大小的獨立SNPs數量(M)以及與這些SNPs相關的表型變異比例
,
讓我們詳細探討一下這種關系。首先,隨著N增加趨向0,
趨近
,為
提供了一個上限;因此,PRS不是完全準確的診斷MT趨于零,因此,PRS不能完全準確地預測個體的診斷(因為它們只能預測SNPs捕獲的表型成分)。如果預測因子是由全基因組的SNPs構建的,那么M是獨立SNPs的數量(或SNPs的有效數量)。M可以被估計為SNPs的總數除以SNPs的平均LD得分(Yang等人2011b),其中SNP的LD得分被定義為與其他SNPs(包括其自身)的LD
之和(通常在定義的基因組距離窗口)。假設SNP的頻率>1%,那么人類M?50,000(相比牛的只有~5000)。
是基于SNP的遺傳力。基于SNP的遺傳力是SNP與影響表型的原因突變在LD中捕獲的表型變異的比例(如下所述,這在家畜中是一個比在人類遺傳學中更困難的概念,因為基因組中的高LD)。因此,遺傳力是遺傳預測因子
的理論上限,而基于SNP的遺傳力是基于普通SNP的PRS的
上限。即使基于SNP的遺傳率很高,樣本外預測
也很低,除非發現樣本量很大。如使用LD評分法(Bulik Sullivan et al.2015)估計基于SNP的遺傳力的推導所示,基于SNP的遺傳力可以近似估計為關聯檢驗統計數據和每個SNP的LD評分之間的回歸。這個回歸系數可以用很高的精確度來估計,因為有太多的SNP有助于單個統計量的估計。然而,對于樣本外預測,需要準確估計單個SNP效應。我們需要估計所有SNP的效應大小,包括那些真正相關的(即因果變異和與因果變異相關的SNP)和那些不相關的。例如,當
=0.3且發現樣本大小為N=50000時,則樣本外預測中的預期
僅為~7%。將discovery樣本大小加倍到100000,
將增加到11%(圖1)。為了獲得接近
的
,需要非常大的樣本量,因為基因組中的大量SNPs必須估計其影響大小,即M。P值閾值法,或者試圖利用遺傳結構來減少用于產生PRS的SNPs數量的統計方法,例如,LDpred(Vilhjálmsson et al.2015)可以解釋為減少M的方法。然而,在這種方法中,SNP標記的一些真實信號將丟失,因此
也會減少。因此,這些方法可以解釋為試圖找到最大化
的M與
的組合。一個常見的陷阱是將SNP因果數的估計代入方程1,但這忽略了實際數據分析中的關鍵困難,即準確估計真正相關和真正不相關變體的SNP效應大小。
全基因組序列(WGS)數據的生成成本將變得更低。因此,我們預期的估計值將隨著SNP包含的次要等位基因頻率閾值的降低而增加,但伴隨著對其有貢獻的M的更大增加。我們可以做出一個明智的猜測(基于未發表的分析),WGS數據在人類群體中可能意味著M高達500000,也就是說,與普通SNP陣列數據相比增加了10倍。這種增加的基因組變異表現可能增加了相關的遺傳變異捕獲,這樣
可能接近遺傳估計從家庭表型記錄。所以在我們上面的SNP數組數據示例中,我們使用
=0.3,對于WGS數據,它可能是
=0.6。然后,對于100000人的樣本量,使用公式1,我們期望
從使用SNP陣列到WGS數據的11%減少到6%!這些計算是在無窮小模型下進行的。因此,為了利用WGS捕獲的增加的
,我們將需要在保持高
的同時減少估計效應大小的變體數量的方法,即減少M,例如,使用基因組注釋,例如,LD pred funct(Marquez-Luna et al.2018)。
對于病例對照研究,方程1是一個很好的近似值,使用等效于病例和對照數量相等的有效樣本量,即
(其中NTOT是病例和對照數量之和,P是病例比例)(Yang等人,2010b),但更精確的方程已經存在已導出(Lee和Wray 2013)。方程1的預測結果與觀測結果吻合得很好。例如,對于高度:N=700,00,
=0.246,M=50000,預期
為0.19,觀察到的樣本外
為0.19,(報告為R=0.44)(Yengo等人,2018)。同樣,對于精神分裂癥:36989例和113075例對照組,NTOT=111487,
=0.23(精神病基因組學聯合會交叉疾病組等,2013),M=50000,
預期為0.08,觀察到的樣本外責任
=0.07(精神病基因組學聯盟精神分裂癥工作組2014)。
在人類遺傳學應用中,在評估PRS的有效性時,重要的是檢查測試樣本是否獨立于用于GWAS發現的樣本,因為樣本重疊(直接或通過親屬)會擴大樣本外預測中解釋的方差。然而,當在表型未知的樣本外預測中應用PRS時,在發現樣本中有親屬是可取的,因為這將改善對個體的預測【好還是不好?】(Lee等人,2017)。事實上,對于疾病特征,疾病家族史可以作為一個額外的預測因素,因為這可能包含PRS未捕獲的遺傳和非遺傳因素(Do等人,2012年;Inouye等人,2018年)。在家畜數據集中,由于有效種群規模較小,目標樣本通常不可能獨立于發現樣本。在家畜GEBV評估中,沒有表型的個體包括在混合模型方程中,通過描述育種/遺傳值之間的方差-協方差結構的基因組關系矩陣與那些有表型的個體相連。在人類遺傳學應用中,這種方法不太可能被采用,因為最大的疾病發現樣本只能作為GWAS摘要統計數據提供。
近期有效人口規模的后果
家畜基因組和人類基因組的根本區別在于有效群體大小(Ne)的差異。在發達國家的大多數牲畜種群中,大多數個體對種群沒有長期的遺傳貢獻。相反,在未來的人群中,幾乎所有的基因都來自一個小的細胞核,導致小的Ne。如果家庭規模較大,這種育種結構很容易實施。例如,在奶牛中,由于人工授精,公牛可以有10萬個后代[Toystory (https://en.wikipedia.org/wiki/Toystory_(bull)] sired >500,000 daughters],因為其產奶性狀的遺傳優勢而被選中(當然,這些性狀他們甚至不能表達自己)。傳統上,EBV是根據女兒和其他女性親屬的記錄來計算的。考慮到有大量產奶記錄的女兒,EBV可以非常準確地代表公牛的遺傳價值。幾十年來,ebv已經被用來確定哪些個體應該被選為下一代的父母。通過卵子采集和體外受精技術,即使是高產的優質奶牛也能繁衍出大量后代。因此,相對于人口普查,所需的父母人數較少,導致選擇強度較高。例如,國際黑白荷斯坦奶牛種群為2500萬頭,但目前的有效種群規模(Ne)估計僅為50頭(Kim和Kirkpatrick,2009年)至100頭(Boving HapMap Consortium等人,2009年)。
家畜物種的大家族規模和小Ne具有許多與人類比較相關的連鎖效應。首先,單倍型塊很大。對于奶牛來說,它們的長度大約是人類LD長度的兩倍(26 kb vs.8–14 kb)(Kim和Kirkpatrick 2009)[奶牛的品種內LD延伸至0.5 Mb(Boving HapMap Consortium et al.2009),并在染色體間產生LD],這影響了基因組數據分析的各個方面。其次,基于SNP的遺傳力的概念在家畜中是不同的(Jensen等人,2012)。在人類遺傳分析中,人們的興趣在于了解性狀的遺傳結構以及對變異的加性遺傳貢獻,我們選擇經典意義上無關的個體(來自SNP數據的基因組關系矩陣(GRM)估計的相關系數<0.05),并使用這些個體確定與常見全基因組SNP相關的方差比例(即,基于SNP的遺傳力(反映常見SNP和因果變異之間的LD【不明白】)。基于SNP的遺傳力在概念上不同于(并且小于)從家庭/系譜數據估計的遺傳力,因為后者包括遺傳變異的貢獻,這些遺傳變異在人群中不太常見(沒有常見的SNP標記),但在親屬之間是共享的。基于單核苷酸多態性的遺傳率通過LD評分回歸(Bulik-Sullivan et al.2015)的匯總統計估計,也僅捕獲與常見變異相關的遺傳信號。在家畜數據分析中,一個品種內的所有動物在某種程度上都是“相關”的,因此不常(或可能)嘗試選擇不相關的個體進行分析。另一種方法是在統計模型中擬合兩種遺傳效應,一種由GRM描述,另一種由系譜關系描述(Haile Mariam et al.2013;Zaitlen et al.2013;Kemper et al.2015)。完成這項工作后,80–90%的產奶量遺傳變異由SNPs解釋(Haile Mariam et al.2013;Kemper et al.2015)。SNP在家畜中解釋的遺傳變異比例高于人類,這是由于家畜中的LD較大。
大數據
對于人類研究來說,我們正進入一個顛覆性的數據時代,例如,500000英國生物庫(Sudlow et al.2015)是遺傳學和流行病學研究前所未有的資源。我們所有人的學習(https://allofus.nih.gov/)旨在收集100萬人的數據。在家畜中,甚至更大的數據集幾十年來都很常見,但直到最近,它們還不包括DNA數據。想要獲得母牛相關產奶性狀的EBVs是世界范圍內復雜的產奶記錄數據收集系統的催化劑。當它(1908年)首次在美國推出時,它是以紙質為基礎的(https://www.aipl.arsusda.gov/aipl/history/hist_eval.htm)],但現在是非常高科技的,每頭奶牛都有一個直接記錄產奶量和活動的轉發器,并控制一些農場的食物供應。農場經理可以通過智能手機查看羊群和個人記錄。美國奶牛育種委員會(US Council of Dairy Covering)對3100萬頭奶牛有60年的評估記錄(https://queries.uscdcb.com/Genotype/counts.html),其他一些國家也有類似規模的數據庫。我們渴望改善人口健康的長期、縱向和高科技數據收集系統已經成為先進統計分析的基礎。家畜評估中可用的大量數據,以及在不同環境中發現的近親,意味著在線性混合模型中可以很好地分離遺傳和非遺傳因素,并且可以擬合復雜的協變量數組。母體和細胞質/線粒體效應模型(Southwood et al.1989)以及重復測量縱向數據的隨機回歸模型(Kirkpatrick et al.1990)已使用多年(Meyer 1998)(包括基于每日記錄的年產奶量分布的復雜性)。認識到所謂的環境協變量本身是復雜的性狀,反應范數模型已被用來聯合建模基因型-環境相互作用和基因型-環境相關性(Meyer 1998)。現在可以嘗試使用英國生物庫(Robinson et al.2017;Beaumont et al.2018;Ni et al.2018)等數據集進行此類分析,但我們還需要很長時間才能獲得人類復雜疾病數據集,從而真正受益于這些統計方法。人類研究人員有時會假設牲畜是在環境控制的條件下進行測量的,并且會驚訝于牲畜數據集能夠包含復雜的環境測量。相比之下,不熟悉人類數據的研究人員可能會大吃一驚,這類數據集中通常只有年齡和性別的協變量。另一方面,人類疾病數據集帶來了在家畜分析中沒有出現的挑戰,這是由于病例的二元病例/對照數據和病例的過度抽樣造成的。在人類和家畜遺傳學領域,有人討論小樣本的深層表型是否優先于大樣本的淺層表型,但一般來說,技術允許大樣本和充分表型。英國生物銀行(UKB)的研究已經證明了以一致的方式收集單個大隊列的價值。例如,對257000人的身高(Wood et al.2014)和339000人的體重指數(BMI)發表的薈萃分析(Locke et al.2015)分別確定了594個和82個獨立的全基因組顯著位點。根據BMI850和GWUKs等人的身高,分別確定BMI160和GWUKb。
傳統上,家畜數據集比人類數據集更大,表型更豐富,而SNP陣列數據集的大小更具可比性。隨著生物庫和眾包研究積累招募的參與者,并利用智能手機收集數據,人類數據集的規模、表型深度和縱向廣度將超過牲畜數據集。在人類遺傳學領域開發的用戶友好工具[例如,主成分分析軟件(Price等人,2006年)、PLINK(Purcell等人,2007年)、GCTA(Yang等人,2011a)]已經被家畜遺傳學界積極使用。利用關聯摘要統計的方法(Pasaniuc和Price,2017年)是最近人類遺傳學研究的一個肥沃領域,它允許從大發現樣本中獲得預測收益,而無需共享初級數據。其主要特點是關聯結果可以通過疊加一個來自外部參考樣品的基因組LD相關結構來解釋。這些方法計算效率高,避免了與一級數據共享相關的問題(這取決于人類群體的隱私和同意,以及牲畜群體的商業敏感性)。迄今為止,人們對家畜遺傳學中使用摘要統計數據的興趣不大,但這可能是未來研究的一個富有成果的領域,至少在某些物種中是如此。
家庭內部隔離差異的理解與欣賞
通過隨機抽樣獲得的后代間的遺傳變異是農業選擇計劃中利用的主要變異源。由于家畜(和作物)育種計劃中的家庭規模可能很大,因此可以觀察到一個家庭中后代之間的差異,而且這種差異是有形的。然而,盡管這是人類基因的一個重要組成部分,但對于我們來說,這似乎是不可忽視的。不言而喻,每個孩子從父母那里得到的遺傳物質正好是其一半,每個孩子從父母那里得到的基因組樣本也各不相同。因此,我們可以將孩子的遺傳值歸因于其父母的平均遺傳值
,加上與該子特定的平均值的偏差
然后我們可以把這一代孩子的遺傳值的變化看作,
沒有協方差項,因為為簡單起見,我們假設隨機交配,所以和
是獨立的,分離項(作為與親本平均值的偏差)也是獨立的。下一步,我們可以假設這一代孩子的個體之間的遺傳變異與他們的父母之間的遺傳變異相同,母親之間的遺傳變異與父親之間的遺傳變異相同。而且,所有方差都是群體的加性遺傳方差,
,即
。
然后,將它們代入方程2并重新排列,得到
這一眾所周知的結果對于理解群體中的遺傳變異至關重要。群體中一半的遺傳變異來自于家族內部的基因組分離,這似乎被低估了,但其意義卻令人瞠目結舌。讓我們考慮分離方差的性質。首先,它不是通過父母的選擇而減少的[這減少了等式2中的和
]。換句話說,無論對父母的選擇多么強烈,一對父母仍然會在他們的后代中產生大量的遺傳變異。近交使分離方差略有降低(在群體中,分離方差按比例降低一個因子(1?F),其中F是群體中親本世代的平均近交系數),但新的突變部分抵消了分離方差。值得注意的是,一些模式種已經近親繁殖到沒有家族內分離變異的程度,除非這是由新的突變產生的。個體間缺乏變異是小鼠模型與人類疾病相關性日益受到質疑的一個關鍵原因(Cavanaugh等人,2014)。從實驗設計的角度來看,自交系消除了不受控制的變異,從而減少了功效研究所需的樣本量。然而,在人類中,多基因疾病的本質是許多變異導致了風險,并且有許多DNA變異的組合導致了相同的疾病診斷。研究范式需要包含多基因疾病的性質。在過去,這種模式很難實現,但技術進步意味著新的途徑正在打開。
選擇實驗證明了分離方差的威力
近一個世紀以來,人們對遺傳變異的本質進行了統計描述,但無法直接測量。選擇實驗成為檢驗統計模型有效性的工具。觀察到的反應可以與統計理論推斷出的結果進行比較。有文獻記載的選擇實驗始于1896年的玉米和20世紀初的雞(希爾2011),并成為20世紀中期遺傳學研究的標準工具。1980年,比爾·希爾(Hill 1980)提出了選擇實驗的許多動機,30年后,比爾·希爾(Hill 2011)提出了一個問題:“在動物育種計劃中,有價值的選擇實驗能學到更多嗎?還是該發訃告了?他總結說,雖然“沒有什么論據表明選擇實驗大大增加了我們對數量遺傳和選擇原則的理解”,但我們已經吸取了教訓,現在確實是發表訃告的時候了。我們同意結論,但強調這項工作,以增加對這些教訓的接觸。
選擇項目揭示了理論和基因結構的許多方面(Hill 1980、2011;Hill和Caballero 1992;Brotherstone和Goddard 2005)。實驗課的選擇和示范課的選擇是分離的關鍵。雖然分離方差已經在人類中進行了研究,通過將全同胞間的表型差異與其根據全基因組SNP數據(范圍從~0.4到~0.6)估計的相關系數相關聯來估計遺傳方差(Visscher et al.2006;Kong et al.2018),但由于樣本量大,研究很少需要達到可接受的估計值。提供了強有力的貢獻方差選擇方案。在人類中,由于家庭規模較小,隔離差異更難理解。了解分離變異是理解為什么疾病個體的一級親屬即使在高遺傳力的疾病中,疾病的絕對風險也很小的關鍵,也是理解家庭成員之間PRS變異的關鍵。為了說明從選擇計劃中得到的教訓,圖2顯示了奶牛對奶產量選擇的反應(紅線),這也伴隨著非遺傳因素的增加(例如,改善管理和飼料,綠線)。1957年,產奶量的標準差為600公斤(600升)。今天,一頭普通奶牛的產奶量的遺傳值比1957年的平均產奶量高出6.5個遺傳標準差(盡管世代間隔相對較長)。在1957年,只有0.1%的奶牛產奶量超過9600公斤,現在超過50%的奶牛達到了這個目標!選擇程序/實驗已經證明,這種變化很少能歸因于新的突變[參見Hill和Caballero(1992)中引用的綜述],而是反映了變體組合的選擇。在多基因結構下,很少有變異是固定的,選擇實驗表明,反向選擇可以使群體平均水平恢復到其預選水平(Dunnington和Siegel 1996)。在肉雞中,短世代間隔和高選擇強度導致體重發生巨大變化,56天體重增加~3.4 kg或~>20表型SD,80%以上的變化歸因于遺傳選擇(Zuidhof et al.2014);Zuidhof et al.(2014)中的圖1在Walsh and Lynch(2018)中復制為圖1.1,值得一看這一驚人增長的可視化(Walsh and Lynch 2018)。這些數據也發表在《經濟學人》(Anon 2019)上。
人類遺傳學的GWAS時代已經證明了常見疾病的多基因遺傳結構。因此,我們可以根據復雜的疾病來解釋選擇的結果。例如,在精神分裂癥患者生育能力下降的背景下,精神分裂癥在人群中的持續發病率被認為是一個難題(Keller and Miller 2006;Power et al.2013)。精神分裂癥生育能力降低的影響導致了極弱的選擇壓力(1%的人口生育能力降低),而牲畜的選擇強度(只有1%的雄性有牛的后代),在這種情況下,我們仍然觀察到大量的后代遺傳變異。我們敦促讀者閱讀選擇實驗的摘要,以便更好地理解隱藏在基因組中的變異和通過分離變異暴露出來的變異的力量。
常見問題
這篇綜述匯集了一些重要的觀點,其中一些是我們之前詳細探討過的(Kemper和Goddard 2012)。選定的主題提供了回答四個常見問題所需的背景。
問題1:為什么基于單核苷酸多態性的遺傳率在從人類數據估計時比從家畜數據估計時要低?
A1:這種差異是通過了解近期有效人口規模的差異來解釋的。家畜的有效群體規模較小,這意味著個體對之間的平均關系系數很高,與人類相比,常見的SNPs標記的物理距離更大,包括跨染色體。
問題2:與基于單核苷酸多態性的遺傳力相比,為什么樣本外預測中解釋的方差比例如此之低?隨著GWAS發現樣本量的增加,預計會有什么樣的增加?
A2:方程式1提供了這一解釋。雖然在PRS理論中是眾所周知的,但在PRS實踐中似乎沒有得到足夠的重視,特別是M的定義,即SNPs的有效數量(在人類中使用M~50000作為常見變體)。GWAS最初設計用于檢測特定的相關變異,以便更好地理解疾病或特征的功能生物學。由于許多性狀的已鑒定變異數在幾百到幾千個之間,因此增加GWAS樣本量的必要性受到了質疑。然而,GWAS時代的一個關鍵成果將是PRS在預防醫學中的應用,并且仍然需要更大的GWAS來最大限度地提高PRS的準確性。
問題3:人類的PRS和家畜的GEBV有什么區別?
PRS和GEBV都是個體某一性狀加性遺傳值的估計值。原則上,兩者都可以采用相同的估算方法。在實踐中,數據的結構(測量的協變量,確定,LD)導致不同的方法[例如,人類的單SNP回歸(Purcell等人2007;Chang等人2015;Loh等人2015)與牛的GBLUP(Meuwissen等人2001)或BayesC(Habier等人2011)]。在家畜中,GEBV的目的是選擇下一代的父母,其效力是以平均GEBV隨時間的變化來衡量的。小的變化在每一代中都是累積的,因此,GEBV的使用非常成功,與EBV相比,在沒有DNA變異數據的情況下計算的關鍵增益來自縮短的世代間隔(García-Ruiz et al.2016)。在人類中,PRS被用來預測個體未來的表型。遺傳預測器的有效性有一個依賴于性狀遺傳力的理論上限,并且有一個依賴于測量的SNPs標記的方差的實際上限。雖然出生時可以計算PRS來預測成年期的表型,但隨著時間的推移,通過加入可測量的風險因素(作為個體年齡報告)的預測貢獻,預測因子可以變得更加準確。
問題4:PRS與常見病風險家族史之間的關系如何?
PRS是對個體遺傳總價值的估計,僅跟蹤普通DNA多態性標記的性狀的遺傳貢獻。家族史反映了個體親屬的表型。這些表型部分取決于遺傳因素(跟蹤群體中所有頻率的多態性),因此,家族史對個體的重要性取決于性狀的遺傳力。我們之前已經證明,在沒有家族史的情況下,常見病的發生率高于預期(Yang等人,2010a)。例如,對于一種終生風險為1%(典型的人類常見疾病)且遺傳率高達80%的疾病,即使充分了解三代家族史,預計70%的患者沒有疾病家族史。為了充分理解這一結果,我們建議讀者閱讀這篇論文,但理解這篇論文的一個關鍵是要認識到家族內同胞之間的大量遺傳變異。因此,盡管有已知家族史的人有增加的風險,但隨機抽取父母的基因組會產生遺傳抽獎。因此,受影響和未受影響的父母的子女都可以接受多基因的風險位點負擔,從而增加該個體的患病風險。在實踐中,預防策略,如早期或更頻繁的疾病篩查,可提供給那些已知的家族史,也應提供給那些高PRS。高PRS將確定一組不同(部分重疊)的個體,這些個體同樣值得有家族史的人進行預防干預(Khera等人,2018年)。