文章題目:Evaluation of Genome-Enabled Selection for Bacterial Cold Water Disease Resistance Using Progeny Performance Data in Rainbow Trout: Insights on Genotyping Methods and Genomic Prediction Models
文章來源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4883007/
閱讀者:劉綿宇
前言
細菌性冷水病(BCWD)在鮭魚水產養殖中造成嚴重的死亡和經濟損失,控制暴發的方法有限。
在先前的報道中,有一個基于家系的選擇性育種,目的在于提高虹鱒對BCWD致病因子的抗性,同時有攻毒實驗表明抗性是中度遺傳力的,在虹鱒魚選擇性育種群體中鑒別出了幾個主要抗性 QLT可以用于標記輔助選擇,但是BCWB抗性的復雜遺傳結構和高遺傳變異,讓我們相信全基因組選擇將是提高虹鱒對BCWD遺傳抗性的更有效方法。
基因組選擇(GS)是一種相對較新的策略(Meuwissen等人,2001),它正在徹底改變動植物育種。該方法利用覆蓋整個基因組的高密度標記基因型數據,結合表型記錄,計算所有基因型個體的基因組估計育種值(gebv)。GS方法主要適用于無法直接記錄在潛在育種家或選擇候選人身上的性狀,包括易感病性、胴體和性別限制性狀,并且在乳牛產業中被證明是高效的。對于像鮭魚這樣的水產養殖物種,其關鍵好處是能夠預測沒有表型數據個體的GEBV,從而利用家系間遺傳變異。除了提高選擇的準確性外,GS預測還會降低每代的近交率,它能夠在家系內更好地分化,并降低同胞的共選(Daetwyler等人,2007;Dekkers,2007)。
對于農業家畜物種,單核苷酸多態性(SNP)陣列或芯片已經成為有至少50K 個SNP全基因組基因分型的首選平臺,包括最近開發的虹鱒魚57 K SNP芯片,作為育種者可用的新工具,然而,已開發出能夠在許多個體中同時發現標記和進行基因分型測序方法,并且用于遺傳/基因組分析(Davey等人,2011)中。一種技術是不需要先驗標記發現或參考基因組序列的限制位點相關DNA(RAD)測序。近年來,RAD測序方法被廣泛用于鮭科物種的SNP發現和其他遺傳/基因組分析。
GS的最佳計算方法是不確定的。GBLUP方法假設性狀由多基因控制,并在估計基因組關系G矩陣時使用所有標記數據;反之,貝葉斯變量選擇方法假設遺傳的差異可以由具有小中或大效應標記的減少來解釋。基于這一假設,當性狀不是多基因而是由幾個中到大效應QTL控制時,GBLUP的表現不如貝葉斯變量選擇模型。GBLUP方法被進一步調整為ssGBLUP方法,將系譜(A)和基因組關聯(G)組合成聯合關系矩陣(H),以及通過多元回歸模型中擬合來模擬貝葉斯變量選擇模型的wssGBLUP方法,通過這種方法選擇了占遺傳方差中或大部分的SNP。
GEBV預測的準確性取決于幾個關鍵參數,包括(1)標記位點與QTL之間的連鎖不平衡(LD)水平;(2)訓練群體中具有表型和基因型記錄的個體數;(3)訓練和測試/驗證動物之間的關系程度;(4)訓練個體之間關系的緊密;(5)性狀的遺傳力,或育種值的可靠性(如果使用去回歸的育種值); (6)QTL效應的分布。性狀的遺傳結構與是否合適的GS模型也可能對基因組預測的準確性產生重大影響。
因此,在評估新種群或物種的新性狀時,比較基于ssGBLUP方法的GS模型和貝葉斯變量選擇模型的GEBV預測的準確性是很重要的。
本研究旨在探討GS改良虹鱒BCWD抗性的可行性,并與傳統的家系選擇育種進行比較。本研究的目的是:(1)利用第一代NCCCWA抗病育種系10個家系的一個子集對BCWD的抗性進行基因組預測;(2)比較經典的基于家系的ebv和來自4種不同GS模型的GEBV的預測能力;(3)比較SNP芯片和RAD基因分型平臺對GEBVs的PA(predictive ability)的影響。
材料與方法
魚類飼養與攻毒實驗
所有魚類工作都是按照國家和國際準則進行的。本研究的方案由美國農業部的機構動物保護和使用委員會(IACUC)、農業研究服務、國家冷水水產養殖中心特別批準。所有工作都是為了確保魚類權益和盡量減少痛苦。
關于魚類飼養條件和腹腔注射BCWD致病因子F.colrophilum(FP)后21天存活研究的細節在別處已有報道。在攻毒中的數據記錄程序在別處也有報道(Palti等人,2015b);簡單地說,每天移除死魚并記錄并剪下鰭;在研究期間每天監測魚的健康,沒有觀察到意外死亡;對死魚進行定期采樣以進行細菌培養并確認死魚中FP的存在可能是死亡的原因;在感染后第21天將存活的魚在200 mg L?1的甲基磺酸三卡因,MS222(Sigma)中至少5分鐘安樂死,然后對它們的鰭片進行采樣。從所有魚類(死亡者和幸存者)收集到的鰭片單獨保存在95%乙醇中,直到提取DNA(Palti等人,2006)。
訓練群體和驗證群體
訓練群體由從NCCCWA BCWD抗性系2005年(YC)的71個家系中隨機抽樣的10個全同胞(FS)家系組成(Silverstein等人,2009年;Leeds等人,2010年)。
YC-2005家系代表了該育種系的基代,因此之前沒有BCWD抗性家系。
每個家系有39-80條魚在實驗室BCWD攻毒中進行評估,每個家系有一個或兩個魚缸,最初每個魚缸放養40條魚。具有基因型和表型的訓練魚總數為583條。之所以選擇10個FS家族作為訓練群體,是因為這些家族中未感染的兄弟姐妹被用作下一代的父母本(驗證魚),每個家族中的訓練和驗證組的DNA檔案可用于基因分型。
驗證樣本包括10個訓練家系中未染病后代的53個親本(父親和母親);每個家系貢獻了2-11個親本。親本或驗證魚具有基于家系關與存活天數(DAYS)和生存狀態(STATUS)的EBV,該EBV利用其全同胞個體和71個FS家系(N = 4492條具有BCWD抗性表型的魚類)中任何親屬的BCWD抗性記錄進行估算。
另外,來自驗證樣本的31YC2007 FS子代測試家族(N = 1913,具有BCWD抗性表型)與父母雙方的表型被用于計算每個FS子代測試家族(PTF)的平均子代表型(MPP)。
本次GS研究通過設計確保了訓練群體和驗證群體之間的高度聯系。
表1總結了本GS研究中BCWD抗性的實驗變量
BCWD抗性表型
BCWD抗性表型天數,即攻毒后死亡的天數,在攻毒后21天被記錄,幸存者被賦值為21。
每條魚也有一個二進制生存狀態記錄。BCWD抗性表型狀態有兩類:1=魚在挑戰后評估期間21天內死亡;2=魚在挑戰后第21天存活。
在GS分析中,首先使用訓練魚的天數和狀態記錄來創建GS模型并估計標記效應,然后,使用對訓練魚的估計標記效應來估計每個驗證魚的GEBV的天數和狀態。
SNP基因分型平臺
訓練和驗證魚類及其相應的親本(YC 2002和2003 FISH)用最近開發的Rainbow Trout AxiomR 57K SNP陣列(Chip)進行基因分型,如我們先前所描述的(Palti等,2015a);樣品由商業服務提供商(GeneSeek,Inc.,Lincoln,NE)按照陣列制造商(Affymetrix)要求的Axiom基因分型程序進行基因分型。對于最終的基因分型調用和質量控制分析,我們使用了如先前所述的Affymetrix Power Tools和SNPolisher軟件應用程序(Palti等人,2015a)。
每個家系具有48,646至48,899個基因分型的SNP。質量控制(QC)管道濾除了每個FS家庭中預期孟德爾分離的明顯偏離的SNP(Bonferroni調整為P <0.05),并去除了兩條與系譜中給出的親本不具有匹配基因型的訓練魚(即未通過系譜檢查)。在對基因型數據進行QC后,原始芯片基因型數據集中總共包含49,468個SNP。
按照我們實驗室中已建立的程序,還對訓練和驗證魚進行了約24 K SNP的基因分型,這些SNP是通過RAD標簽文庫測序而產生的,用限制性內切酶SbfI分解來自后代和父母(YC 2005 10 FS家族)的基因組DNA,并按照其他地方的描述制作RAD測序文庫(Palti等人,2014)。在HiSeq 2000的單個通道上對具有30個索引樣品的每個RAD文庫進行測序(單端100bp讀取),每個樣品具有用于每個樣品的唯一六核苷酸條形碼;原始序列已提交給GenBank的簡短閱讀檔案,項目登記號PRJNA295850(Samples: SAMN04090427–SAMN04091127; SRA Accession:SRP063932)在序列比對之前,我們在每個讀取的序列的5‘末端修剪6個堿基條形碼和在3’末端修剪最后5個堿基,并過濾出89bp讀取中累積測序錯誤概率大于20%的讀取,如在別處描述的(Palti等,2014)。
我們分析了剩余的修剪后的讀取,以使用NovoAlign和Perl腳本識別SNP,如前所述(Liu等人,2015a)。為了確保雙親中有足夠的序列讀取覆蓋率,每個雙親都進行了兩次排序。使用SNP發現和基因型調用的生物信息學管道從父母那里獲得的基因型別數據;并且對于子代基因型分型,RAD序列被映射到NovoAlign中需要精確匹配的每個SNP的親代等位基因,如上所述,每個親本的平均過濾讀數為7.8M,范圍在5.7到12.6M之間;對于來自訓練樣本的后代(即具有表型的魚),平均3.0M,每個后代的范圍在790K到10.0M之間;對于來自驗證樣本的后代(即具有基于兄弟姐妹和后代測試性能的EBV的魚),平均為3.9M,每個后代的范圍在2.0到9.5M之間。
如其他地方所述(Palti et al。,2015b),對于每個后代,我們至少需要四個相同的序列讀數才能將其稱為特定SNP純合子;對于雜合子基因型調用,我們要求該基因座(例如,兩個等位基因)的讀數總數應為≥4,并且次等位基因序列讀數的頻率(MAF)≥10%。如果后代樣品中同時存在兩個等位基因,且MAF≤10%,則我們沒有在那個特定后代中將該SNP稱為基因型,并記錄為缺失數據。從最終基因型數據中刪除SNP位點和數據≥30%的樣本(SNP /樣本檢出率≥70%)。
此外,用卡方擬合優度檢驗檢查每個SNP的基因型分離率(1:1或1:2:1),并從最終的基因型數據集中剔除具有顯著的Bonferroni校正分離失真(P<1e-5)的SNP。在該基因型數據QC后,原始RAD基因型數據集中共有24465rad單核苷酸多態性。
在擬合GS訓練模型之前,使用在計算機程序BLUPF90中實施的QC算法進一步對所有基因型SNP進行QC過濾(Misztal等人,2015)。在此最終原始數據集質量控制之后,對于芯片SNP,GS分析僅包括那些SNP和基因型檢出率≥0.90的樣品,最終有效數量為40,710個SNP。同樣,對于RAD SNP,GS分析中僅包括那些呼叫率≥0.70的SNP和樣品,最終有效數量為10,052個SNP。
對于驗證魚,我們使用了基于譜系的經典(沒有基因組學或標記基因型數據的)模型(PED)估算了BCWD抗性表型(DAYS和STATUS)的EBV。基于家系的EBV是使用BCWD記錄估計的,這些記錄測量了驗證魚(YC2005families)和任何旁系家系。該表型數據集包括來自71個FS家族(14個父系半同胞族,10個母系半同胞族和27個未嵌套在同胞半族的家庭)的4492條魚類的DAYS和STATUS記錄,譜系包括4659條記錄。
在進行PED數據分析之前,為了識別重要的DAYS和STATUS預測因子,我們使用混合線性模型執行多變量回歸分析,其中包括隨機家系效應,池號和年份固定效應,以及協變量體重(BW),使用SAS軟件(SAS,2007)的程序REG進行逐步模型選擇。然后,使用SAS軟件(SAS,2007)中的混合程序評估對天數和狀態有顯著影響實驗變量(包括在PED模型中的潛在變量)的家系效應。執行后一項測試是為了避免對具有顯著家庭效應的固定和協變量效應的響應變量進行錯誤的調整。
在使用一代BCWD記錄(YC 2005家系)進行STEPWISE模型選擇時,我們發現BW和tank對天數和狀態的預測能力有顯著的貢獻。由于幼魚疾病挑戰性研究的實際限制,我們疾病挑戰性實驗的實驗設計混淆了魚缸和家系效應,所以我們決定在分析模型中不考慮魚缸效應。接下來,我們發現家系對BW的影響不顯著(測試模型:BW=mean+family+error),這表明協變量BW可以包含在模型中。基于這些結果,我們認為估計EBV的線性模型應該包括種群平均效應、隨機動物效應、連續協變量BW和隨機誤差效應。BCWD天數和狀態記錄分別使用計算機應用程序BLUPF90擬合到PED線性模型和閾值模型中。
用貝葉斯變量選擇模型估計GEBV。
來自訓練群體(YC2005家系)的芯片或RAD SNP基因型數據及其相應的BCWD表型記錄,用于創建預測模型并使用GENSEL軟件中BayesB和BayesC方法估計標記效應。(Fernando和Garrick,2013;Garrick和Fernando,2013)。
在進行GS分析之前,我們首先使用BLUFF90軟件中的AIREML和GENSEL中的BayesC進行方差分量分析,以估計BCWD抗性表型的遺傳和殘余方差;這些方差組分的估計在貝葉斯分析中用作先驗。我們用以下混合線性模型進行了DAYS的GS分析
其中y是表型記錄的n×1向量;μ是總體平均值;Z是k個SNP標記的基因型協變量(編碼為-10、0或10)的n×k矩陣,α是k個SNP(加性標記效應)隨機偏回歸系數的k x 1向量,e是殘差向量。
如前一部分所述,我們還使用貝葉斯方法對GS分析中使用的訓練樣本進行了STEPWISE模型選擇,該樣本僅包括同時具有表型和基因型記錄(n = 583)的魚,以確定是否應將家系,魚池和體重變量包括在模型中。我們觀察到tank,BW和家系對DAYS和STATUS記錄有顯著影響;盡管如此,我們決定不在模型中包含tank效應,因為tank在我們的疾病挑戰研究設計中與家系混淆。
使用SNP Chip基因型數據用軟件BLUPF90(Misztal等人,2015)估算的前兩個主要因素(家系和魚池)的散點圖提示了種群結構。有代表家系群體的九個集群;我們使用了10個FS家庭,其中兩個家庭共享同一個魚池的親本(母系半同胞家系)。我們決定不通過對家庭或兩個第一主成分建模來考慮這種明顯的結構,因為它是由GS分析中估計的家庭遺傳效應引起的。接下來,我們發現家庭對BW有顯著影響,這表明BW協變量不應包含在混合線性模型中。使用GENSEL中的類別分析選項對STATUS的二進制數據進行GS分析
在BayesB和BayesC分析中,混合參數π指定具有零效應的基因座比例。因此,給定p個有效數量的SNP,將被采樣為具有非零影響的k =(1-π)p個標記同時擬合到貝葉斯多元回歸模型中。假設混合參數π是已知的,并且定義為滿足條件k≤n;用貝葉斯方法進行GS分析,我們利用SNP Chip數據評估了π值分別為0.98、0.99和0.995。 RAD數據的π值分別為0.975、0.98、0.99和0.995。
在貝葉斯變量選擇模型BayesB和BayesC中,對于非遺傳固定效應的向量β,我們使用平坦先驗,對于殘差向量,使用條件方差σ2e,一個具有零均值和協方差矩陣Rσ2e的正態分布,其中R是對角矩陣。此外,將σ2e作為一個具有標度逆卡方先驗的未知參數。在BayesB中,前提假設是標記效應具有相同且獨立的混合分布,每個標記的點質量為零,概率為π,單變量t分布的概率為1-π,均值為零,比例參數S2α,和Vα自由度;并且BayesB中的t分布等效于具有未知零均值和特定于軌跡的方差的單變量正態分布。
在BayesC中,先驗的假設是標記效應具有相同且獨立的混合分布,其中每個點的質量為零,概率為π,單變量正態分布的概率為1-π,均值為零,方差為σ2α,其縮放比例為卡方先于。 S2α標度參數和vα自由度。另外,在BayesC中,假設了一個特定于基因座的方差,該方差是通過使用來自先驗數據和實際數據的信息計算得出的。
計算機應用GENSEL在其所有的貝葉斯變量方法中均使用Gibbs抽樣方式,使用50,000個蒙特卡洛(MCMC)迭代分析BCWD抗性表型,刪除其中最初的10000個用作burn-in的樣本,從剩余的40000個樣本中,我們每十個樣本中保存了一個,并使用R包CODA評估了MCMC迭代的正確混合和收斂,以此來保證從全條件后驗分布中提取MCMC樣本。
用ssGBLUP估計GEBV
使用來自訓練魚和驗證魚的Chip或RAD SNP基因型數據(來自10個NCCCWA 2005 FS家系的后代)和在訓練中測量的BCWD記錄以及本次GS研究中包括的所有魚類(沒有受到疾病侵染的全同胞)的系譜信息來確認魚的GEBV,用以下兩種方式:ssGBLUP和wssGBLUP。
在wssGBLUP中,第一次迭代中每個SNP的權重均為1,這意味著所有SNP都具有相同的權重(即標準ssGBLUP)。對于下一次迭代(第二,第三等),權重是在上一次迭代中估計的SNP效應的個體方差。與貝葉斯變量選擇模型相比,分析中包括的ssGBLUP方法數據也來自YC 2005家族的后代,這些家族只有BCWD抗性表型記錄而沒有標記基因型數據包括: 訓練魚的全同胞(10個FS家系)和與提供訓練和驗證魚的10個FS家庭有血統關系的另外61個FS家庭(n = 4492;表1)。
在使用ssGBLUP和wssGBLUP方法執行GS分析之前,為了進行質量檢查并獲得遺傳參數的估計以用作二進制STATUS貝葉斯分析的先驗值,我們使用AIREMLF90對DAYS進行了方差成分分析,該分析在BLUPF90中實現。STATUS的方差成分分析和GS分析是通過在BLUPF90中的THRGIBBS1F90進行的。
在貝葉斯框架下,使用閾值模型將二進制狀態數據作為分類數據進行分析。 MCMC Gibbs采樣方案總共進行了70,000次迭代。最初的10,000次迭代已作為burn-in迭代被舍棄;然后從剩余的60,000個樣本中每20個樣本保存一個進行分析。此Gibbs抽樣方案收集了3000個獨立樣本進行分析。也使用R包CODA評估了這些MCMC迭代的正確混合和收斂。
線性和閾值模型分別用于估計DAYS和STATUS的GEBV,包括總體平均效應,動物隨機效應,連續協變量BW和隨機誤差效應。DAYS的混合線性模型和二進制STATUS的閾值模型使用在軟件BLUPF90中的系列應用程序進行擬合。
EBV和GEBV的預測能力及偏差
EBV和GEBV都是加性遺傳效應的預測能力,基于以下假設進行估計的:FS-PTF的MPP之間的相關性是預測育種值準確性的最佳無偏估計,在我們的驗證樣本中,將嵌套在8個父親半同胞(HS)組中的17個FS家庭和不嵌套在HS家族中的14個FS家庭的混合。我們沒有將驗證親本與來自共同遺傳基礎的大量隨機魚樣本交配,而是將它們彼此配對,所以我們使用中親BV來說明他們的遺傳凈產值。因此,本研究以EBV和GEBV的PA作為預測精度的估計量。為了估算每個PTF的平均STATUS和平均DAYS表型(MPP),我們計算了每個挑戰池的平均值,并計算了一個家系中挑戰池的均值。
在這項研究中,我們首先估算了= 53個驗證樣本魚(補充材料中的DataSheet1)中的每一個的EBV和GEBV。然后我們計算了來自YC 2007的31個FS子代測試家系的中親EBV和GEBV(補充材料中的數據表2)。
EBV的PA(PAEBV)估算為每個PTF中中親EBV與MPP的皮爾遜相關系數,PAEBV = CORR(EBV,MPP)。據我們所知,這是首次在虹鱒魚中進行的GS研究中使用后代測試數據來驗證基因組預測的準確性。
MPP對預測中親EBV的回歸系數,作為EBV的偏差。
同樣,將GEBV的PA(PAGEBV)估計為中親GEBV與來自每個PTF中的MPP相關系數。
PAGEBV= CORR(GEBV, MPP)。MPP對預測中親GEBV的回歸系數,作為GEBV的偏差。回歸系數為1.0表示,估計的EBV或者GEBV是真實育種值(MPP)的無偏估計。與1.0的偏差可以解釋為預測偏差.
結果
為了排除ssGBLUP方法和使用的統計模型中的潛在錯誤,(1)我們使用當前的統計模型(表型=均值+動物+體重+誤差)執行GBLUP分析,以確保ssGBLUP沒什么問題算法; (2)使用替代統計模型(表型=魚池+動物+體重+誤差)進行ssGBLUP分析,以評估固定效果魚池對ssGBLUP預測準確性的影響。和預想的一樣,在當前的統計模型中,GBLUP(DAYS = 0.41; STATUS = 0.31)的準確性低于ssGBLUP(DAYS = 0.49; STATUS = 0.46)的準確性,這表明ssGBLUP方法沒有任何問題。接下來,我們發現當前模型ssGBLUP的準確性顯著高于替代模型ssGBLUP的準確性(DAYS = 0.32; STATUS = 0.25),這突顯了將坦克效應納入統計模型的不利影響。此外,與當前模型ssGBLUP(h2DAYS= 0.24;h2STATUS= 0.45)相比,替代模型ssGBLUP(h2DAYS= 0.11;h2STATUS= 0.33)估計的遺傳變異和遺傳力降低了約100%,替代模型ssGBLUP降低了遺傳變異,遺傳力和預測準確性,是由于在我們的疾病挑戰性實驗設計中,魚池與家庭效應混雜在一起。因此,通過將魚池效應納入替代模型時家庭效應被錯誤地解釋了兩次,并消除了遺傳變異。也因如此,我們在GS分析中使用的統計模型是正確的。
EBV和GEBV對BCWD抗性的預測
對于BCWD抗性表型DAYS和STATUS,附加文件S1中提供了基于譜系的EBV和使用Chip和RAD基因分型平臺從四個GS模型得出的GEBV預測。
GS模型估計的GEBV之間的相關性
利用兩個基因分型平臺的數據,用四個GS模型估計的BCWD抗性的GEBVs之間的相關性如補充材料中的表1所示。 GEBV高度相關(0.81-0.99)。如預期中,用BayesB和BayesC估計的GEBV相關性最高(0.97-0.99),其次是用ssGBLUP和wssGBLUP估計的GEBV(0.91-0.93)。
BCWD抗性的遺傳力
使用沒有基因組學數據的PED模型,天數和狀態的遺傳力分別為0.31和0.48(表2)。
EBV的預測能力和偏差
DAYS的EBV的PA(PAEBV = 0.50)高于STATUS的EBV的PA(PAEBV = 0.41)(表2)。 DAYS的EBV偏差(βMPP.EBV= 1.10)低于STATUS的EBV偏差(βMPP.EBV= 0.33),或者DAYS的偏離1.0小于STATUS。這些結果表明,與STATUS的EBV相比,DAYS的EBV估計值具有更高的PA和更低的偏差。
GEBV的預測能力和偏差
對于DAYS,在GS模型和SNP基因分型平臺上,由標記物解釋的遺傳變異比例為h2 M = 0.26- 0.33(表3)。
DAYS的GEBV的PA范圍為PAGEBV = 0.37-0.49。 DAYS的GEBV的偏差范圍為βEBV2.EBV= 0.32-0.69,這表明DAYS的GEBV向上偏移。
對于STATUS,在GS模型和SNP基因分型平臺上,由標記物解釋的遺傳變異比例為h2 M = 0.43-0.54(表4)。
STATUS的GEBV的PA范圍為PAGEBV = 0.26-0.46。 STATUS的GEBV的偏差范圍為βEBV2.EBV= 0.13-0.24,這也表明STATUS的GEBV向上偏移。
總體而言,在GS模型和基因分型平臺上,DAYS GEBV的PA高于STATUS估計的PA,而DAYS的偏差值則較小。
討論
用PED模型估算的遺傳力和用GS模型估算的標記解釋的DAYS遺傳變異比例與先前報道的該物種的BCWD生存STATUS的遺傳力相近。然而,用PED模型估計的遺傳力和用GS模型估計的標記解釋的STATUS遺傳變異的比例要高于我們先前用生存分析模型得出的估計。here the binary data STATUS was analyzed with a threshold model in the underlying scale of disease liability.
用四個GS模型和跨基因分型平臺估算的BCWD抗性的GEBV高度相關(0.81-0.99)。BayesB和BayesC之間的相關性最高(0.97-0.99),其次是ssGBLUP和wssGBLUP之間的相關性(0.91-0.94)。這些結果突出表明,在這個群體中,親本在GS模型中對BCWD抗性的排名非常相似。
另一方面,基于系譜的模型EBV和GEBV之間的相關性僅中度 (0.60;數據未顯示),這表明EBV和GEBV不是該群體中該性狀的動物遺傳價值的相似預測因子。因此,鑒于EBV和GEBV之間的中度相關性,兩種預測方法對親本的排名是不同的,具有最高PA和最小偏差的方法預計將產生更好的性能。
GEBV天數的PAS(PAGEBV=0.37?0.49)高于狀態估計的PAS(PAGEBV=0.26?0.46),反映離散數據DAYS對混合線性模型的擬合比二元數據STATUS與閾值模型的擬合更好。在這項研究中,BCWD抗性基因組預測的準確性在0.26-0.49(表3,4)的范圍內,這接近于用PED模型估計的精度(0.41-0.50;表2);然而,在遺傳力為0.30的情況下,它們與PED模型所能預期的0.55最大實現精度相比仍然較低。
考慮到這里使用的訓練樣本量(n=583)和BCWD抗性的遺傳力為0.30,我們使用確定性表達式(Daetwyler等人,2008年)計算出,如果至少有500個獨立位點影響BCWD抗性,則預期基因組預測的精確度為0.51;這接近于本研究中GEBV的最佳PA。因此,假設至少有500個影響BCWD抗性的獨立位點,并賦予該疾病株的遺傳力為0.30,訓練樣本為3000條和10,000條魚,我們預計預測GEBV的準確度分別為0.80和0.93;這比PED模型EBV的預期實現精度高46和69%。
EBV與GEBV的比較
用四個GS模型和兩個基因分型平臺估計的EBV天數的PA(PAEBV=0.50)(表2)高于GEBV的天數的PA(PAGEBV=0.37?0.49)(表3,圖1A)。而相反,EBV STATUS的PA(PAEBV=0.41)低于在兩個基因型平臺上用ssGBLUP估計的GEBV STATUS的PA(PAGEBV=0.42?0.46)(表4,圖1B)。
EBV對DAYS的偏差(βmpp.EBV=1.10)(表2)低于GEBV DAYS的偏差(βmpp.GEBV=0.32?0.69)從GS模型和基因分型平臺中(表3)。同樣,EBV對狀態的偏差(βmpp.EBV=0.33)(表2)低于GEBV對狀態(βmpp)的偏差。GEBV=0.13?0.24)跨GS模型和基因分型平臺(表4)。
基于系譜的EBV的PA和BIAS與的基于基因組的GEBV的最好PA和BIAS相近,這個GEBV使用ssGBLUP模型進行估計 (圖1,表2-4)。
總體而言,我們使用的樣本量太小,無法評估在這個虹鱒魚種群中GS對BCWD抗性的全部潛力。在這項研究中,驗證樣本中的訓練魚的數量和經過后代測試的FS家系的數量相當有限。因此,增加訓練和驗證群體的樣本量有望提高虹鱒鱒魚的BCWD抗性的PA和GEBV預測的準確性
GS模型之間的比較
在基因分型平臺上,用ssGBLUP(PA GEBV = 0.48-0.49)估算的DAYS的GEBV的PA高于使用BayesB(PA GEBV = 0.39-0.47)和BayesC(PA GEBV = 0.44-0.46)估算的;使用RADs(PAGEBV=0.37)的wssGBLUP表現了DAYS的最差精度,這可歸因于使用相對較小的訓練樣本時的隨機波動(表3)。
類似地,用ssGBLUP(PAGEBV=0.42-0.46)和wssGBLUP(PAGEBV=0.40GEBV=0.43)估計的STATUS GEBV的PA高于在基因分型平臺估計的貝葉斯B(PAGEBV=0.26?0.40)和貝葉斯C(PAGEBV=0.31?0.35) (表4)。
總體而言,在BCWD表型和基因型平臺上,使用ssGBLUP估計的GEBV具有最高的PAGEBV。使用BayesC估計的GEBV具有最低的PAGEBV(表3,4,圖1)。顯然,用ssGBLUP估計的GEBV比用wssGBLUP估計的GEBV有更高的PAGEBV。方法BayesB的性能略高于BayesC約0.06個PAGEBV單位(圖1)。
在BCWD表型和基因分型平臺上,用ssGLBUP計算的GEBV偏差最小或偏離1.0最小(表3,4)。相比之下,用wssGBLUP估計的GEBV是最有偏差的,或者偏離1.0最大。用BayesB和BayesC估計的GEBV對ssGBLUP和wssGBLUP的偏差相似。在貝葉斯方法之間,貝葉斯B的偏差比貝葉斯C小。
最準確的ssGBLUP GEBV(DAYS with Chip)的PA為0.49,僅略好于PA分別為0.47和0.46的BayesB和BayesC估計量。有趣的是,在芯片基因分型平臺上,GBLUP模型的準確性更高,而在RAD平臺上,貝葉斯模型的準確性更好。ssGBLUP在所有表型和基因分型平臺上都優于wssGBLUP。對于STATUS表型,wssGBLUP準確性比貝葉斯模型稍好,但是對于DAYS表型,wssGBLUP準確性較差。在RAD基因分型平臺上,BayesB的準確性優于BayesC,但是在Chip平臺上,BayesC的準確性更高。
先前我們已經證明,在虹鱒種群中,BCWD抗性的遺傳結構是由少數中效大效QTL和多個基因/位點的寡基因遺傳控制的,每個基因/位點的效應都很小(V allejo等人,2010,2014a;Liu等人,2015b;Palti等人,2015b)。因此,考慮到遺傳結構,似乎在單步GS分析中使用譜系和表型記錄以及標記基因型數據的GS模型(Aguilar等,2010; Legarra等,2014)可以產生更高準確性的GEBV比基于收縮或變量選擇模型的方法要高(Garrick和Fernando,2013年)這種選擇模型符合貝葉斯多元回歸模型標記,且具有中度到大型效果。
但是,本研究中ssGBLUP相對于貝葉斯變量選擇模型的優勢非常小,因此應使用較大的訓練和驗證樣本進行驗證。
芯片平臺與RAD平臺的比較
當使用ssGBLUP和wssGBLUP時,芯片基因型平臺具有比RAD基因型平臺具有更高PAGEBV的GEBV(表3,4,圖1)。然而,當使用貝葉斯方法時,RAD具有比芯片基因分型平臺更高PA的GEBV。
總體而言,在BCWD表型和GS模型中,芯片平臺產生的GEBV偏差低于使用RAD估計的GEBV(表3,4)。對于這兩種BCWD表型,僅當使用BayesB時,RAD平臺的GEBV偏差要比Chip估計的偏差低。
芯片和RAD基因分型平臺的基因型數據QC之后有效SNP數分別約為40K和10K。因此,在基因組預測的準確性方面,RAD平臺(PA GEBV = 0.35-0.48)與芯片平臺(PA GEBV = 0.26-0.49)效果一致。
另一項研究還報告說,當對大量標記物進行基因分型并且每個個體的讀取深度≥1x時,使用RAD和SNP標記物基因型數據的GEBV的準確性是相似的(Gorjanc等人,2015)。
RAD或類似的通過測序的基因型方法為基因組資源不發達,難以負擔得起的高密度SNP芯片的物種提供了有吸引力的選擇。然而,SNP芯片的容量高于RAD平臺,并且RAD測序SNP更具家系和群體特異性,這不利于產生具有跨家族和群體信息的普遍SNP的高密度面板。這些SNP可以為整個家庭和種群提供信息。此外,用于SNP芯片的生物信息學流水線更加健全且易于實施,因此,芯片平臺對于大規模基因組基因分型研究更實用。
我們假定相對較低的標記密度RAD與SNP芯片一樣有效,由于虹鱒抗病性系中的大范圍連鎖不平衡。這種大范圍連鎖不平衡可能是因為高度雜交而產生,在這個群體中,有四個不同的馴化品系(Johnson等,2007; Silverstein等,2009)。); 這種雜交同時還減少了種群的小范圍的連鎖不平衡。這些群體遺傳行為可能會降低高密度SNP數據的相對優勢,因為即使是稀疏的標記板也可以捕獲到相當大一部分的現有LD,這可能解釋了RAD在比SNP芯片標記密度底的情況下具有良好性能。 在養殖鮭魚種群中也報道了類似的現象,即高度雜交引起的大范圍LD,可以在相對較低的標記密度下實現有效的GS(?deg?rd等,2014)。)。在本研究中可能有助于RAD平臺相對成功的另一個因素是,許多RAD SNP都是家族特異性的,因此,因此,通過RAD基因型數據可以更好地在某些家族中代表某些QTL的基因組區域。