predicting Growth and Carcass traits in swine Using Microbiome Data and Machine Learning Algorithms
使用微生物組數(shù)據(jù)和機(jī)器學(xué)習(xí)算法預(yù)測豬的生長和胴體性狀
Christian Maltecca,Due Lu
閱讀者:王靖文
摘要:在本文中,我們評估了在生長測試期(斷奶期,15周和22周)的三個時間點采取的微生物組測量的功效,以預(yù)測一系列雜交豬的1039個個體的生長和胴體性狀。我們將預(yù)測準(zhǔn)確度測量為五重交叉驗證設(shè)置中實際和預(yù)測表型之間的相關(guān)性。測量的表型性狀包括活體重量測量和在試驗期間以及屠宰時獲得的胴體組成。我們采用了一個零模型,不包括微生物組信息作為基線來評估預(yù)測準(zhǔn)確性的增加,這是因為將操作分類單位(OTU)作為預(yù)測因子。我們進(jìn)一步對比了貝葉斯套索(Bayesian Lasso)以及機(jī)器學(xué)習(xí)方法(隨機(jī)森林和梯度提升)和半?yún)?shù)核心模型(再生核心希爾伯特空間)的模型的性能。在大多數(shù)情況下,預(yù)測精度隨著微生物群數(shù)據(jù)的加入而顯著提高。在第15周和第22周采集的微生物群信息,其準(zhǔn)確性更為顯著,其值從腰狀特征的0.30到背部脂肪的0.50以上不等。相反,斷奶時的微生物組組成導(dǎo)致大多數(shù)情況下預(yù)測準(zhǔn)確性的邊際增益,這表明后期測量可能更有助于在預(yù)測模型中納入。模型選擇對預(yù)測的影響很小,沒有任何模型/特征/時間點的明顯贏家。因此,我們建議將跨模型的平均預(yù)測作為擬合微生物組信息的穩(wěn)健策略。總之,微生物組組合物可以有效地用作生長和組成性狀的預(yù)測因子,特別是對于肥胖性狀。加入otU預(yù)測因子可能會促進(jìn)個體的快速生長,同時限制脂肪積累。早期的微生物群落測量可能不是生長的良好預(yù)測指標(biāo),otU 信息最好在后期生命階段收集。未來的研究應(yīng)側(cè)重于將微生物組和宿主基因組信息納入預(yù)測,以及兩者之間的相互作用。此外,應(yīng)研究微生物組對飼料效率以及胴體和肉質(zhì)的影響。
生產(chǎn)可銷售肉類產(chǎn)品的效率主要取決于與飼料相關(guān)的成本以及所生產(chǎn)的瘦肉的數(shù)量和質(zhì)量。更有效地利用飼料資源已成為畜牧業(yè)面臨的一項挑戰(zhàn)。最近一直在努力發(fā)現(xiàn)和利用個體豬的基因組變異性,提高飼料效率。盡管取得了成功,但這種方法還存在與獲得準(zhǔn)確的個體采食記錄以及定義和使用不同飼料效率措施相關(guān)的后勤和技術(shù)限制。也許最重要的是,持續(xù)的努力只集中在豬的效率變異上,這將不可避免地導(dǎo)致邊際收益減少,隨著時間的推移伴隨著整體適應(yīng)性和遺傳多樣性的喪失。存在于個體腸道中的細(xì)菌的數(shù)量和類型是所有哺乳動物的關(guān)鍵部分。微生物組的構(gòu)成代表了巨大的基因組的多樣性,其有助于生理和健康。特別是,腸道微生物組直接影響碳水化合物的降解,提供短鏈脂肪酸,減輕和改變潛在有毒化合物的影響,并產(chǎn)生必需的維生素。環(huán)境因素的影響,如營養(yǎng)壓力因素,以及與斷奶和管理相關(guān)的挑戰(zhàn)在豬身上已經(jīng)表征出來。盡管如此,健康的微生物生態(tài)系統(tǒng)的組成和功能尚未被定性和定量地定義,并沒有被用作最大限度提高動物健康和性能的工具。特別是,微生物組組成尚未在大規(guī)模上進(jìn)行研究,包括通過幾個生產(chǎn)階段進(jìn)行的大量抽樣。在本文中,我們評估了基于糞便樣本的微生物組預(yù)測的能力,以預(yù)測健康雜交豬群體的生長和胴體組成。在這樣做的過程中,我們采用了典型的宿主基因組預(yù)測機(jī)制,包括貝葉斯字母模型以及半?yún)?shù)和機(jī)器學(xué)習(xí)算法。
在這項工作中,我們評估了縱向微生物組數(shù)據(jù)的有效性,以預(yù)測豬的生長和胴體組成。 為此,我們使用并對比模型,在基因組選擇領(lǐng)域被證明是成功的,以便為將來在選擇計劃中將微生物群信息納入日常目的提供藍(lán)圖。我們在交叉驗證設(shè)置中評估了所提出的模型的性能。我們進(jìn)一步測試了基于混合模型的后分析的整體實驗設(shè)計。
隨著時間的推移而改變的微生物群。?Lu及其同事最近詳細(xì)描述了當(dāng)前數(shù)據(jù)中三個時間點(斷奶,15周和22周)的生物分類豐度分布。由于當(dāng)前論文的目的不是提供所測數(shù)據(jù)的生態(tài)景觀,因此請讀者參考該論文以獲取更多詳細(xì)信息。簡而言之,在養(yǎng)豬的三個不同階段,分別有14、21、29、54、106和202個已識別的門、綱、目、科、屬、種。對于這三個采樣點,將95.79-97.80%的OTU分為六個門:硬毛菌,擬桿菌屬,變形桿菌,融合細(xì)菌,螺旋體和放線菌。菌門中的細(xì)菌占總種群的大部分,其次是擬桿菌。為了評估微生物組預(yù)測表型指標(biāo)的能力,我們進(jìn)行了初步分析,以調(diào)查不同的采樣時間如何影響糞便的微生物組的組成。為此,我們擬合了一個隨機(jī)森林模型,該模型與用于生長和胴體特征的模型相似(請參見方法),在這種情況下唯一的區(qū)別是,該模型用于將每個觀測值劃分為三個采樣時間之一。我們在圖1中報告了五重分類的結(jié)果,該結(jié)果描述了在斷奶,15周和22周時的歸一化分類混淆矩陣。單個時間測量構(gòu)成了三個不同的微生物種群。在所有情況下,分類的準(zhǔn)確性都非常高(> 95%)。 15周和22周的誤分類率略高(-3%)。這一結(jié)果與Lu及其同事的報告相一致,在斷奶時發(fā)現(xiàn)了兩種不同的微生物腸型,但在后來的時間點發(fā)現(xiàn)了兩種不同的聚集型。在補(bǔ)充材料中可以找到其他信息,其中報告了隨時間變化的豐度(補(bǔ)充圖1),主坐標(biāo)分析(補(bǔ)充圖2)和不同時間點種群的顯著對數(shù)倍數(shù)變化(補(bǔ)充圖3)
圖1. 三個時間點的微生物群落成分的標(biāo)準(zhǔn)化分類混淆矩陣。Wean=斷奶15wk = 15 weeks, 22wk = 22 weeks. 通過 RF 模型從五倍交叉驗證中獲得的混淆矩陣。
圖2.斷奶時微生物組組成預(yù)測的準(zhǔn)確性。組(A)日增重特征的準(zhǔn)確性,組(B)14周特征的準(zhǔn)確性,組(C)22周特征的準(zhǔn)確性,組(D)模型/特征組合的90%置信區(qū)間。 使用RF模型從五重交叉驗證中獲得的混淆矩陣。 BL =貝葉斯套索,RF =隨機(jī)森林,GBM =梯度提升機(jī),RKHS =復(fù)制內(nèi)核希爾伯特空間。ADGBto14 =到第14周的平均日增重,ADGWto14 =到第14周的平均日增重,ADG14to22 =第22到第22周的日均增重,ADG14toMKT =進(jìn)入市場的第14周的平均日增重, Week14Wt = 第14周的體重, Week14BF = 第14周的背脂, Week14LD = 第14周的腰部深度, Week14LEA =第14周的腰部眼肌, Week22Wt = 第22周的體重, Week22BF =第22周的背脂, Week22LD = 第22周的腰部深度, Week22LEA =第22周的腰部眼肌. 紅色輪廓線表示預(yù)測與零模型有顯著差異。
圖3.第15周微生物組組成預(yù)測的準(zhǔn)確性。圖(A)為日增重性狀的準(zhǔn)確性,圖(B)為第14周性狀的準(zhǔn)確性,圖(C)為第22周性狀的準(zhǔn)確性,圖(D)90%置信度 模型/特征組合的間隔。 使用RF模型從五重交叉驗證中獲得的混淆矩陣。 BL =貝葉斯套索,RF =隨機(jī)森林,GBM =梯度提升機(jī),RKHS =復(fù)制內(nèi)核希爾伯特空間。 ADGBto14 =到第14周的平均日增重,ADGWto14 =到第14周的平均日增重,ADG14to22 =第22周到第22周的平均日增重,ADG14toMKT =進(jìn)入市場的第14周的平均日增重,Week14Wt = 第14周的體重, Week14BF= 第14周的背脂, Week14LD= 第14周的腰部深度, Week14LEA= 第14周的腰部眼肌, Week22Wt= 第22周的體重, Week22BF= 第22周的背脂, Week22LD= 第22周的腰部深度, Week22LEA=第14周的腰部眼肌. 紅色輪廓線表示預(yù)測與零模型有顯著差異。?
交叉驗證突出了微生物組對生長和胴體預(yù)測的顯著作用。
我們首先評估了微生物組數(shù)據(jù)在預(yù)測健康雜種公羊中若干生長參數(shù)方面的功效,這些雜種公羊起源于28個成年父系的交配。為此,我們考慮了:在生長試驗的第14周和第22周測量的體重,背部脂肪,腰部面積和深度特征以及同一時期的日增重量。這些與在斷奶時以及試驗的第15周和第22周從同一個人獲得的糞便微生物組信息結(jié)合在一起。使用交叉驗證方案對每個特征進(jìn)行獨立分析,其中使用一些樣本的表型和OTU訓(xùn)練統(tǒng)計模型,其余用于驗證預(yù)測。我們在分析中考慮了三類模型:一種來自貝葉斯字母系的模型,貝葉斯拉索(BL);兩種機(jī)器學(xué)習(xí)方法,隨機(jī)林(RF)和梯度提升機(jī)(GBM);和一個半?yún)?shù)方法,再生內(nèi)核希爾伯特空間(RKHS)。我們選擇這些模型作為牲畜和農(nóng)作物中基因組預(yù)測最廣泛使用的方法的代表。我們這樣做是為了強(qiáng)調(diào)當(dāng)前工作中提出的分析與基因組選擇方法在范圍和方法上的相似性,并提供了擴(kuò)展的基礎(chǔ),將基因組信息納入未來的比較。
圖2、3和4報告了每種性狀,糞便微生物組時間點和方法組合的預(yù)測準(zhǔn)確性。微生物組對預(yù)測的貢獻(xiàn)被測量為與零模型的偏差,該模型僅包括性別,父系,斷奶時體重和重復(fù)的影響。應(yīng)該注意的是,在所有情況下,在提出的每種算法中都擬合了空模型。為了便于比較,將空模型的性能表示為各個方法中空模型的平均值。在大多數(shù)情況下,相對于零模型,將OTU豐度包含在預(yù)測模型中可提高準(zhǔn)確性。盡管如此,該量根據(jù)微生物組時間點而變化。通常,在斷奶時包括微生物組組成對于日增重性狀以及在第15周和第22周獲得的胴體指標(biāo)具有較低的預(yù)測能力(圖2)。對于日增重特征(面板A),微生物組信息的納入使預(yù)測準(zhǔn)確性提高了約3%,但在所有情況下,對于所有算法,預(yù)測的90%CI(面板C)在null模型和biom模型之間重疊采用。無論微生物組信息是否包含在內(nèi),都比早期生長更好地預(yù)測了試驗后期的日增重。在第14周和第22周測得的胴體性狀也觀察到類似的趨勢,對于零模型和OTU模型,預(yù)測范圍從腰部深度的約15%(B,C組)到背脂肪的約40%。相反,第15周的微生物組組成大大提高了測試集中的準(zhǔn)確性(圖3)。數(shù)量取決于性狀/時間組合。總的來說,正如預(yù)期的那樣,對于與微生物組采樣同時進(jìn)行測量的性狀,微生物組組成的預(yù)測準(zhǔn)確性更高。對于日常增益特征(面板 A),包含微生物群信息可提高早期生長預(yù)測的準(zhǔn)確性,從出生到第 14 周和從絕育到第 14 周每天增益的空模型的預(yù)測精度為 ±20%,對相同的兩個特征而言,從 14 到 40 和 45%。同樣,對于在第14周測量的所有特征(圖B),微生物組信息顯著提高了預(yù)測準(zhǔn)確性,體重和背脂肪的增幅分別為~0.20,腰部深度和面積的增幅分別為~0.05和0.10。第22周的性狀也有相似的趨勢,盡管增加的幅度較小,并且某些性狀(體重除外)重疊90%CI(圖D)。圖4描繪了在第22周測量的微生物組的交叉驗證預(yù)測結(jié)果。應(yīng)當(dāng)指出,鑒于采樣的時間連續(xù),由于措施的時間繼承,在第14周測量的表型和第22周的微生物群的組合應(yīng)謹(jǐn)慎解釋。同樣,對于大多數(shù)性狀,微生物組信息提高了預(yù)測準(zhǔn)確性。但是,對于大多數(shù)特征/模型組合而言,增加并不顯著。具體來說,著眼于第22周的性狀,只有OTU才使體重和背脂受益,背脂的增幅為~0.08,體重的增幅為~0.05。有趣的是,包括OTU的豐度并沒有提高以后日收益特征(從第14周到第22周以及從第14周到上市)的預(yù)測準(zhǔn)確性。
給出的結(jié)果與其他研究中觀察到的結(jié)果一致。他和他的同事發(fā)現(xiàn),豬腸道微生物組對脂肪有中等程度的影響,微生物組的平均表背脂肪和腹部脂肪重量的表型差異分別為1.5%至2.73%。同樣,F(xiàn)ang及其同事在生長中的豬中發(fā)現(xiàn)了119個與肌肉內(nèi)脂肪相關(guān)的OTU。此外,McCormack等鑒定了幾種可能與豬飼料效率有關(guān)的腸道微生物,Yang等鑒定了杜洛克豬中與殘留飼料攝入有關(guān)的兩種潛在腸型。關(guān)于日增重和體重的數(shù)據(jù)還比較稀少,例如,Ramayo等。根據(jù)OTU的豐度確定了仔豬群,這些豬群與60天體重和平均日增重顯著相關(guān)。值得注意的是,在大多數(shù)情況下,這些研究都側(cè)重于細(xì)菌生態(tài)種群的識別或與特定表型相關(guān)的特定OTU的識別。就我們所知,這是首次嘗試嚴(yán)格表征微生物組對豬和一般牲畜的生長和胴體性狀的總體預(yù)測能力。在我們的分析中,大多數(shù)情況下,微生物組組成數(shù)據(jù)的加入提高了預(yù)測準(zhǔn)確性,超出了確定幾個重要生物分類單位的預(yù)期精度,與幾種牲畜物種的基因組預(yù)測中觀察到的結(jié)果無異,表明不同OTU和微生物群組合物之間的互連比先前研究中強(qiáng)調(diào)的更為復(fù)雜。此外,越來越多的文獻(xiàn)表明豬和它的元基因組之間有著豐富的相互作用。有效地將微生物組信息納入選擇程序既是挑戰(zhàn),也是機(jī)遇。微生物群可能被認(rèn)為是一個完全環(huán)境變異的來源,但至少部分是處于宿主的直接控制之下。當(dāng)前分析中使用的方法在整合由微生物組和宿主基因組數(shù)據(jù)的可用性所產(chǎn)生的全范圍變異性方面將被證明具有極大的靈活性。這些方法中的某些方法可以直接按照GxE示例應(yīng)用于植物和牲畜。
選擇模型會部分影響預(yù)測準(zhǔn)確性,其結(jié)果取決于時間特征組合。我們調(diào)查了將微生物組信息納入豬生長和胴體表型預(yù)測的不同模型類別的有效性。我們選擇了從完全參數(shù),半?yún)?shù)到非參數(shù)的模型,以識別并且可能捕獲OTU組成的復(fù)雜的相互依存結(jié)構(gòu)。針對每個特征時間點組合對模型進(jìn)行了獨立測試。我們將包括微生物群成分在內(nèi)的模型與僅包括一般設(shè)計因子的基線模型進(jìn)行比較,從而評估性能(參見方法)。貝葉斯套索是“貝葉斯字母” 家族的模型之一,由于其能夠有效處理基因組預(yù)測中的小問題,并提供了特征選擇的框架,因此在基因組選擇中廣受歡迎。 BL由Xu等人和de los Campos等人提出。我們選擇它作為參數(shù)模型類別中最強(qiáng)大和最受歡迎的選擇之一。再現(xiàn)內(nèi)核希爾伯特空間是一類特別靈活的半?yún)?shù)模型,已被提出來擬合復(fù)雜的多維數(shù)據(jù)。由于Gianola和同事和de los Campos等人的工作,它們最近在牲畜和農(nóng)作物育種中越來越受歡迎。此類模型依賴于選擇適當(dāng)?shù)膬?nèi)核,然后用于與育種設(shè)置中常用的混合模型不同的形式模型。隨機(jī)森林是一種將決策樹擬合到數(shù)據(jù)集的各種子樣本的整體方法。隨機(jī)林模型通常具有強(qiáng)于過度擬合性,可以捕獲數(shù)據(jù)中的復(fù)雜交互結(jié)構(gòu)。梯度提升是一種替代性的集成方法,旨在通過形成具有比單個預(yù)測器更高的預(yù)測能力的預(yù)測器委員會,在這種情況下以順序方式組合預(yù)測器。
圖3、4和5的面板D描繪了每個模型特征組合的點估計和90%CI。在大多數(shù)情況下,模型的選擇是洗。在我們的分析中,我們無法確定一個明確的贏家,并且大多數(shù)情況下,模型的配置項存在很大重疊。就CI的排名和大小而言,可再生內(nèi)核希爾伯特空間模型成為最穩(wěn)定的方案,其次是貝葉斯套索和隨機(jī)森林,而梯度提升在整個特征時間表現(xiàn)出最大的變化。在斷奶時,梯度提升模型在某些情況下的表現(xiàn)要比零模型差。但是,這并不奇怪,因為在大多數(shù)情況下,斷奶時的微生物組數(shù)據(jù)對模型的學(xué)習(xí)幾乎沒有貢獻(xiàn)。我們的結(jié)果與在植物和家畜中通過基因組信息預(yù)測復(fù)雜性狀所觀察到的結(jié)果相似,在不同條件下,不同類別的模型表現(xiàn)相似,因此在大多數(shù)情況下,模型的選擇是比潛在的生物信號更依賴數(shù)量和數(shù)據(jù)結(jié)構(gòu)。需要注意的是,雖然DNA多態(tài)性-信息預(yù)測標(biāo)記信息在某種程度上是一個固定參數(shù),OTU組合體在個體和實驗設(shè)置之間可能更具變異性,由于取樣程序、環(huán)境條件以及用于獲取分類單元的生物信息學(xué)機(jī)械的變化。雖然我們確實認(rèn)識到,某些變異性無法通過統(tǒng)計建模得到有效管理,但我們也認(rèn)為,其中一些模型在處理此類變異源時可能更為靈活。這應(yīng)該是進(jìn)一步研究的主題,并且超出了本文的范圍。
圖4.第22周時微生物組組成的預(yù)測準(zhǔn)確性。圖(A)為日增重性狀的準(zhǔn)確性,圖(B)為第14周性狀的準(zhǔn)確性,圖(C)為第22周性狀的準(zhǔn)確性,圖(D)90%置信度 模型/特征組合的間隔。 使用RF模型從五重交叉驗證中獲得的混淆矩陣。 BL =貝葉斯套索,RF =隨機(jī)森林,GBM =梯度提升機(jī),RKHS =復(fù)制內(nèi)核希爾伯特空間。 ADGBto14 =到第14周的平均日增重,ADGWto14 =到第14周的平均日增重,ADG14to22 =第22周到第22周的平均日增重,ADG14toMKT =進(jìn)入市場的第14周的平均日增重,Week14Wt = 第14周的體重, Week14BF = 第14周的背脂, Week14LD = 第14周的腰部深度, Week14LEA = 第14周的腰部眼肌, Week22Wt = 第22周的體重, Week22BF = 第22周的背脂, Week22LD = 第22周的腰部深度, Week22LEA =第14周的腰部眼肌. 紅色輪廓線表示預(yù)測與零模型有顯著差異。
圖5.斷奶第14周和第22周時模型預(yù)測微生物組組成的平均準(zhǔn)確度。Null =空模型的平均值。 生物群=微生物組模型的平均值。 ADGBto14 =到第14周的平均日增重,ADGWto14 =到第14周的平均日增重,ADG14to22 =第22周到第22周的平均日增重,ADG14toMKT =進(jìn)入市場的第14周的平均日增重,Week14Wt = 第14周的體重, Week14BF = 第14周的背脂, Week14LD = 第14周的腰部深度, Week14LEA = 第14周的腰部眼肌, Week22Wt = 第22周的體重, Week22BF = 第22周的背脂, Week22LD = 第22周的腰部深度, Week22LEA =第14周的腰部眼肌. 紅色輪廓線表示預(yù)測與零模型有顯著差異。
在這項工作中,并認(rèn)識到這種復(fù)雜性,我們試圖克服這些限制,獲得預(yù)測精度平均模型。該分析的結(jié)果是通過匯總重復(fù)項和方法中的信息而獲得的,并顯示在圖6中。在這種情況下,結(jié)果提供了兩個相互競爭的模型:一個無效模型(再次通過各種方法合并了無效擬合)和一個微生物組模型(biom),通過平均每個特征/方法組合的效果來獲得。大部分結(jié)果概括了上一節(jié)中的內(nèi)容。在某些情況下,無效模型和微生物組模型之間的差異縮小了(例如,第22周的背部脂肪)。表1中報告了競爭性狀/模型組合的均方誤差(MSE)。結(jié)果大部分概括了MSE的精度,對于包括微生物群信息在內(nèi)的模型,尤其是wk15和wk22,以及隨特征/時間點而變化的模型。不過,與零模型相比,大多數(shù)情況下的差異更細(xì)微,在某些情況下(例如Week14Wt和Week22Wt),微生物組模型在MSE方面的表現(xiàn)不如零模型。因此,應(yīng)謹(jǐn)慎解釋某些比較的結(jié)果,并應(yīng)進(jìn)行更大樣本量的進(jìn)一步研究。
后分析結(jié)果。我們試圖通過交叉驗證研究的后分析來評估設(shè)計中所有因素對預(yù)測性能的總體影響。為此,我們采用了標(biāo)準(zhǔn)的LMM方法(請參見方法),獲得分析中所有變量的最小平方平均估計值和對比度。即我們擬合了包含微生物群信息的效果、用于分析的算法、糞便微生物群采樣的時間點、分析的特征以及所有成對相互作用。在這種情況下,響應(yīng)變量是交叉驗證實驗中預(yù)測的準(zhǔn)確性。該研究的結(jié)果記錄在表2和圖7中。表2報告了整個實驗設(shè)計的III型ANOVA。除了算法和特質(zhì)之間的相互作用外,所有因素及其相互作用都非常重要。算法和時間點之間的交互作用也剛好低于P <0.05的顯著性閾值。圖7描繪了主要主效應(yīng)及其相互作用的最小二乘法。微生物組數(shù)據(jù)的納入(所有其他因素的平均值)使模型的預(yù)測能力比無效模型提高了約4%(0.321對0.281)。在前面提到的模型中,GBM是預(yù)測能力最低的模型(0.26),而RKHS是預(yù)測能力最高的模型(0.32),盡管與貝葉斯拉索算法和隨機(jī)森林算法幾乎相同。與斷奶相比,第15周收集的微生物組信息具有最高的預(yù)測能力(0.335),而斷奶的前兩者之間的差異最低。分別為?5%和?4%。每日增益特征和背部脂肪特征預(yù)測最好,而腰部特征,無論是面積還是深度,其準(zhǔn)確性最低。不同模型之間的相互作用以及微生物組數(shù)據(jù)的包含再次表明,無論是否存在微生物組數(shù)據(jù),RKHS模型均表現(xiàn)最佳。有趣的是,隨機(jī)森林算法和梯度增強(qiáng)算法都是通過包含OTU信息獲得最大收益的算法,與兩種情況下的5%的零模型相比都有改進(jìn)。時間點-算法交互方面也觀察到了類似的趨勢。最后,微生物群信息與時間點的相互作用突出表明,在我們的數(shù)據(jù)中,第 15 周收集的微生物群信息的表現(xiàn)大為優(yōu)于 (約10%)所有其他時間點(以及無效模型)。據(jù)我們所知,這是正式評估牲畜中微生物組預(yù)測的首次嘗試。可比模型已與人類微生物組數(shù)據(jù)一起用于預(yù)測疾病,并與土壤微生物組數(shù)據(jù)一起用于預(yù)測作物產(chǎn)量。在這兩種情況下,微生物組數(shù)據(jù)的使用都提高了預(yù)測能力,但是鑒于范圍和措施的多樣性,很難進(jìn)行直接比較。
圖6.最小二乘均值和SE的主要作用和相互作用,用于實驗設(shè)計的后分析。時間點= 3個級別(斷奶,15周,22周),算法= 4個級別(貝葉斯套索,再現(xiàn)核希爾伯特空間,隨機(jī)森林,梯度增強(qiáng)機(jī))特性= 12個級別(“ ADGBto14”,“ ADGWto14”,“ ADG14to22” ,“ ADG14toMKT”,“ Week14Wt”,“ Week14BF”,“ Week14LD”,“ Week14LEA”,“ Week22Wt”,“ Week22BF”,“ Week22LD”,“ Week22LEA”),Biom = 2個級別(無效,微生物組)。 所有帶有(:)的元素表示成對交互。?
圖7.總體實驗設(shè)計。BL =貝葉斯套索,RF =隨機(jī)森林,GBM=梯度增強(qiáng),RKHS =再現(xiàn)內(nèi)核希爾伯特空間。 ADG =平均每日收益。
討論
一般來說,我們的交叉驗證強(qiáng)調(diào)了良好的預(yù)測能力,但結(jié)果因所考慮的時間點和特征而有很大差異。從我們的研究中,采樣時間可能是將微生物群信息集成到生長預(yù)測模型中的關(guān)鍵因素。我們的數(shù)據(jù)表明,在生長試驗中期測量的樣品將提供最多的信息量。相反,微生物組組成的早期測量可能無法提供足夠的信息。這與最近的研究有些不同,這些研究發(fā)現(xiàn),在早期階段,不同的腸型與生長特征有關(guān)。根據(jù)我們的經(jīng)驗,正如Lu等人所強(qiáng)調(diào)的,在早期時間點將個體聚集可能是仔豬或多或少迅速適應(yīng)斷奶時通常發(fā)生的飲食變化的結(jié)果。我們認(rèn)為應(yīng)該對此進(jìn)行進(jìn)一步調(diào)查。在本文中,我們認(rèn)為每個時間點的研究都是獨立的。這是一種簡化,我們允許構(gòu)建一個簡單的交叉驗證實驗來測試不同的變量。盡管如此,今后使用縱向模型將提供一種更有力的方法來研究微生物群組成變化的重要性,以及這些變化如何影響牲畜的生長效率。
到目前為止,在縱向數(shù)據(jù)預(yù)測的背景下開發(fā)的一些深度學(xué)習(xí)模型應(yīng)該可以更好地理解微生物組組成變化與表型結(jié)果之間的復(fù)雜相互作用。盡管如此,還需要更多的個體以及更深入的采樣,才能達(dá)到必要的數(shù)據(jù)粒度,使這些方法具有吸引力。在我們的研究中,生長性狀和脂肪性狀均具有良好的預(yù)測能力。此外,當(dāng)前的研究是在單個雜交種群中進(jìn)行的。為了有效利用豬的微生物群落變異性,應(yīng)調(diào)查更多的種群/品種,因為豬體內(nèi)OTU成分的變異性較大。在這項工作中,我們建立了一個框架,以后可以擴(kuò)展到不僅包括微生物組信息,還包括宿主基因組數(shù)據(jù),以更好地表征和管理環(huán)境,并解決宿主和外來變異之間的復(fù)雜關(guān)系。微生物組組成可以有效地用作生長和組成性狀的預(yù)測指標(biāo),尤其是對于脂肪性狀。包含OTU預(yù)測因子可潛在地用于促進(jìn)個體的快速生長,同時限制脂肪的積累。早期的微生物組指標(biāo)可能不能很好地預(yù)測生長,而OTU信息則可能在生命的后期階段得到最好的收集。應(yīng)該注意的是,在當(dāng)前的論文中,我們已經(jīng)將微生物成分作為一個整體預(yù)測因素,并且我們并未嘗試確定一個重要的OTU子集來減少預(yù)測因素的空間。這種方法將產(chǎn)生更強(qiáng)大和可移植的結(jié)果,特別是用于選擇目的。但是,補(bǔ)充材料中報告了與時間/特征的每種組合顯著相關(guān)的各個OTU的更多信息(補(bǔ)充表1)。
方法
動物。本研究中使用的豬在由The Maschhoffs LLC(美國伊利諾伊州卡萊爾)經(jīng)營的商業(yè)環(huán)境中生長。因此,數(shù)據(jù)收集不需要動物使用許可。當(dāng)前研究的后代來自二十八頭純種杜洛克種公,來自正在選擇瘦肉的杜洛克種群,與大白×長白或長白×大白母豬交配。所產(chǎn)生的后代在18.6天(±1.09)斷奶,然后轉(zhuǎn)移到育苗場。
在這里,個體被分為20只豬一組。每組都是同父異母兄弟的姐妹,性別相同,體重相似。我們對這一基本實驗?zāi)K進(jìn)行了六次重復(fù)實驗,每組均來自28頭母豬,每支由2個組組成(雌性一組,一組被閹割的雄性)。試驗期從豬進(jìn)入育苗場的那天開始。在育苗期,生長期和肥育期向個體喂食標(biāo)準(zhǔn)顆粒飼料。提供了飲食配方及其營養(yǎng)價值[參見附加文件1]。豬接受了標(biāo)準(zhǔn)的疫苗接種和藥物常規(guī)治療。當(dāng)組中的所有豬的平均活重達(dá)到136 kg時,以組為基礎(chǔ)的測試結(jié)束。他們的平均收割年齡為196.4天(±7.86)。我們在三個時間點將組在所有豬中收集了直腸拭子:斷奶,斷奶后15周(平均118.2±1.18天,以下簡稱“ wk15”)和斷奶后22周(平均196.4天±7.86天,之后) “wk22”)。每只豬隨機(jī)選擇四頭豬進(jìn)行瘦肉胴體生長測定,并將其直腸拭子用于微生物組測序。
最后,在第15周和第22周斷奶時的樣本數(shù)量分別為1205、1295和1283。 在所有三個時間點收集了1039只動物的樣本。 提供了有關(guān)樣本在家族,時間點和性別上分布的更多詳細(xì)信息。 在14周和22周,在動物身上記錄下腰深、腰部面積以及背部脂肪厚度和重量,并記錄為商品重。這些措施在下文中分別稱為Week14LEA,Week14LD,Week14BF,Week14Wt和Week22LEA,Week22LD,Week22BF,Week22Wt。 同樣,從出生到第14周(ADGB14),從斷奶到第14周(ADGW14)從第14周到第22周(ADG1422)和從第14周到上市(ADG14MKT)的活重差異來衡量平均日增重。 表3報告了當(dāng)前分析中使用的特征摘要。
表1. 5倍交叉驗證的特征/模型/年齡類別的每種組合的均方誤差平均值和標(biāo)準(zhǔn)差。 BL =貝葉斯套索,RF =隨機(jī)森林,GBM =梯度提升機(jī),RKHS =復(fù)制內(nèi)核希爾伯特空間。 ADGBto14 =到第14周的平均日增重,ADGWto14 =到第14周的平均日增重,ADG14to22 =第22周到第22周的平均日增重,ADG14toMKT =進(jìn)入市場的第14周的平均日增重,Week14Wt = 第14周的體重, Week14BF = 第14周的背脂, Week14LD = 第14周的腰部深度, Week14LEA = 第14周的腰部眼肌, Week22Wt = 第22周的體重, Week22BF = 第22周的背脂, Week22LD = 第22周的腰部深度, Week22LEA =第14周的腰部眼肌.
表2.實驗設(shè)計的后分析ANOVA表。 時間點= 3個級別(斷奶,15周,22周),算法= 4個級別(貝葉斯套索,再現(xiàn)內(nèi)核希爾伯特空間,隨機(jī)森林,梯度增強(qiáng))特性= 12個級別(“ ADGBto14”,“ ADGWto14”,“ ADG14to22”, “ ADG14toMKT”,“ Week14Wt”,“ Week14BF”,“ Week14LD”,“ Week14LEA”,“ Week22Wt”,“ Week22BF”,“ Week22LD”,“ Week22LEA”),生物素= 2級(無效,微生物組)。 所有帶有(:)的行均表示成對交互。
表3.研究中使用的表型摘要。 ADGBto14 =到第14周斷奶的平均日增重,ADGWto14 =到第14周斷奶的平均日增重,ADG14to22 =第14周的平均日增重,第22周,ADG14toMKT =進(jìn)入市場14的平均日增重,Week14Wt = 第14周的體重, Week14BF =第14周的背脂, Week14LD =第14周的腰部深度, Week14LEA =第14周的腰部面積 , Week22Wt=第22周的體重, Week22BF =第12周的背脂, Week22LD= 第22周的腰部深度, Week22LEA =第22周的腰部面積.
DNA提取和純化。通過苯酚:氯纖維的機(jī)械破壞從每個直腸拭子中提取總DNA(gDNA)。簡而言之,將650 pL提取緩沖液(200 mM Tris; 200 mM NaCl; 20 mM EDTA,pH 8.0)添加到每支拭子中,這些拭子存儲在2 mL自立式螺旋蓋管(Axygen,CA,美國)中。使用Mini-BeadBeater-96(MBB-96; BioSpec,OK,美國)搖動試管20秒鐘,以從拭子頭中取出樣品材料。短暫離心(10 s;500×g)以拉下所有脫落的物質(zhì)后,使用無菌鑷子將每個拭子頭從其試管中取出。將樣品在-80°C下冷凍成固體,然后將大約250 pL的0.1 mm氧化鋯/二氧化硅珠(BioSpec)和3.97 mm不銹鋼球添加到樣品中(仍保持冷凍以避免飛濺)。使樣品短暫融化,然后加入210 pL 20%SDS和500 pL苯酚:氯仿:IAA(25:24:1,pH 8.0)。在MBB-96上進(jìn)行珠擊(4分鐘;室溫),將樣品離心(3220×g; 4分鐘),然后將250 pL水相轉(zhuǎn)移至新試管中。然后使用QIAquick 96 PCR純化試劑盒(Qiagen,MD,USA)進(jìn)一步純化100 pL粗DNA。按照制造商的說明進(jìn)行純化,但需進(jìn)行以下較小改動:(i)將乙酸鈉(3 M,pH 5.5)添加到緩沖液PM中,終濃度為185 mM,以確保基因組DNA與硅膠膜的最佳結(jié)合; (ii)將粗DNA與4體積的Buffer PM(而不是3體積)混合; (iii)用100 pL Buffer EB(而不是80 pL)洗脫DNA。
Illumina文庫的制備和測序。?使用Faith等描述的策略,對16S rRNA基因的V4區(qū)(515-806)進(jìn)行了分階段的雙向擴(kuò)增,以生成用于Illumina測序的索引文庫。 在以等摩爾比合并之前,使用Qubit dsDNA測定試劑盒(Thermo Fisher Scientific Inc.,MA,USA)對擴(kuò)增子文庫進(jìn)行定量。 根據(jù)制造商的說明,使用Agencourt AMPure XP磁珠(Beckman Coulter)純化這些最終合并液。純化池輔以 5-10% PhiX 控制 DNA,并使用 600v3 試劑盒在 Illumina MiSeq 機(jī)器上測序成成對端 2x250 + 13 bp指數(shù)反應(yīng)。未解的 FASTQ 文件由 MiSeq 報告器生成。所有測序均在圣路易斯華盛頓大學(xué)基因組科學(xué)與系統(tǒng)生物學(xué)中心的DNA測序創(chuàng)新實驗室進(jìn)行。
16S rRNA基因測序和數(shù)據(jù)質(zhì)量控制。首先使用FLASh v1.2.11將成對的V4 16S rRNA基因序列對合并為單個序列,要求重疊至少100個且不超過250個堿基對,以提供可靠的重疊。然后使用PRINSEQ v0.20.449濾出平均質(zhì)量得分低于Q35的序列。序列以正向定向,并且任何引物序列都經(jīng)過匹配和修剪;在引物匹配期間,最多允許1個錯配。序列隨后使用 QIIME v1.950 進(jìn)行多路復(fù)用。然后使用具有以下設(shè)置的QIIME將具有> 97%核苷酸序列同一性的序列聚類為可操作的分類單位(以下稱“ OTU”):max_accepts = 50,max_rejects = 8,percent_subsample = 0.1和--suppress_step4。 GreenGenes的修改版本(Greengenes數(shù)據(jù)庫聯(lián)盟51-53)被用作參考數(shù)據(jù)庫。然后,將具有10%讀取但未命中參考數(shù)據(jù)庫的輸入序列與UCLUST54從頭進(jìn)行聚類,以生成新的參考OTU,其余90%的讀取將分配給這些OTU。每個簇中最豐富的序列用作OTU的代表性序列。然后通過保留最少的總觀察計數(shù)1200以保留OTU來過濾掉稀疏的OTU,并且每個樣品的OTU表被稀疏到10,000個計數(shù)。在分在15周和第22周,平均良好值的覆蓋率估計值分別為0.99±0.002、0.98~0.002和0.98±0.002。最后,核糖體數(shù)據(jù)庫計劃(RDP)分類器(v2.4)按照Ridaura及其同事所述的方式進(jìn)行了重新訓(xùn)練,其中使用0.8閾值將分類法分配給代表性序列。經(jīng)過數(shù)據(jù)處理和質(zhì)量控制后,可以使用1755個OTU進(jìn)行進(jìn)一步分析。
統(tǒng)計分析。?培訓(xùn)和測試集。 使用分層的五重交叉驗證方案將數(shù)據(jù)遞歸隨機(jī)地分為訓(xùn)練(約占觀察值的70%)和預(yù)測(約占觀察值的30%),并保持試驗中28個父本的均等代表。 總體實驗設(shè)計的圖形表示如圖2所示。
模型。?所有模型均在回歸框架中用于我們分析中的模型。 為了進(jìn)行研究,將方法,特征和時間的每種組合作為一個單獨的分析,并將每個模型的預(yù)測準(zhǔn)確性作為測試集中預(yù)測表型與測量表型之間的平均皮爾遜相關(guān)性來獲得,類似于在全基因組預(yù)測研究中提出的。此外,還獲得了平方誤差及其標(biāo)準(zhǔn)偏差。
貝葉斯套索。 對于每種折疊/特征/時間點組合,都安裝了兩個模型:
空模型(null):
y?=?μ+?Xb?+?e
其中:y是上一節(jié)提到的特征之一,μ是總體平均值,b是固定效應(yīng)的向量,包括:性別(2個層次),重復(fù)(6個層次),父親(28個層次)以及協(xié)變量斷奶時的重量e是假定N(0,)的隨機(jī)殘差的向量,而X是將觀察值與固定效應(yīng)相關(guān)的入射矩陣。
包含微生物組(biom)的模型:y = μ + Xb +Wo + e
其中:o 是 OTUs 效果(1755級)的矢量,W 是居中和縮放的 OTUs 計數(shù)的矩陣,其余與前一個模型中相同。
我們擬合了R軟件包BGLR實施的BL回歸模型。 OTU計數(shù)通過使用雙指數(shù)先驗分布擬合到模型。BGLR將雙指數(shù)密度建模為按比例縮放的正常密度。在層次結(jié)構(gòu)的第一級中,標(biāo)記效果被分配了具有零均值和特定于OTU的方差參數(shù)T2xaf的獨立法線密度。殘余方差被指定為比例倒數(shù)卡方先驗密度。 BGLR提供了一種通過R2標(biāo)志選擇先驗形狀的便捷方法。 R2可以大致解釋為模型中包含的效應(yīng)所解釋的預(yù)期方差比例。對于殘余效應(yīng),默認(rèn)自由度為5,R2為0.60。然后獲得先驗尺度參數(shù),即Sp = Var(y)(1-R2)(dfp + 2),其中Sp和dfp分別為尺度和自由度。 OTU的特定比例參數(shù)T2分配了IID指數(shù)密度,速率參數(shù)為2/2。在這種情況下,超參數(shù)入是固定的,并且其值通過對整個數(shù)據(jù)集/特征組合進(jìn)行網(wǎng)格搜索來分配(結(jié)果未顯示)。
隨機(jī)森林。這里采用的空模型的一般形式是(遵循Gonzalez-Recio和Forni):
而生物模型是:
每個樹ht(y;X) 或 ht(y;t G (1, T) 的 X + W)由原始數(shù)據(jù)的隨機(jī)樣本構(gòu)造,在每個節(jié)點上隨機(jī)選擇要素子集以創(chuàng)建拆分規(guī)則。每棵樹都盡可能地生長,直到所有終端節(jié)點都最大地均勻。參數(shù)[if !msEquation] [endif]是平均樹的收縮系數(shù)。RF 中的分割質(zhì)量可以通過不同的標(biāo)準(zhǔn)進(jìn)行測量。對于當(dāng)前分析,采用均方誤差(MSE)。這項工作中RF模型的剩余參數(shù)設(shè)置如下:(i) 樹的數(shù)量設(shè)置為等于1500;(ii) 查找最佳拆分時要考慮的要素數(shù)等于原始要素數(shù)的根數(shù)。R的 bigrf 封裝用于將 RF 型號適合數(shù)據(jù)。
漸變提升。此處采用的空模型的一般形式是(再次跟隨Gonzalez-Recio 和 Forni):
而生物模型是:
在這種情況下,將t G(1,M)的每個預(yù)測變量hm(y; X)或hm(y; X + W)依次應(yīng)用于先前的組所形成的委員會的殘差,裝袋步驟保持類似到之前描述的內(nèi)容。 R的gbm package用于將GBM模型擬合到數(shù)據(jù)。 使用高斯損失函數(shù)。 GBM模型中的其他參數(shù)設(shè)置如下:i)樹的數(shù)量設(shè)置為1500; ii)交互深度設(shè)置為3; iii)將收縮參數(shù)v設(shè)定為0.01。
復(fù)制內(nèi)核希爾伯特空間。安裝了兩種 RKHS 型號:
空模型 (空):y?=?μ+?Xb?+?e
和 (生物)形式模型:y = μ + Xb + Zu+ e
其中Z 是一個入射對角矩陣的順序 (1039? ×? 1039) 和 u是假定N(0,Mσu2))的豬效應(yīng)的隨機(jī)矢量。 M是基于微生物群落成分的內(nèi)核矩陣,其計算如下:在OTU級別使用微生物群來計算樣本對之間的Jensen-Shannon距離,
其中 D(a、 b) 是樣本a和 b之間的距離; n 是OTUS 數(shù)量(n =? 1755); ai 和 bi分別是樣本a 和 b中的 OTUi 計數(shù); mi=(ai=bi)/2.生成的方形矩陣(下稱"JSD")對角線上為零,對角線值介于 0 和 1 之間。M矩陣作為1-JSD得到。??? RKHS回歸模型在貝葉斯設(shè)置內(nèi)使用 R 包 BGLR 實現(xiàn)。之前為[u2],如果選擇在上一節(jié)中突出顯示。兩個參數(shù)的 R2 值分別設(shè)置為 0.3 和 0.6。
后分析。 為了提供對設(shè)計中所有因素的全面評估,我們使用標(biāo)準(zhǔn)的線性混合模型(LMM)對實驗進(jìn)行了后期分析。 復(fù)制/特征/方法的所有組合都集中在一個數(shù)據(jù)集中。 然后安裝了以下LMM
yijklm是每個重復(fù)/特征/方法組合的準(zhǔn)確性; Ti是微生物組時間點測量的固定效果(3個級別:斷奶,15周,22周); Aj是所使用算法的固定效果(4個級別:BL,RKHS,RF,GBM); Trk是特質(zhì)的固定效應(yīng)(12個級別:ADGBto14,ADGWto14,ADG14to22,ADG14toMKT,Week14Wt,Week14BF,Week14LD,Week14LEA,Week22Wt,Week22BF,Week22LD,Week22LEA); B1是微生物組包含物的固定作用(2個級別:無效,生物組); TAij TTrik TBil ATrjk和ABjl是主要效應(yīng)的成對相互作用。 TATrBijkl是假設(shè)N(0,
)的T,A,Tr和B的隨機(jī)相互作用效應(yīng); eijklm是假設(shè)N(0,σ2)的隨機(jī)殘余效應(yīng)。 LMM模型裝有R軟件包lme4。 用R包lmerTest獲得III型ANOVA表,最小二乘均值和對比度。