Weigel, K.A., VanRaden, P.M., Norman, H.D., and Grosu, H. 2017. A 100-Year Review: Methods and impact of genetic selection in dairy cattle—From daughter–dam comparisons to deep learning algorithms. J. Dairy Sci. 100(12): 10234–10250. doi:10.3168/JDS.2017-12954.
Translated by Google & revised by Dong
摘要
20世紀(jì)初期,育種協(xié)會的家畜血統(tǒng)簿已經(jīng)建立起來,而產(chǎn)奶記錄儀方案還處于起步階段。農(nóng)民想提高他們牛的生產(chǎn)力,但是群體遺傳學(xué)、數(shù)量遺傳學(xué)和動物育種的基礎(chǔ)還沒有奠定。早期的動物育種人員利用受當(dāng)?shù)丨h(huán)境條件和畜群特定管理措施影響的表現(xiàn)記錄,努力確定遺傳優(yōu)良的家系。母-女比較使用了30多年,雖然遺傳進展微乎其微,但對表現(xiàn)記錄、遺傳理論和統(tǒng)計方法的關(guān)注在未來幾年得到了回報。當(dāng)時(同群)比較方法允許更準(zhǔn)確地考慮環(huán)境因素,當(dāng)這些方法與人工授精和后代測試相結(jié)合時,遺傳進展開始加快。計算能力的進步促進了混合線性模型的實現(xiàn),該模型以最佳的方式使用譜系數(shù)據(jù)和表現(xiàn)數(shù)據(jù),并實現(xiàn)了精確的選擇決策。牛基因組的測序引發(fā)奶牛育種的革命,科學(xué)發(fā)現(xiàn)和遺傳進展的步伐得以加快。基于譜系的模型已經(jīng)讓位給全基因組預(yù)測,貝葉斯回歸模型和機器學(xué)習(xí)算法已經(jīng)在現(xiàn)代動物育種者的工具箱中加入了混合線性模型。未來的發(fā)展將包括闡明關(guān)鍵生物途徑中的遺傳遺傳和表觀遺傳修飾的機制,基因組數(shù)據(jù)將與來自農(nóng)場傳感器的數(shù)據(jù)一起使用,以促進現(xiàn)代奶牛場的精確管理。
2017年3月29日收稿。2017年6月11日接收。該綜述是Dairy Science雜志委托為慶祝出版百年(1917-2017)特刊的一部分。 通信作者:kweigel@wisc.edu
關(guān)鍵詞:遺傳選擇,奶牛,基因組選擇,統(tǒng)計模型
基礎(chǔ)
表現(xiàn)記錄
譜系記錄和表現(xiàn)數(shù)據(jù)是在前基因組時代開發(fā)有效的遺傳選擇程序的關(guān)鍵基石,如附錄表A1所示。譜系記錄可以追溯到19世紀(jì)末期育種協(xié)會創(chuàng)建時,在早期乳業(yè)先驅(qū)如W.D.Hoard的鼓勵下,此后不久開始廣泛收集表現(xiàn)數(shù)據(jù)。 1905年,密歇根州成立了第一個記錄牛奶重量和分析乳脂樣品的全州協(xié)會,到1908年,美國農(nóng)業(yè)部(USDA)動物工業(yè)局開始組織地方和國家奶牛檢測協(xié)會進入全國奶牛群改良協(xié)會(DHIA)。1914年這項工作轉(zhuǎn)由聯(lián)邦推廣人員負責(zé),參與牛奶測試的奶牛數(shù)迅速增長(VanRaden和米勒,2008年),如圖1所示。
DHIA按月檢測是幾十年來的標(biāo)準(zhǔn),但是現(xiàn)在大約三分之二的奶牛場使用省力的上午/或下午測試計劃,即在每個月的交替時間采取牛奶樣本。未來的戰(zhàn)略重點是對最新鮮的母牛或最高產(chǎn)奶牛的母牛進行更頻繁的DHIA采樣,可能為處于最高效率和最常見健康疾病風(fēng)險的奶牛提供更有用的數(shù)據(jù)。如圖2所示,通過射頻識別(RFID)傳感器和在線取樣系統(tǒng)對數(shù)據(jù)進行電子測量,取代了手動輸入譜系和表現(xiàn)數(shù)據(jù)。
在二十世紀(jì)二十年代和三十年代,當(dāng)?shù)氐墓f(xié)會很常見,直到20世紀(jì)40年代人工授精的廣泛采用,當(dāng)時形成了幾十個地區(qū)人工授精合作社。因為實際上所有對奶牛感興趣的性狀都是有性別限制的,所以對公牛自身表型的遺傳評估是無用的,并且需要根據(jù)其后代的表現(xiàn)評估公牛基因優(yōu)勢或劣勢的策略。
譜系數(shù)據(jù)
盡管早在19世紀(jì)末期,奶牛育種協(xié)會就為每個奶牛和公牛分配了獨特的識別號碼,但大部分未注冊的動物(“等級”)不包括在育種協(xié)會的家畜血統(tǒng)簿中,需要另一種鑒別方法。美國農(nóng)業(yè)部于1936年推出了具有獨特編號的金屬耳標(biāo),而后發(fā)展成9位數(shù)的耳標(biāo)系列(如35ABC1234),在1955年由動植物健康檢驗局(APHIS)和美國動物育種者協(xié)會(NAAB)引入,今天仍在廣泛使用。 1998年推出的美國ID系列具有雙字符品種代碼,三字符國家代碼和12位數(shù)字識別號碼的特點(例如,HOUSA00035ABC1234或HO840012345678910)。這個系統(tǒng)被設(shè)計成在全球唯一的,并且包括登記和分級動物,并且允許將用于每個個體的多個識別碼相互參照到一個唯一的號碼。
早期的預(yù)測育種值的方法
母-女比較
一頭母牛的泌乳表現(xiàn)一直被認為是受遺傳影響,而早期選擇的決定僅僅是基于一頭牛的奶或黃油產(chǎn)量。在二十世紀(jì)之交出現(xiàn)了比較女兒與其母親產(chǎn)奶量的想法。為此目的提出了幾個指標(biāo)(Davidson,1925; Graves,1925; Yapp,1925; Goodale,1927; Gowen,1930; Bonnier,1936; Allen,1944),Edwards(1932)比較了它們的相對準(zhǔn)確性。在實踐中,美國最早已知的母女差異是由1915年左右個別公牛協(xié)會計算出來的,根據(jù)少數(shù)幾個種牛和若干后代——這是通過選擇改良奶牛的第一次認真的嘗試。到1927年,代表超過6000名農(nóng)民的大約250個合作奶牛協(xié)會向美國農(nóng)業(yè)部提供了數(shù)據(jù),并且在接下來的40年中,美國農(nóng)業(yè)部計算出了種牛的母-女比較值,并將結(jié)果寄給了它們的所有者。 20世紀(jì)30年代后期人工授精開始可用,才有了優(yōu)良種牛在許多牛群中生產(chǎn)數(shù)百或數(shù)千只后代的機會。在各種管理和環(huán)境條件下飼養(yǎng)的大群子代雌牛大大提高了遺傳預(yù)測的準(zhǔn)確性。在此期間,RA Fisher(1918,1930)和JBS Haldane(1932)等巨擘的工作為群體和數(shù)量遺傳學(xué)奠定了基礎(chǔ),使先驅(qū)Sewall Wright(1932)和Jay Lush(1931,1933)發(fā)展動物育種科學(xué)和準(zhǔn)確評估種牛所需的統(tǒng)計方法。開發(fā)了基于母-女比較的各種指數(shù),包括Wright(1932)和Lush等人(1941年)的指數(shù) 。
只要表現(xiàn)數(shù)據(jù)可用于母女及其女牛,母-女比較促進了用于多個牛群的公牛的遺傳評估。如果母女及其女牛被安置在同一個畜群中,這種方法能夠考慮牛群特定的管理做法和當(dāng)?shù)氐沫h(huán)境條件。母女及其女牛表現(xiàn)之間發(fā)生的管理或環(huán)境條件的變化可以忽略。不考慮種牛與其交配個體間的關(guān)系,如果這頭公牛被用到其原產(chǎn)地,有時會違反這一假設(shè)。母牛表現(xiàn)的變化,相對于她的實際遺傳價值,是造成預(yù)測誤差的一個重要來源。隨著時間的推移遺傳趨勢被忽略,但當(dāng)時在大多畜群中遺傳進展是微不足道的。種牛的評估沒有回歸到平均水平是一個重要的限制,因此僅基于少數(shù)母-女對評估的公牛更可能具有極高或極低的遺傳預(yù)測值。在此期間,制定了泌乳期長度(305 d),擠奶頻率(2X)和產(chǎn)犢年齡(成年當(dāng)量)的記錄方法以標(biāo)準(zhǔn)化記錄數(shù)據(jù)。產(chǎn)犢季節(jié)也進行了調(diào)整,但一般忽略年間環(huán)境條件的差異。
選擇指數(shù)
Hazel和Lush(1942)提出了單個性狀EBV(估計育種值)的選擇指數(shù),Lush(1944)使用這種方法來推導(dǎo)出母-女比較中各種信息來源的權(quán)重。使用多元線性回歸預(yù)測選擇候選者的EBV,其中每個獨立變量代表特定類型的親緣關(guān)系,例如母本,父本,母親半同胞,父本半同胞,或子代的個體或平均表現(xiàn)。回歸系數(shù)表示指數(shù)權(quán)重,是遺傳關(guān)系和由表型記錄或平均值貢獻的信息量(例如,泌乳次數(shù)或后代數(shù)量)的函數(shù)。來自不同類型親緣關(guān)系的信息量在選擇候選者之間經(jīng)常不同,因此根據(jù)遺傳力和重復(fù)力參數(shù)對對平均表現(xiàn)有貢獻的親屬或哺乳動物的數(shù)量調(diào)整指數(shù)權(quán)重。
同代(同群)比較
同代比較代表了基因評估準(zhǔn)確性的巨大飛躍,因為它們能夠考慮表型表達所在的特定管理和環(huán)境條件(Robertson et al,1956)。同代比較的引入要歸功于Robertson和Rendel (1954),亨德森(Henderson)等人(1954)同年正式發(fā)表了同群比較模型。然而,Searle(1964)指出這種方法在出版之前已經(jīng)在新西蘭使用過。經(jīng)受相似的管理和環(huán)境條件下的同代或同群的概念與流行病學(xué)“cohort”的概念非常相似,在此概念中,基于群體特征(例如,年齡,性別或地理區(qū)域)和生活方式特征(例如鍛煉方案或煙草使用)的共性將患者分組。設(shè)計同代群體的一個重要考慮因素是牛群環(huán)境條件的確切定義與足夠的同群提供對同代群體效應(yīng)的準(zhǔn)確估計的需求之間的平衡。
后代測試在母-女比較時代變得普遍。然而,同代比較的引入使得人工授精中心能夠充分獲得將年輕公牛的精液分配給幾十個或幾百個具有不同地理位置,環(huán)境條件和管理實踐的畜群的益處。基于遺傳力和后代數(shù)目,同代比較通過將平均女牛同代偏差(現(xiàn)在稱為女兒產(chǎn)量偏差)回歸到零而得到增強,因為較少后代的公牛的平均偏差比具有許多后代的多頭的方差更大。一些同代比較模型還包括通過父本相互作用調(diào)整的群體,以限制單個群體對父本EBV的影響。
康奈爾大學(xué)在20世紀(jì)50年代中期(亨德森,1956)實施了一個基于同代比較的區(qū)域父系評估系統(tǒng),記錄根據(jù)每頭母牛的泌乳次數(shù)和重復(fù)性參數(shù)進行加權(quán)。然而,當(dāng)結(jié)合女牛同代偏差來計算父本的EBV時,沒有使用女牛或同代個數(shù)的信息。美國農(nóng)業(yè)部于1961年采用了同代比較方法,取代了母-女比較系統(tǒng)。
這個模型允許包含母本表現(xiàn)記錄未知的奶牛。Herdyear-season同代群體是以5個月的動態(tài)平均值為基礎(chǔ)的,同代平均值是根據(jù)季節(jié)影響而調(diào)整的。就像在康奈爾模型中一樣,父本的影響也回歸到了平均水平,所以如果一個公牛沒有大量的女牛就不可能排在前列。被淘汰或用于出售奶制品目的的牛的記錄被延長至305天,而更長的記錄在305天被截斷。
此時還進行了其他調(diào)整,其中包括將泌乳期短于305d的因素延長到特定的品種,地區(qū),季節(jié)和胎次,記錄按泌乳時間加權(quán)。牛的產(chǎn)犢日期與父本總結(jié)啟動之間的時間差確保了來自具有短哺乳期的被淘汰的母牛的記錄不偏向?qū)ζ涓副镜倪z傳評估。對于進入遺傳評估系統(tǒng)的數(shù)據(jù)的及時性來說,這是一個明顯的限制,至少直到1975年,牛群中的所有奶牛的記錄可用。對種牛的遺傳價值的估計被公布為他們的女兒相對于典型群體中的同代表現(xiàn)的預(yù)測差異(PD)。術(shù)語“可重復(fù)性”(后來的“可靠性”)用來表示公牛PD的準(zhǔn)確性,表明了農(nóng)民在購買公牛精液時應(yīng)該具有的信心水平。這種方法直到1973年才被允許包含更多的數(shù)據(jù),而且傾向于更小的偏差,并為優(yōu)良磁性的排名提供了一個指標(biāo)。
在這段時間內(nèi)引入了幾種競爭性的評估方法。大多數(shù)是彼此密切相關(guān)的,以及C. R. Henderson(1952,1963)和Cunningham(1965)的加權(quán)最小二乘法,以及后續(xù)章節(jié)中所描述的最佳線性無偏預(yù)測(BLUP)模型的簡化版本(Thompson ,1976)。 Bar-Anan和Sacks(1974)的累積差異方法基本上與同代比較方法相當(dāng),但是對牛的同代的遺傳水平進行了調(diào)整。 “累積”一詞認識到公牛的女牛的表現(xiàn)數(shù)據(jù)隨著時間的推移而積累,從而提高了預(yù)測的準(zhǔn)確性,這種方法是Dempfle(1976)提出的修正累積差分方法的基礎(chǔ)。
1968年美國農(nóng)業(yè)部(USDA)統(tǒng)一了奶牛的遺傳評估(Plowman和McDaniel,1968),當(dāng)時奶牛育種協(xié)會停止生產(chǎn)性狀的排名。 1972年,美國農(nóng)業(yè)部牛奶改良調(diào)查部門更名為美國農(nóng)業(yè)部 - 農(nóng)業(yè)部動物改良項目實驗室(AIPL) - 該實驗室為今后45年的奶牛遺傳評估轉(zhuǎn)化研究設(shè)定了全球標(biāo)準(zhǔn)。
改良的同代比較
1974年引入了改進的現(xiàn)代比較(MCC)方法(Dickinson等,1976; Norman等,1976)。在這個模型中,公牛的PD代表了他的系譜價值的加權(quán)平均值,以及他的女兒與同代的表現(xiàn)偏差。在以前的方法中,當(dāng)產(chǎn)奶女牛的數(shù)據(jù)變得可用時,公牛的系譜信息通常被丟棄。 MCC方法也允許包含父親和母親的父親系譜。考慮到給定群體(即同代的種群)內(nèi)競爭性種牛的遺傳價值,這種方法可以更好地適應(yīng)一段時間內(nèi)的遺傳趨勢(Norman等,1972)。 MCC方法的這些特征越來越重要,因為現(xiàn)代選擇工具和先進的生殖技術(shù)現(xiàn)在允許一些農(nóng)民比同齡人更快速地獲得遺傳進展(McDaniel等,1974)。另外,隨著農(nóng)民“盡其所能地改善他們的畜群”(Norman et al。,1987),積極的配種交配也變得流行起來。 MCC模型包括了來自特定母牛的前5個泌乳記錄,其提供了關(guān)于動物遺傳優(yōu)勢或終生生產(chǎn)力劣勢的更準(zhǔn)確信息。同代群體在一個群體內(nèi)的初產(chǎn)和多產(chǎn)奶牛是不同的。如前所述,基于遺傳力、女牛個數(shù)和每個女牛的泌乳情況回歸公牛的評估,但是回歸是對它的譜系值,而不是群體平均值。
MCC方法產(chǎn)生的結(jié)果與公畜模型中的BLUP幾乎相同,但計算要求相當(dāng)?shù)汀?/strong>遺傳基礎(chǔ)的重新設(shè)定是在這個時候開始的,所以提醒農(nóng)民提高他們的選育標(biāo)準(zhǔn)。然而,遺傳基礎(chǔ)的定期重置“原諒”不希望的遺傳趨勢,可能作為對選擇(例如,女性生育力)的相關(guān)反應(yīng)或某些性狀(例如身材)的主觀價值的偏差的形式出現(xiàn)。 MCC方法被家系育種家和人工授精試驗所廣泛接受,每頭泌乳母牛每年可獲得約45千克牛奶的遺傳增益。在此期間的另一個創(chuàng)新是將牛奶、脂肪和蛋白質(zhì)的定價數(shù)據(jù)納入其中,因此遺傳價值的估計可以表示為相同品種(PD $)的平均父系的財務(wù)收益或損失。奶牛指數(shù)在中冶時代被廣泛使用;這些代表了牛的改良同代偏差和她的父本的PD的加權(quán)平均值(以及后來她的母牛指數(shù)),權(quán)重取決于對每個組成部分貢獻的信息量。
線性模型
混合線性模型
亨德森(Henderson,1953)主張使用統(tǒng)計模型來分割遺傳和環(huán)境變異成分,并預(yù)測種牛的遺傳價值,這就導(dǎo)致了BLUP方法的發(fā)展。盡管其理論上的吸引力,計算限制阻止了BLUP的實現(xiàn),直到1972年康奈爾大學(xué)在公畜模型中實施BLUP;這種模式后來被修改,以包括父本之間的遺傳關(guān)系。
混合線性模型用矩陣符號表達得最簡潔,即
y = Xb + Zu + e,
其中y是一組動物的表型測量向量;b是已知影響表型的連續(xù)或分類固定效應(yīng)向量,例如在傳統(tǒng)最小二乘分析中會遇到的產(chǎn)犢或季節(jié)性同代群體的年齡;u是一個隨機效應(yīng)向量,比如育種價值;X和Z分別是將y中的表型觀察映射到b和u中的固定和隨機效應(yīng)的關(guān)聯(lián)矩陣,e是隨機殘差效應(yīng)向量,如臨時環(huán)境條件或測量誤差。對應(yīng)于隨機效應(yīng)u和e的方差分量σ2u和σ2e可以使用各種方法來估計,如最大似然(Harville,1977)。
公畜和外祖父(Maternal Grandsire)模型
如果混合模型方程中的向量u包含公畜的育種值,并且y包含其女牛的泌乳記錄,則上述混合線性模型將被視為一個“公畜”模型。如果我們指定G = N (0,Iu^2),這個模型假設(shè)父本是彼此不相關(guān)的,所得到的父系EBV相對于σ2e與σu2的大小成比例地向總體均值回歸。由于人工授精和胚胎移植的廣泛使用,分別導(dǎo)致大的父本半同胞家系和全同胞小家系,因此假設(shè)父本彼此不相關(guān)是非常不切實際的。當(dāng)指定G時,對u元素之間的相關(guān)性進行建模的概念是直接的,在該應(yīng)用中,系譜信息被用來推導(dǎo)期望加性遺傳關(guān)系矩陣,其中G = N (0,Au^2)。得到的A矩陣非常大,是u的元素個數(shù)的數(shù)量級,并且不能用當(dāng)時可用的計算資源來求逆。Henderson (1976)開發(fā)了一套直接構(gòu)建A^-1的規(guī)則,沒有建立A,這樣就可以比MCC模型更精確地建模各家系之間的關(guān)系,以及公畜和母牛之間的關(guān)系或者公畜和外祖父之間的關(guān)系(Henderson,1975)。后來,這種方法被擴展,以允許在存在近交的情況下有效地構(gòu)建A^-1(Tier,1990)。
在1972年在康奈爾大學(xué)進行的東北AI公畜比較的公畜模型中,向量b包括公畜的產(chǎn)犢年份和遺傳群的固定效應(yīng),其中后者基于公牛的出生年和它所在的AI組織。這個想法是,一個給定的AI中心在某一年購買的所有年輕的公牛都具有相似的遺傳價值,這有助于假設(shè)u中的公畜代表來自相同分布的獨立(不相關(guān))樣本。只有AI女兒的第一次泌乳記錄被使用,盡管如果有額外的記錄來自同一群體,這個限制后來被放寬(Ufford等人,1979)。假定了父母本之間隨機交配,母牛之間的母本關(guān)系被忽略了。
為了解決這樣天真的假設(shè),即公牛隨機同母牛交配,Quaas等人(1979)提出了一個外祖父模型。這個模型包含了一個額外的隨機效應(yīng),它代表了外祖父的加性遺傳價值,以及一個加性的固定效應(yīng),代表了外祖父的遺傳基因組。雖然這是解決配對交配積極的一步,但它仍然假定每只公牛的每個配偶都代表該外祖父的所有女兒的隨機樣本。母本之間的母本關(guān)系被忽略,模型沒有為外祖父未知的情況增加價值。Norman et al. (1987)對牛奶產(chǎn)量的適宜交配進行了全面的考察,表明平均遺傳水平較高的牛群一直使用遺傳上優(yōu)越的公牛。然而,主要關(guān)注的是由于內(nèi)部匹配交配造成的偏差,這在當(dāng)時并不常見(Norman等,1987),在國家公畜評估系統(tǒng)中很少有AI公牛受到負面影響。
動物模型
公畜或外祖父模型無法充分考慮,在一個給定的群體中,有對母牛而言昂貴精液的公畜和具有最高主觀價值的小母牛的非隨機交配是眾所周知的。此外,希望出售優(yōu)良種群的農(nóng)民不再滿足于關(guān)注公畜和處理奶牛作為副產(chǎn)品的遺傳評估系統(tǒng)。 1989年,AIPL的科學(xué)家們引入了“動物模型”(Wiggans and VanRaden,1989),該模型利用了母牛與其父母祖先之間所有已知的關(guān)系。在這個模型中,動物的加性遺傳效應(yīng)代表了無限多的等位基因,具有非常小的效應(yīng) - 所謂的無窮小遺傳模型。
一旦實施,利用康奈爾大學(xué)的數(shù)據(jù)算法的迭代和超級計算機,動物模型成為奶牛遺傳評估的全球標(biāo)準(zhǔn)。統(tǒng)計方法早在近三十年之前推導(dǎo)出,可以精確地說明交配個體的遺傳價值,為同時評估雄性和雌性提供了一個一致的框架。單個動物的育種價值表示為其父本的一半加性遺傳價值,其母本的加性遺傳價值的一半和孟德爾抽樣的總和,孟德爾抽樣表示其與其全同胞平均加性遺傳價值的偏差,偏差是由于對配子中的allels進行隨機取樣造成的。所有已知的關(guān)系都在A矩陣中考慮,所以一個動物的表現(xiàn)對所有已知的父系和母系親屬的EBV有貢獻,其貢獻程度取決于關(guān)系的接近度。用戶通常提供至少4代或5代的譜系數(shù)據(jù),并且譜系很少追溯到20世紀(jì)70年代以前,當(dāng)時的系譜記錄被計算機化。當(dāng)譜系數(shù)據(jù)缺失時,可以使用未知(幻影)親本組(Westell等,1988)來解釋遺漏祖先遺傳價值的差異。
在美國農(nóng)業(yè)部的動物模型中,管理組根據(jù)平價(第一vs較晚)、注冊狀態(tài)(注冊與等級)以及畜群年內(nèi)的雙月時間塊來定義。與以前的系統(tǒng)一樣,調(diào)整用于說明年齡,擠奶頻率和泌乳時間,這些因素是特定的品種和地理區(qū)域。自1975年以來,美國一直在使用記錄;通過減少數(shù)據(jù)收集和育種值預(yù)測之間的時間差(Powell等,1975),遺傳進展提高了10%。一旦母牛完成每月2或3次DHI檢測,不完整的泌乳記錄預(yù)計為305天,以及時產(chǎn)生遺傳預(yù)測并能夠?qū)δ概<捌涓副咀龀隹焖龠x擇決策。數(shù)據(jù)收集等級(DCR)是由美國農(nóng)業(yè)部于1998年引入的;這些數(shù)據(jù)是基于試驗日記錄的數(shù)量和間隔,相對于標(biāo)準(zhǔn)的每月監(jiān)督記錄每天所有的記錄,得到100分。DCR系統(tǒng)允許根據(jù)遺傳評估的期望值加權(quán)記錄,他們可以作為指導(dǎo)來償還提供高質(zhì)量數(shù)據(jù)的農(nóng)民。
由動物模型產(chǎn)生的EBV的精確度可以從混合模型系數(shù)矩陣的逆元素中計算出來,但是這在計算上是不可行的,因此使用了近似值(Harris和Johnson,1998)。一個實際的方法是將有助于給定動物遺傳預(yù)測的女兒當(dāng)量數(shù)相加(VanRaden和Wiggans,1991),其中來自動物后代、自己的表型記錄和祖先(注意同胞和表堂親通過父母進行貢獻)的信息量要計數(shù),當(dāng)計算可靠性值時。
測試日(Test-Day)模型
1993年,康奈爾大學(xué)獲得了美國“測試日模型”的專利,在該模型中,使用牛群每月測試中的每日牛奶重量來評估動物相對于其牧童的表現(xiàn),而不是標(biāo)準(zhǔn)化的305 -d泌乳收益。該模型被引入到幾個國家(例如加拿大,德國)的常規(guī)遺傳評估中,其中遺傳評估中心獲得許可或成功挑戰(zhàn)了專利。但是,由于這個專利,美國的常規(guī)遺傳評估沒有實施測試日模型。康奈爾的專利是有爭議的,因為許多組織(包括美國農(nóng)業(yè)部)已經(jīng)提供了幾十年的信息,說明在給定的測試日期,一頭牛相對于她的牧羊犬的表現(xiàn),澳大利亞在1984年正式實施了一個測試日遺傳評估模型。然而,以前沒有人考慮過這個相對廣為人知的統(tǒng)計過程的專利(Rothschild and Newman,2002)。測試日模型的一個有趣的特征是它們能夠產(chǎn)生泌乳持久性的遺傳評估;例如,280天的預(yù)期產(chǎn)奶量與產(chǎn)后60天的產(chǎn)奶量的比率。具有較大泌乳持久性的動物可能更有可能在整個泌乳期保持健康,并且可能能夠以較便宜的口糧來滿足其營養(yǎng)需求,因為它們不經(jīng)歷DMI的極端情況或其較不持久的同時代的負能量平衡。
隨機回歸模型和協(xié)方差函數(shù)
通常使用隨機回歸模型(Henderson,1982;Ali和Schaeffer,1987;Jamrozik等,1997)分析隨時間收集的數(shù)據(jù),如泌乳牛的試驗日乳重或生長小母牛的周期性體重)。 Legendre多項式或樣條等函數(shù)可以用來描述泌乳期遺傳,永久環(huán)境和臨時環(huán)境影響的軌跡。已經(jīng)提出了許多線性和非線性函數(shù)來建模這些效應(yīng)。例如,Ali和Schaeffer(1987)的模型包括一個隨機的牧群日期當(dāng)代群體效應(yīng),以及與母牛哺乳期間的4種功能相對應(yīng)的固定(總體平均)和隨機(加性和永久環(huán)境)回歸系數(shù)記錄牛奶重量。在該研究中,假設(shè)整個泌乳期的剩余方差是固定的,但一般而言,隨機回歸模型可以提供在泌乳期間的任何時間點的遺傳,永久環(huán)境和殘差(以及遺傳性和可重復(fù)性)的估計。選擇候選者的EBV可以在泌乳期間的不同時間點計算,并且隨機回歸模型在適應(yīng)農(nóng)場之間牛奶記錄頻率的變化方面提供了更大的靈活性。
被稱為協(xié)方差函數(shù)(Kirkpatrick et al。,1990)的類似方法可用于分析縱向數(shù)據(jù),并解釋遺傳因素和環(huán)境因素隨時間的相互關(guān)系。這些模型可能在計算上要求很高,并且必須確保適當(dāng)?shù)亟<有赃z傳,永久環(huán)境和臨時環(huán)境效應(yīng)的軌跡。使用具有4或5個參數(shù)的復(fù)雜函數(shù)精確地模擬遺傳,永久環(huán)境和臨時環(huán)境效應(yīng)的軌跡的目標(biāo)必須與參數(shù)估計在應(yīng)用于每月DHIA記錄時具有大標(biāo)準(zhǔn)誤差的現(xiàn)實相平衡,每頭母牛每泌乳10個數(shù)據(jù)點。
隨機回歸模型和協(xié)方差函數(shù)可以提供關(guān)于泌乳期間生物過程的軌跡(例如,乳脂合成,身體組織沉積)的洞察。另外,這些模型可以提供關(guān)于選擇隨時間表達的性狀的相關(guān)響應(yīng)的信息,例如選擇在泌乳早期的最高泌乳量對泌乳末期的奶組成的影響。隨機回歸模型或協(xié)方差函數(shù)的結(jié)果也可以用來促進有效的數(shù)據(jù)收集協(xié)議的開發(fā),以最大化在測量表型中投入的每美元的遺傳進展。
多性狀模型
Harvey和Lush(1952)介紹了第一個選擇指數(shù),將牛的生產(chǎn)和構(gòu)象性狀結(jié)合起來,繼Hazel和Lush(1942)和Hazel(1943)的研究后,他們將動物的基因型定義為線性組合構(gòu)成總體育種目標(biāo)的性狀的加性遺傳價值和經(jīng)濟價值。總基因型或育種目標(biāo)中性狀的數(shù)量和定義可能不同于選擇指數(shù)中性狀的數(shù)量和定義,特別是如果某些性狀測量困難或昂貴(例如飼料效率),或者如果選擇依賴于相關(guān)表型更容易得到的性狀。
估計育種價值的大多數(shù)模型可以擴展到納入多性狀(Henderson,1976)。性狀之間的遺傳相關(guān)性表示一個性狀的遺傳優(yōu)勢傾向于遺傳優(yōu)勢或劣勢的另一個性狀的育種目標(biāo)的程度。這種相關(guān)性可能是由于多效性(一個影響幾種性狀的基因),或者它們可以通過選擇誘導(dǎo)。永久的環(huán)境相關(guān)性測量動物一生中某些時刻出現(xiàn)的非遺傳因素可能影響隨后幾個月或幾年中測量的多重表型的程度,而臨時環(huán)境(殘留)相關(guān)性則確認了當(dāng)前管理實踐,環(huán)境條件或記錄的程度錯誤會影響多個特征。
奶牛中有利的遺傳相關(guān)性的實例包括具有長期的奶產(chǎn)量或具有女性生育力的身體狀況評分,而不利的遺傳相關(guān)性的例子包括具有女性生育力的乳產(chǎn)量或具有乳腺炎的產(chǎn)奶量。在人群中存在足夠的遺傳變異來尋找特定的個體或家族,這些個體或家族優(yōu)于與負相關(guān)的特征,例如高產(chǎn)奶量和良好的女性生育能力。多性狀模型通過將正性或負性相關(guān)性狀的額外表型納入分析來提高遺傳預(yù)測的準(zhǔn)確性。此外,多性狀模型有助于緩解選擇偏倚,如果獲得歷史選擇決策的特征的表型數(shù)據(jù)可用(Pollak et al。,1984)。然而,多性狀模型的主要優(yōu)點是能夠評估育種目標(biāo)中性狀之間的相互關(guān)系;這個信息對于預(yù)測由于對各種性狀的EBV選擇而發(fā)生的期望和不期望的相關(guān)響應(yīng)是關(guān)鍵的。
基因環(huán)境互作
一般來說,基因環(huán)境互作與溫帶環(huán)境中乳品生產(chǎn)系統(tǒng)中經(jīng)濟重要性狀的相互作用很小,至少與植物育種者在將光系或品種與光周期,溫度,濕度和土壤條件相匹配時所考慮的相互作用相比較。溫帶和熱帶環(huán)境之間存在重要的相互作用,因此巴西或泰國等國家的農(nóng)民往往避免使用普通歐洲品種的純種牛,而更喜歡適應(yīng)當(dāng)?shù)販囟葷穸葪l件的品種遺傳率為12.5%至37.5% ,蜱傳疾病和傳染病。
多性狀模型經(jīng)常用來評估GXE的相互作用。例如,可以考慮在具有TMR的密閉畜群中生產(chǎn)牛奶,以牧場為基礎(chǔ)的牧群中的奶牛生產(chǎn)作為獨立但相關(guān)的特征(Weigel等人,1999)。兩個生產(chǎn)系統(tǒng)中的相同動物的表型(作為植物育種者將通過在不同的領(lǐng)域中種植相同的品種來做)是不必要的,因為不同系統(tǒng)中的奶牛之間的遺傳關(guān)系允許將環(huán)境之間的表型協(xié)同性分為其遺傳和環(huán)境組分。
反應(yīng)規(guī)范模型在概念上與協(xié)方差函數(shù)相似,可以描述跨越某個梯度的遺傳或環(huán)境影響的軌跡,通常是跨越總體管理水平或特定環(huán)境條件的梯度(Strandberg et al。,2009)。 Ravagnolo等人使用了一種概念上類似的方法。 (2000)使用當(dāng)?shù)貧庀笳镜臏囟葷穸戎笖?shù)(THI)數(shù)據(jù)模擬熱應(yīng)激對產(chǎn)奶量和肥力的影響。假設(shè)每只動物對熱應(yīng)激的發(fā)生具有特定的截距 - 在特定的母牛中觀察到牛產(chǎn)量或生育力下降的THI。此外,假定每只動物具有特定的斜率,該斜率表示在該動物的發(fā)病點之后,每增加一個THI的產(chǎn)奶量或生育力的下降速率。澳大利亞也進行了類似的分析,以量化個體動物或陛下家系應(yīng)對氣候變化的能力(Garner等,2016)。實施熱應(yīng)激,氣候適應(yīng)或其他反應(yīng)標(biāo)準(zhǔn)模式的挑戰(zhàn)是結(jié)果的呈現(xiàn)。對于每個低,中或高THI環(huán)境中的每個特征,父母EBV由于信息過載而不明智,但是如果EBV是根據(jù)最終用戶的當(dāng)?shù)丨h(huán)境和生產(chǎn)條件定制的,則電子分布的結(jié)果可能是簡單的。根據(jù)地方環(huán)境和畜群管理條件定制EBV或選擇指數(shù)權(quán)重可以提供超越G precise精確建模的額外收益。例如,這將減少特定地區(qū)或國家的所有農(nóng)民選擇同一個種公的趨勢,從而解決控制近親交配和保持遺傳多樣性的挑戰(zhàn)。
國際比較
Holstein-Friesian系的比較
70年代聯(lián)合國糧食及農(nóng)業(yè)組織(FAO)進行的大規(guī)模牛只育種試驗涉及將70個國有農(nóng)場的30,000只波蘭黑白牛配種給國際公牛。在10個國家,約有80,000劑精液來自年輕(未經(jīng)證實的)荷斯坦奶牛AI公牛,盡管很難確保這些公牛代表該國荷斯坦種群的隨機樣本。這項研究引起了對乳制品精液的國際貿(mào)易,特別是北美荷斯坦公牛的精液出口到歐洲和其他大陸的極大興趣。
轉(zhuǎn)換方程
早期遺傳學(xué)比較奶牛的不同來源,國家使用基于回歸的“轉(zhuǎn)換方程”。在多個國家,通常是原籍國和一個或多個進口國,擠牛奶的公牛的EBV被用來制定轉(zhuǎn)換方程。回歸模型包括截距(平均差)和斜率系數(shù)(尺度差),但由于截距和斜率系數(shù)的標(biāo)準(zhǔn)誤差較大,轉(zhuǎn)換后EBV的準(zhǔn)確性一般較差,除非有大量的公牛在兩國擠奶女兒。
多性狀跨國評估
1995年,國際公牛評估服務(wù)(Interbull;瑞典烏普薩拉)引入了多重國家評估(MACE)方法作為轉(zhuǎn)換方程的替代(Schaeffer,1994)。這種線性模型方法允許Interbull中心同時為每個參與國家的每頭公牛生成EBV。輸入數(shù)據(jù)是每個國家的女兒產(chǎn)量偏差或EBV(去除祖先影響),其中每個國家都有牛奶記錄的女兒,這些數(shù)據(jù)由每個國家的后代數(shù)量加權(quán)。目前有二十多個國家參加了Interbull公牛評估,服務(wù)包括每個主要奶牛品種的產(chǎn)量,種類,生育力,產(chǎn)犢,壽命,健康和可行性特征。北美和歐洲國家牛奶產(chǎn)量的估計遺傳相關(guān)性往往很高,在0.85至0.95的范圍內(nèi),而澳大利亞,新西蘭和其他放牧型生產(chǎn)系統(tǒng)的國家則可能在0.75或更低。由于性狀定義的差異,構(gòu)象和健身性狀的遺傳相關(guān)性差異很大。由于缺乏熱帶或亞熱帶國家的Interbull分析,熱應(yīng)力或寄生蟲抗性等因素的影響在很大程度上是未知的。
成員國已經(jīng)向Interbull免費提供了他們的全國公牛EBV和譜系文件超過20年,Interbull的工作人員使用MACE方法進行了基于譜系的薈萃分析。對基因組測試的年輕公牛的預(yù)測可以用基因組MACE進行計算(Sullivan和VanRaden,2009),但大多數(shù)國家公布了基因型交換的預(yù)測結(jié)果;例如北美財團(包括英國,意大利,瑞士,德國和日本),歐洲基因組學(xué)(荷爾斯泰因)或基因組學(xué)(布朗瑞士)。交換基因型和家譜比在不同條件下以各種方式測量表型和分化標(biāo)準(zhǔn)更簡單,來自50多個國家的育種者已經(jīng)從北美參考群體獲得了基因組預(yù)測。
非線性模型
閾值模型由Gianola和Foulley(1983)引入到動物育種領(lǐng)域的閾值模型允許對二元或類別性狀(如死產(chǎn)或難產(chǎn))進行適當(dāng)建模。正常性假設(shè)被違反,但是鏈接函數(shù)(例如probit,logit)將觀察到的二元或分類表型與父系EBV在基礎(chǔ)“責(zé)任”等級上匹配。正態(tài)分布曲線下方的區(qū)域被模擬,如果父系的EBV()小于第一閾值,則將其分配到類別1,而如果落在第一和第二閾值之間,則將其分配到類別2,等等。閾值模型通常應(yīng)用于產(chǎn)犢性狀,通常與母本效應(yīng)模型相結(jié)合,其使用通常限于父系模型(而不是動物模型)。一般來說,閾值模型導(dǎo)致比通過用常規(guī)線性模型擬合二元或分類表型可以獲得的EBV更精確。
生存分析
失敗時間(生存分析)方法,如Cox或Weibull比例風(fēng)險模型,在流行病學(xué)中被廣泛應(yīng)用,以解釋“審查”觀察的存在;即,對于開始或結(jié)束點(或兩者)未知的事件的時間測量。一個例子是生產(chǎn)性壽命(PL)的壽命或長度,其是從第一次產(chǎn)犢到由于疾病,受傷或不育而死亡或撲殺的時間來衡量的。仍然活著的母牛的觀察結(jié)果是右刪失的,因為他們的死亡或淘汰日期是未知的,就像出售給另一個牛群用于奶牛目的的奶牛一樣。同樣地,日齡開放的表型(從產(chǎn)犢到妊娠時間計算的女性生育力的常見測量值)對于還沒有懷孕的母牛以及由于除了不育之外的原因而離開母牛的非懷孕母牛是正確的。 VanRaden和Klaaskate,1993)已經(jīng)實施了簡單的方法,例如假設(shè)一個非懷孕母牛的天數(shù)或活牛壽命的任意大的值。 Ducrocq等人(1988)將威布爾比例風(fēng)險模型擴展到包括隨機加性遺傳效應(yīng)和關(guān)系,從而計算父系EBV的存活率。對右刪失記錄進行適當(dāng)?shù)慕#梢园罅咳匀淮婊畹膭游铮瑥亩@得更及時和準(zhǔn)確的結(jié)果。以前的研究允許母牛的機會期(如84個月)充分表達生產(chǎn)性生活或終生凈利潤的表型(如Cassell等,1993),但是到研究完成和手稿發(fā)表時,年齡最小奶牛十多年前就出生了。這種方法的另一個優(yōu)點是能夠使用時間敏感的協(xié)變量,從而可以更精確地模擬隨時間變化的管理和環(huán)境因素。
基因組選擇標(biāo)記輔助選擇
如圖3所示,通過選擇在多基因遺傳假設(shè)下計算的EBV和無限小的模型(即大多數(shù)性狀受幾十或幾百個基因影響的概念,每個基因具有非常小的作用)獲得了巨大的遺傳進展 。盡管如此,用于評估基因組水平上的變異的技術(shù),如RFLP或微衛(wèi)星標(biāo)記,使得遺傳學(xué)家能夠追求潛在的功能性突變或具有大的影響的QTL。最初的期望是非常不切實際的,許多研究人員和資助機構(gòu)認為可以找到導(dǎo)致高產(chǎn)奶量,特殊女性生育能力或有吸引力的物理構(gòu)象的“基因”。影響精確映射的數(shù)量性狀的功能性突變的數(shù)目并且已經(jīng)充分表征了遺傳模式是可以忽略的,并且單基因選擇的效果已經(jīng)局限于以簡單的孟德爾方式遺傳的遺傳缺陷。
從二十世紀(jì)八十年代末到二十一世紀(jì)初,開發(fā)了用于標(biāo)記輔助選擇的各種方法。關(guān)于通過各種方法鑒定的QTL的信息被納入用于遺傳評估的線性模型中,通常作為固定效應(yīng)。一個代表選擇候選者的EBV作為QTL1,QTL2,QTL3,...的估計效應(yīng)的總和。 。以及一個多基因EBV,它代表分散在整個基因組中的未知基因座,由關(guān)系矩陣A調(diào)節(jié)。由于標(biāo)記輔助選擇的遺傳進展收益未能達到預(yù)期,Dekkers(2004)綜述,特別是當(dāng)致病突變是未知的,并且選擇依賴于群體范圍連鎖不平衡中的標(biāo)記,或者當(dāng)使用全群連鎖平衡中的標(biāo)記進行選擇時。通常高估了顯著標(biāo)記的效應(yīng)(Beavis,1998),并且由于嚴(yán)格的顯著性閾值,許多影響較小的QTL被忽略(Lande和Thompson,1990)。
全基因組選擇
Nejati-Java- remi et al. (1997) and Meuwissen et al. (2001)的seminal基因組選擇論文,加上開發(fā)廉價的SNP標(biāo)記高通量基因分型平臺(Matukumalli等,2009),革新了奶牛的繁殖。研究人員開發(fā)了數(shù)十種方法和算法用于植物和動物的整體基因組選擇(de Los Campos et al。,2013),奶牛育種者處于這一運動的前沿(VanRaden,2008;VanRaden等,2009;Wiggans et 2017年)。額外的好處,例如基于基因組發(fā)現(xiàn)缺失的祖先,可以進一步提高遺傳進展。考慮到從較少數(shù)目(n)的基因型個體的表型數(shù)據(jù)估計大量(p)SNP效應(yīng)的問題,與全基因組選擇相關(guān)的早期計算和統(tǒng)計障礙是艱巨的。
BLUP模型
已經(jīng)使用混合線性模型來估計SNP效應(yīng),其中向量u包含假定代表來自正態(tài)分布的樣本的SNP標(biāo)記;這提供了可以在基因組上加性的SNP效應(yīng)的BLUP估計,以獲得新的候選基因組的基因組EBV(SNP-BLUP;Meuwissen等,2001)。等效地,可以從SNP基因型構(gòu)建基因組關(guān)系矩陣(G),并且當(dāng)計算基因組EBV(GBLUP)時,取代BLUP中的基于譜系關(guān)系矩陣(A)。最初,SNP-BLUP比GBLUP在計算上需求更高,因為SNP的數(shù)量超過了具有表型記錄的基因型動物的數(shù)目。然而,主要乳品種的培訓(xùn)群體現(xiàn)在由成千上萬的具有后代數(shù)據(jù)的基因型公牛或具有成績記錄的數(shù)十萬個基因型奶牛組成。 GBLUP中混合模型系數(shù)矩陣的維數(shù)是基因型動物數(shù)量的數(shù)量級,其增長速度非常快,通常超過SNP的數(shù)量。盡管如此,GBLUP的吸引力還是因為它在幾十年來一直使用BLUP的動物育種者的熟悉度和易用性。基因分型動物的快速生長是由于廉價的低密度SNP小組的可用性,其典型特征在于遍布基因組均勻分布的5,000至25,000個SNP。這些低密度基因型可與中等密度(50,000至100,000 SNP)或祖先的高密度(500,000至800,000 SNP)基因型相匹配,并且在低密度面板上遺漏的SNP以95至99%的準(zhǔn)確度填充使用基因型歸集算法(Habier等,2009;Weigel等,2010)。
一步GBLUP
Legarra等。 (2009)和Misztal等人(2009)解決了計算基因組預(yù)測時同時分析基因分型和未分型動物表型的復(fù)雜挑戰(zhàn)。在此發(fā)展之前,直接基因組預(yù)測(直接基因組值,DGV)源自基因型動物亞組中SNP基因型和相應(yīng)表型之間的關(guān)聯(lián)。在隨后的步驟中,使用選擇指數(shù)或加權(quán)平均值,將DGV與基于譜系的EBV進行組合。 Legarra等人(2009)提出的單步GBLUP(ssGBLUP)最初的挑戰(zhàn)是, 認為缺乏提高其計算效率的技巧,如亨德森(Henderson,1976)從血統(tǒng)書中創(chuàng)建A-1的快速方法。在ssGBLUP中,必須創(chuàng)建矩陣(H)的逆矩陣,其包括用于基因型動物之間的基于基因組的關(guān)系的塊,非基因型動物之間的基于系譜的關(guān)系以及基因型和非基因型動物之間的基于系譜的關(guān)系。 Legarra等人(2014)開發(fā)了一種構(gòu)建H-1的高效方法,而ssGBLUP現(xiàn)在可以應(yīng)用于包含基因分型和未分型動物的相對較大的數(shù)據(jù)集。
貝葉斯回歸模型
使用貝葉斯回歸建立另一組基因組預(yù)測模型。普通的最小二乘回歸方法不能適應(yīng)解釋變量(SNP)數(shù)超過數(shù)據(jù)點數(shù)的情況(有表型的動物),但在貝葉斯回歸模型中,SNP效應(yīng)被視為基礎(chǔ)分布的隨機樣本。貝葉斯A(Meuwissen等人,2001)假定SNP效應(yīng)是從具有厚尾的t分布中采樣的,因此大多數(shù)SNP具有非常小的效應(yīng),但是少數(shù)SNP(推測與附近QTL處于連鎖不平衡中)可能具有大的影響。被稱為貝葉斯B(Meuwissen等人,2001)的類似方法假設(shè)SNP效應(yīng)代表2種分布的混合,其中標(biāo)記的一部分(π)對表型具有零效應(yīng),剩余部分(1-π)具有遵循t分布的效果。可以使用諸如Bayes C(Habier等人,2011)的方法從數(shù)據(jù)中任意預(yù)先確定分數(shù)參數(shù)。 Erbe等人(2012)隨后開發(fā)了Bayes R,它具有正態(tài)分布的混合,并且適應(yīng)了零,小,中和大的SNP效應(yīng)。如果存在中等或較大效應(yīng)的QTL,貝葉斯回歸方法傾向于優(yōu)于GBLUP,而GBLUP在繼承接近無限小模型的情況下表現(xiàn)良好。對未來的擔(dān)憂是這些模型是否能為選擇候選物提供有力的繁殖價值估計,因為只有少數(shù)動物被選擇用于繁殖先進的繁殖技術(shù)。我們的統(tǒng)計模型能夠在這個極端的選擇強度下正常運行嗎?
機器學(xué)習(xí)方法
機器學(xué)習(xí)是人工智能的一個分支,其重點是通過將高度靈活的算法應(yīng)用于觀察到的個體(標(biāo)記的數(shù)據(jù))的已知屬性(特征)和結(jié)果來預(yù)測未觀察到的個體(未標(biāo)記的數(shù)據(jù))的結(jié)果。結(jié)果可以是連續(xù)的,分類的或二元的。在動物育種中,標(biāo)記的數(shù)據(jù)對應(yīng)于具有基因型和表型的老年動物的參照群體或訓(xùn)練集,而未標(biāo)記的數(shù)據(jù)對應(yīng)于驗證群體或僅具有基因型的測試組選擇候選者。用于預(yù)測的特征是SNP基因型。存在無數(shù)的機器學(xué)習(xí)算法,并且沒有一種方法提供了普遍優(yōu)越的預(yù)測 - 不同的應(yīng)用程序和不同的應(yīng)用程序的最優(yōu)方法和參數(shù)是不同的。
隨著機器學(xué)習(xí)在其他領(lǐng)域的普及,在畜禽基因組預(yù)測方面也取得了一定的進展。機器學(xué)習(xí)算法因其在大型雜亂數(shù)據(jù)集中發(fā)現(xiàn)模式的能力而廣為人知,即使在關(guān)于某些潛在解釋變量的數(shù)據(jù)丟失時也是如此。 Long等人(2007)是應(yīng)用機器學(xué)習(xí)進行基因組預(yù)測的第一批動物育種家之一,他們使用過濾包裝法對肉雞健康特性進行SNP分類。隨后的研究Gonz ez-Recio等人(2010)著重于基因組預(yù)測荷斯坦種公牛壽命凈功的強化算法,而Okut等(2011)使用人工神經(jīng)網(wǎng)絡(luò)來預(yù)測使用密集分子標(biāo)記的小鼠的體重指數(shù)。姚等人(2013)通過使用隨機森林算法來識別影響奶牛殘留采食量的潛在加性和上位性QTL,顯示了機器學(xué)習(xí)方法的巨大靈活性。最近,Ehret等人(2015)使用人工神經(jīng)網(wǎng)絡(luò)來預(yù)測德國的荷斯坦弗里斯蘭和弗列克牧人的產(chǎn)奶育種價值。
機器學(xué)習(xí),特別是用于實現(xiàn)多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,對于增強基因組選擇和牛群管理具有巨大的潛力。這些算法發(fā)現(xiàn)雜亂數(shù)據(jù)中復(fù)雜的模式并比傳統(tǒng)的統(tǒng)計方法更有效地預(yù)測結(jié)果的能力已經(jīng)在各種領(lǐng)域得到了證明。功能強大的算法在商業(yè)和公共領(lǐng)域軟件中很容易獲得,但是它們本質(zhì)上是“黑匣子”。最終用戶必須了解基本概念,如如何構(gòu)建獨立且適合于預(yù)期用途的訓(xùn)練和測試集,如何調(diào)整給定模型或算法的參數(shù),以及如何避免過度擬合訓(xùn)練數(shù)據(jù)和對模型在未來應(yīng)用中的預(yù)測能力做出不切實際的結(jié)論。機器學(xué)習(xí)算法的靈活性可能是有價值的,其中包含從設(shè)計實驗中收集的生物學(xué)知識,以及大量的基因組和表型數(shù)據(jù),用于預(yù)測選擇候選物的育種值。
近交系數(shù)
近交系數(shù)用于監(jiān)測一個品種內(nèi)遺傳多樣性的損失,并在計算遺傳評估時考慮近交衰退的影響。預(yù)計未來的近親繁殖是由美國農(nóng)業(yè)部自1998年以來計算的,通過測量每只公牛與同一品種的雌性樣本之間的關(guān)系,并且該統(tǒng)計可用于識別與該品種低度相關(guān)的“異交”公牛。自2005年以來,美國農(nóng)業(yè)部的基因評估已經(jīng)根據(jù)牛奶記錄的女兒與預(yù)期的未來配偶之間的差異進行了調(diào)整,如果公牛的原配偶不是該品種的隨機樣本,就可能出現(xiàn)差異。近親繁殖的基因組測量,例如百分比雜合性或純合性運行,可以在基因組水平提供更精確的相似性度量。基于基因組的預(yù)測來自給定牛和其未來配偶的假設(shè)小牛的近親繁殖可以促進配偶分配決定,基因組數(shù)據(jù)可以為遺傳缺陷和近交抑制的遺傳基礎(chǔ)提供新的見解(VanRaden等,2011)。使用基因組數(shù)據(jù)評估品種組成現(xiàn)在是常規(guī)的,但缺乏在雜交育種系統(tǒng)中利用基因組數(shù)據(jù)的有效方法。品種內(nèi)遺傳多樣性的喪失仍然是一個問題,品種的管理者應(yīng)該監(jiān)測快速遺傳進展與多樣性保持之間的平衡。沒有任何理由讓一只荷斯坦公牛來養(yǎng)育超過3000個經(jīng)過子代測試的兒子,這些兒子統(tǒng)治著每個大陸的人工授精母牛的牛欄,但這在實踐中已經(jīng)發(fā)生了。盡管基于最優(yōu)貢獻理論(Meuwissen,1997)提供了限制加性遺傳關(guān)系隨時間變化的速率的方法,但這些方法在實踐中并未被廣泛使用。實施農(nóng)場,區(qū)域或生產(chǎn)系統(tǒng)特定的EBV和選擇指數(shù)將有效地解決近親繁殖和遺傳多樣性問題,同時也獲得與當(dāng)?shù)剡m應(yīng)相關(guān)的GXE的益處。
表型預(yù)測和管理診斷
動物育種者幾乎癡迷于下一代候選子代的預(yù)期表現(xiàn)。目前這一代動物的表現(xiàn)往往是事后的事情。他們還傾向于通過數(shù)據(jù)編輯消除似乎是由非遺傳原因引起的例外。例如,雙胎產(chǎn)犢的母牛通常從難產(chǎn)和死胎分析中去除,在泌乳早期(第一次DHIA試驗之前)死亡的母牛從產(chǎn)奶量評估中去除,在機會期結(jié)束前淘汰母牛一個特定的疾病可能會從健康特性分析中被丟棄。然而,農(nóng)民必須根據(jù)當(dāng)代所有動物的收入和支出來管理自己的業(yè)務(wù),包括那些動物育種者認為是例外的動物。用于預(yù)測未來表型(例如估計的相對生產(chǎn)能力(ERPA)或最可能的生產(chǎn)能力(MPPA))的方程可以容易地從牛的EBV和相應(yīng)的永久環(huán)境效應(yīng)估計和其他相關(guān)的解釋變量計算。預(yù)測的未來表型可以包含非加性遺傳效應(yīng),在基于譜系或BLUP的基因組應(yīng)用中被忽略,并且這可能變得對特定突變及其作用模式特別有用。數(shù)十年來,乳制品檔案處理中心的報告向農(nóng)民提供了MPPA,ERPA和類似指標(biāo)的價值,但在做出撲殺和管理決策時很少使用這些信息。
現(xiàn)在,基因組測試已經(jīng)非常普遍,每個月都有成千上萬的小牛進行測試,預(yù)測未來表型的效用大大提高。管理良好的現(xiàn)代化養(yǎng)殖場的牛群相對于維持群體規(guī)模所需的替代品數(shù)量,以及與飼養(yǎng)小母牛有關(guān)的飼料,勞力和住房成本,直到首次產(chǎn)犢時常常超過動物的市場價值。根據(jù)預(yù)測的未來表型來剔除劣質(zhì)的小母牛犢牛,可能是將它們用于牛肉生產(chǎn),這是一種常見且經(jīng)濟上合理的做法(Weigel等,2012)。可以使用EBV進行剔除決定,但是遺傳傾向性是對例如呼吸系統(tǒng)疾病引起的顯著肺損傷的小牛未來表型的不完全預(yù)測。預(yù)測的表型構(gòu)成了基因組引導(dǎo)的奶牛群管理的基礎(chǔ) - 牛等價于個性化醫(yī)療 - 如Weigel等人所述。 (2017)預(yù)測早產(chǎn)后荷斯坦奶牛的高酮血癥表型。
預(yù)測的表型被忽視的應(yīng)用是使用基因組數(shù)據(jù)進行評估或牛群管理實踐的基準(zhǔn)化的機會。基因組測試可以描述給定農(nóng)場中的小牛,小母牛或牛的遺傳傾向,并且該信息可以用于量化農(nóng)場的住房,熱量消減,飼料質(zhì)量,日糧配方,繁殖程序,健康協(xié)議,以及其他管理實踐使這些動物充分表達其遺傳優(yōu)勢。例如,可以使用用于早期產(chǎn)后健康障礙的基因組預(yù)測(Vukasinovic等,2017)來評估牛群的過渡牛處理,或者可以退化泌乳中期奶牛的每日牛奶重量以用于牛產(chǎn)量的基因組預(yù)測,以評估牛群的營養(yǎng)計劃。
總結(jié)
在過去的一百年中,遺傳選擇程序從譜系記錄,表現(xiàn)記錄和子代比較,到成年動物模型BLUP,全基因組預(yù)測,非線性模型和機器學(xué)習(xí)算法的演變。 Grosu等人(2014)全面回顧了這些發(fā)展及其對全球奶牛改良項目的影響,而這次審查主要集中在美國。過去一個世紀(jì),奶牛育種者的每一次科學(xué)進步都建立在他們前輩的肩膀上,與遺傳學(xué),統(tǒng)計學(xué)和計算機科學(xué)同事的合作已經(jīng)取得了顯著的回報。此外,過去一個世紀(jì)中,奶牛育種者的每一次科學(xué)進步都是為了解決影響奶農(nóng)的實際問題,解決可能傷害奶農(nóng)的潛在威脅,或利用可能使奶農(nóng)受益的機會。這正是立法者設(shè)想的贈地大學(xué)制度和聯(lián)邦農(nóng)業(yè)研究機構(gòu)網(wǎng)絡(luò)的目標(biāo),也是納稅人被要求為這些努力提供資金的期望。未來100年的發(fā)現(xiàn)目前是不可想象的,但我們希望在產(chǎn)生能夠?qū)е陆】档膭游铮錆M活力的農(nóng)場,滿意的消費者和可持續(xù)的糧食生產(chǎn)體系的研究成果方面也會取得類似的成就。