泛基因組分析方案

備注:本文主要來源于知乎《全新的泛基因組解決方案》。關于大豆泛基因組文章解讀,請看往期記錄《大豆(Soybean, Glycine max)泛基因組2020Cell》

一、研究內容

泛基因組產品采用從頭組裝的策略進行泛基因組構建,分析內容包括比較基因組分析、核心基因和非必需基因分析、結構變異(SVs)分析和圖形結構基因組的構建。具體內容如下:


image.png

1.比較基因組分析

泛基因組包含多個材料的基因組數(shù)據(jù),非常適合進行材料間的比較基因組分析,挖掘群體/個體材料的特有基因,從而在全基因組水平上了解不同材料間的共性與特性,進而了解其基因組結構、基因功能,探究特有基因與特殊生物學性狀的關系,推斷物種進化地位及適應性機制。

例如,大豆泛基因組研究[1]中,研究者通過WGD(Whole genome duplication,全基因組復制)分析,發(fā)現(xiàn)WGD區(qū)域包含較高比例的核心基因和次核心基因,而非WGD區(qū)域包含較高比例的非必需基因和特有基因。比較WGD和non-WGD之間的核苷酸多樣性,發(fā)現(xiàn)WGD區(qū)域基因核苷酸多樣性顯著低于非WGD區(qū)域。同時,在非WGD區(qū)域發(fā)現(xiàn)了更多的SVs,且與非WGD區(qū)域相比,WGD區(qū)域擁有較少特有SVs。研究結果表明基因組復制可以作為一種重要的遺傳力來影響SVs的進化。

image

圖1 大豆WGD與非WGD區(qū)域之間的基因和結構變異特征的比較(圖片引自文獻[1]),A:WGD與非WGD區(qū)域之間的基因密度比較。B:WGD和非WGD區(qū)域之間重復DNA比例的比較。C:WGD和非WGD區(qū)域之間核苷酸多樣性的比較。D:WGD和非WGD區(qū)域中的基因組成情況。E:WGD和非WGD區(qū)域中的結構變化組成情況。F:WGD和非WGD區(qū)域之間PAV驅動的單核苷酸突變率比較。

2. 核心基因/非必需基因分析

泛基因組中的基因分為核心基因和非必需基因,不同類型基因在特征和功能上具有明顯差異,通過對不同類型基因集的比較,可以進一步揭示物種的基因組變化和適應性機制。

泛基因組大小模擬

通過泛基因集的大小模擬(即泛基因和核心基因累計分析),可以預測該物種泛基集的理論大小、挖掘個體特有基因、了解個體基因組成、明確物種核心基因和非必需基因的占比等。

例如,大豆泛基因組研究[1]中,研究者對核心基因和非必需基因數(shù)目進行模擬,發(fā)現(xiàn)總基因隨著新基因組的加入而增加,并在n=25時接近平緩,表明這27份大豆材料非常具有代表性,已包含絕大多數(shù)的大豆基因信息。此外,短柄草[2]和番茄[3]等泛基因組研究也做了類似的分析。

image.png

圖2 大豆核心基因和非必需基因分析 A:泛基因組和核心基因組中基因家族數(shù)目隨大豆基因組數(shù)目增加的變化情況。B:泛基因組和個體基因組的基因家族組成。(圖片引自文獻[1])

核心基因/非必需基因功能富集

通過功能富集分析,可以直觀了解不同類型基因集的功能,有助于挖掘影響特殊生物學性狀形成的特有基因資源。

例如,大豆泛基因組研究[1]中,Pfam富集分析和GO富集分析顯示,核心基因在與生長、免疫、生殖、細胞發(fā)生等相關的生物學過程中富集,而非必需和特有基因在生物和非生物脅迫響應過程中富集。KEGG通路分析表明,核心基因富含與基礎代謝和次生代謝產物生物合成有關的途徑,非必需基因在特定代謝相關的途徑富集。

此外,短柄草[2]、番茄[3]、甘藍[4]等泛基因組研究均有類似發(fā)現(xiàn)。

image

圖3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析。(圖片引自文獻[1])

核心基因/非必需基因保守性分析

對不同類型基因集進行保守性分析,有助于挖掘適應性進化或馴化中發(fā)揮關鍵作用的基因。

例如,大豆泛基因組研究[1]中,對不同類型的基因進行保守性比較,結果表明含有InterPro結構域的核心基因和次核心基因遠遠高于非必需基因和特有基因,非必需基因的核苷酸多樣性(π)和dN / dS (非同義替換率與同義替換率的的比值)均高于核心基因,這些結果表明核心基因比非必需基因在功能上更保守。短柄草泛基因組研究[2]也有類似的發(fā)現(xiàn)。

image

圖4 大豆核心基因和非必需基因保守性比較左圖:核心基因和非必需基因中具有InterPro結構域的基因比例。中間圖及右圖:核心基因和非必需基因的核苷酸多樣性(π)和dN / dS 比較。(圖片引自文獻[1])

核心基因/非必需基因與重復序列相關性分析

研究表明,非必需基因更可能在重復序列區(qū)域富集。對不同類型基因集所在的重復區(qū)域進行統(tǒng)計。

例如,短柄草泛基因組研究[2]中,研究者發(fā)現(xiàn)染色體上非必需基因與核心基因的比率與種內TE活性高度相關,在染色體的著絲粒周圍區(qū)域,非必需基因與核心基因的比率更高。甘藍泛基因組研究[4]中也有類似的發(fā)現(xiàn),與核心基因相比,非必需基因周圍具有較高TE密度。

image.png

圖5 核心基因和非必需基因與重復序列相關性左圖:短柄草染色體的著絲粒周圍區(qū)域,核心基因與非必需基因的分布情況。右圖:甘藍核心和非必需基因TE含量比較。(圖片引自文獻[2,4])</figcaption>

核心基因/非必需基因表達水平分析

核心基因與非必需基因功能不同,表達量也有差異。

例如,短柄草泛基因組研究[2]中,研究者發(fā)現(xiàn)與非必需基因相比,核心基因通常有更高表達水平,并且在組織中更廣泛地表達。番茄泛基因組研究[3]也做有類似的發(fā)現(xiàn)。

image.png

圖6 短柄草核心基因和非必需基因表達比較 左圖:核心基因與Shell基因的表達水平比較。右圖:核心基因在與Shell基因的在多種組織中的表達情況。(圖片引自文獻[2])

3.結構變異分析

相比于原核生物基因組主要由基因序列組成,真核生物基因組中有超過50%的基因組可能是基因間的,并且基因序列本身還包含內含子。因此,真核生物泛基因組除了要關注基因外,也應該關注序列的變異。根據(jù)泛基因組進行結構變異分析,可以深入挖掘重要性狀的調控基因,解析表型多樣性形成的遺傳基礎。

SVs特征分析

基于基因組序列比對進行基因組SVs的檢測,可以對SVs特征進行分析,如對SVs類型、長度分布、基因組分布、重復含量進行比較等。番茄結構變異研究[5]中,研究者構建了最全面的pan-SV基因組,并對SVs的特征進行詳細分析,結果表明大多數(shù)SVs相對較小,SVs通常由轉座子和相關重復序列組成或產生。大豆泛基因組研究[1]也有類似內容。

image

圖7 SVs的特征分布左圖:番茄不同大小SVs的檢測頻率分布圖及不同類型SVs的長度分布圖。右圖:番茄不同類型SVs的重復含量分布。(圖片引自文獻[5])

核心/非必需SVs累計分析

將所有基因組中整合得到的非冗余SVs,同樣基于核心基因和非必須基因類似的策略進行核心和非必需SVs劃分和比較。通過核心和非必需SVs累計曲線,可以預測該物種泛基組的理論大小、挖掘個體特有結構變異。

例如,大豆泛基因組研究[1]中,研究者根據(jù)SVs的等位基因頻率,將SVs分為4類:核心SVs、次核心SVs、非必需SVs或特有SVs。與核心基因和非必需基因的累計分布模式相似,非冗余SVs集隨著樣本的加入而增長,并且趨于平緩。同時,核心SVs集逐漸減少,最終有130個SVs為所有樣本共有。番茄結構變異研究[5]也有類似的SVs累計分布趨勢的發(fā)現(xiàn)。

image

圖8 核心和非必需SVs累計分析 左圖:大豆核心和非必需SVs累計分析。右圖:番茄核心和非必需SVs累計分析。(圖片引自文獻[1,5])

圖形結構基因組構建

在基因組從頭組裝的基礎上,把該物種的所有遺傳變異的信息都添加到參考基因組中,表示為含有替代路徑的圖形結構,從而進行圖形結構泛基因構建,該泛基因組極大的涵蓋了個體間的差異信息,為物種研究提供更全面的遺傳信息。例如,大豆泛基因組研究[1]首次采用了圖形結構的泛基因組構建方法,打破了傳統(tǒng)線性基因組的存儲形式,展示了物種更全面的遺傳信息,為后續(xù)基因組學的其他研究奠定良好的基礎。

image

圖9 圖形結構基因組構建(圖片引自文獻[6])

SVs對基因結構的影響

通過泛基因組序列及基因結構分析,不僅可以檢測到先前報道的等位基因,而且可以發(fā)現(xiàn)新的基因結構變異,包括基因融合。

例如,大豆泛基因組研究[1]發(fā)現(xiàn)開花基因E3 基因結構變異導致其自身移碼甚至與其他基因融合,從而影響大豆的開花。

image

圖10 E3 在不同大豆材料中的結構變異 A:E3 在基因組中的物理位置。B:不同種質中E3的單倍型。C:13.3 kb的缺失導致單倍型E3-tr 材料中SoyZH13_19G210500基因丟失和E3 (SoyZH13_19G210400)與其鄰近基因SoyZH13_19G210600的基因融合。(圖片引自文獻[1])

SVs對基因表達的影響

通過對SVs所在的區(qū)域進行分類展示,并結合轉錄組數(shù)據(jù)對基因表達進行分析,有助于挖掘影響基因表達的關鍵SVs。

例如,番茄結構變異研究[5]通過檢測有和無SVs時相關基因的差異表達程度,來檢測受SVs影響的表達基因。結果發(fā)現(xiàn)在21,156個SV-基因對中發(fā)現(xiàn)數(shù)百個顯著的表達改變。研究表明結構變異通過改變基因劑量效應和表達水平,從而影響果實的風味,大小和產量。

image

圖11 番茄SVs對基因表達的影響 左圖:番茄材料中不同基因組特征SVs的百分比。右圖:受不同類型SVs影響的差異表達基因的數(shù)量情況。(圖片引自文獻[5])

二、技術策略

樣本選擇

為全面捕獲物種所有的基因組信息,建議基于經驗或群體結構信息選擇最具代表性的個體進行泛基因組構建,推薦樣本個數(shù)≥5個,具體可根據(jù)物種基因組大小、復雜度及群體復雜度進行調整。

大豆泛基因組研究[1]中,研究者通過2,898份大豆的重測序和進化樹構建,選擇了26份在系統(tǒng)發(fā)育關系和地理分布方面最具代表性的材料進行泛基因組構建。大麥泛基因組研究[7] 中,研究者通過19,778份大麥種質的基因分型數(shù)據(jù)的PCA(包含不同地理來源、行類型、生長習性等材料)選擇了20份大麥來代表其遺傳多樣性。

image

圖12 20份代表性大麥的材料選擇(圖片引自文獻[7])

測序策略

推薦采用PacBio HiFi測序,讀長長且準確,測序深度≥15X/樣本

HiFi組裝作為組裝界的新秀,具有組裝周期短,準確性高,連續(xù)性好,簡單基因組和復雜基因組通吃的特點,對于泛基因組這樣的大樣本量基因組組裝尤其合適,大幅縮短組裝周期,提高組裝準確性和連續(xù)性。

缺點是貴。目前真正用HiFi來做泛基因組的還是很少,但二代和三代都有,二代組裝相對來說比較碎,可能研究不了太深的問題。

image.png

圖13 HiFi測序深度與組裝連續(xù)性的關系(圖片引自文獻[8])

參考文獻:

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.

6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.

7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.

8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容

  • 表情是什么,我認為表情就是表現(xiàn)出來的情緒。表情可以傳達很多信息。高興了當然就笑了,難過就哭了。兩者是相互影響密不可...
    Persistenc_6aea閱讀 125,767評論 2 7
  • 16宿命:用概率思維提高你的勝算 以前的我是風險厭惡者,不喜歡去冒險,但是人生放棄了冒險,也就放棄了無數(shù)的可能。 ...
    yichen大刀閱讀 6,083評論 0 4