文章目錄
CHM:成年同卵雙胞胎的病毒組多樣性與腸道微生物組多樣性相關
熱心腸日報
研究總結
研究背景
研究結果
選擇微生物組一致或者不一致的同卵雙胞胎
類病毒顆粒(VLPs)的鳥槍法宏基因組測序
識別推定的細菌污染
功能組成支持病毒在類病毒顆粒純化中的富集
病毒組是個體獨特的
微生物組具有一致性的雙胞胎共享病毒類型
在腸道病毒組中噬菌體占優勢
病毒多樣性與微生物多樣性相關
α-多樣性
β-多樣性
研究討論
研究方法
糞便樣品
從人類糞便樣品中分離類病毒樣顆粒
病毒DNA鳥槍法測序
全部糞便樣品的宏基因組鳥槍法測序
細菌污染的評估
功能組成
從頭組裝
HMM注釋
物種組成
噬菌體-宿主相互作用的預測
多樣性指數
統計分析
拓展閱讀
猜你喜歡
寫在后面
CHM:成年同卵雙胞胎的病毒組多樣性與腸道微生物組多樣性相關
Virome Diversity Correlates with Intestinal Microbiome Diversity in Adult Monozygotic Twins
翻譯:秋芒樹 英國帝國理工學院
責編:劉永鑫 中科院遺傳發育所
原文鏈接:https://www.sciencedirect.com/science/article/pii/S1931312819300599
Cell Host and Microbe [IF:17.872]
DOI: 10.1016/j.chom.2019.01.019
Resource 2019-02-13
圖形摘要:病毒組仍然是微生物組中相對未被探索的組分。Moreno-Gallego和Chou等人,在沒有考慮宿主遺傳變量的情況下,研究了同卵雙胞胎的病毒組,探究微生物多樣性如何與病毒組多樣性相關。按微生物組一致性的高或低對同卵雙胞胎進行分類,揭示了與病毒組的相關性。
熱心腸日報
鏈接:https://www.mr-gut.cn/papers/read/1087944415
Cell子刊:腸道菌群可預測病毒組結構
創作:米見對 審核:小腸君 03月01日
原標題:病毒多樣性與成年同卵雙胞胎腸道菌群多樣性的關聯
在21對有相似或不同腸道菌群多樣性的成人同卵雙胞胎中,腸道病毒組具有高度特異的個體差異型;
噬菌體在腸道病毒組中占優勢地位,主要為長尾噬菌體目、微小噬菌體科、短尾病毒科和長尾病毒科;
菌群的豐度和多樣性與病毒的豐富度和多樣性存在對應性,與菌群相似的雙胞胎相比,菌群不同的雙胞胎有更多不同的病毒,菌群的多樣性越高,病毒組亦然;
病毒組的多樣性模式由噬菌體驅動,而非真核病毒;
腸道菌群結構可用于預測病毒組結構。
主編評語:人類腸道病毒組具有高度變異性。本研究通過比較同卵成年雙胞胎的腸道菌群與病毒組多樣性之間的關聯,發現盡管病毒組具有高度宿主特異性,其結構和多樣性與腸道菌群存在對應關系,并強調了噬菌體在腸道病毒組中的核心作用,值得參考。
研究總結
病毒組是人類腸道微生物子中最可變的組分之一。在雙胞胎中,病毒組是相似的,但成年人卻不一樣,這表明隨著雙胞胎年齡的增長,他們的環境和微生物組發生分歧(diverge),病毒組也一樣發生分歧(diverge)。微生物組在多大程度上驅動了巨大的病毒組多樣性尚不清楚。在這個研究中,我們研究了21對成年同卵雙胞胎中微生物組和病毒組多樣性之間的關系,這些雙胞胎按微生物組一致性的高或低來分類。源自類病毒顆粒(virus-like particles)的病毒組對于每個個體都是獨一無二的,Caudovirales 和 Microviridae 占優勢,并顯示出包含crAssphage的小核心(small core)。與微生物組具有一致性的雙胞胎相比,在不具有一致性的雙胞胎中顯示出,微生物組越豐富,病毒組就越豐富。這些模式是由噬菌體而不是真核病毒驅動的。總的來說,這些觀察支持微生物組在病毒組模式中的強大作用。
研究背景
人類腸道微生物組由大量的細菌,連同少數古菌和真核細胞,共同形成一個密度非常高的微生態系統(每克糞便1011 - 1012個細胞) 。微生物組的細胞和病毒組的成分(每克糞便中109 - 1012個類病毒顆粒(virus-like particles)的比例大致相等。病毒組主要由噬菌體和溶源噬菌體組成,也包括更罕見的真核病毒和內源性逆轉錄病毒。目前,大多數噬菌體在數據庫中沒有匹配,它們的宿主仍有待闡明。將噬菌體與宿主相匹配是一項挑戰:例如,最常見的人類腸道噬菌體——crAssphage——的宿主最近才被鑒定為Bacteroides的物種。除了對宿主的鑒定,還存在其他問題,比如塑造病毒組最重要的因素,以及微生物組的細胞部分對病毒組的預測程度。
普遍認為噬菌體及其宿主在時間序列上的種群動態可能是相關聯的。事實上,研究者描述過水生系統中的病毒及其細菌宿主的群體振蕩,這些研究表明病毒在調節細菌種群(population)方面起關鍵性作用。但是這種捕食者-被捕食者模式(predator-prey)對于人類腸道病毒組和微生物組中并不典型。為了清楚起見,從這里開始,我們使用“微生物組(microbiome)”來指代微生物組的細胞部分(cellular fraction of the microbiome),例如,主要是細菌細胞。盡管如此,病毒組和微生物組確實顯示出相似的跨宿主的多樣性模式,例如人與人之間的(interpersonal)高度的差異和相對長期的穩定性。與無關(unrelated)個體相比,有聯系(related)的個體的微生物組更相似,這可能是由于共同的飲食習慣推動了微生物組之間的相似性。相應地,飲食與病毒組多樣性相關,很可能這是通過飲食對微生物組的影響。在嬰兒中,同卵雙胞胎之間的病毒組比無關(unrelated)個體之間的病毒組更相似。在成年雙胞胎中沒有觀察到這種模式,可能是因為它們的微生物組已經發生了分歧(divergence)。由于宿主相關性等混雜因素,微生物組本身在多大程度上驅動宿主間病毒組的多樣性模式難以評估。
在這個研究中,我們關注成年同卵雙胞胎的腸道微生物組,以進一步探索微生物組與病毒組多樣性之間的關系。通過研究同卵雙胞胎的病毒組,我們控制了宿主的遺傳相關性。盡管與雙卵雙胞胎或不相關的個體相比,同卵雙胞胎通常具有更相似的微生物組,但是同卵雙胞胎仍然可以顯示出大量雙胞胎內的微生物組多樣性。我們以前從TwinsUK隊列(cohort)中收集了雙胞胎的糞便微生物,基于這一信息,我們選擇了具有高度一致性或高度不一致性的微生物組的雙胞胎。我們從類病毒顆粒(virus-like particles)中產生病毒,這些類病毒顆粒(virus-like particles)是從與微生物組來源相同的樣品中獲得的。結果表明,微生物組多樣性和病毒組多樣性的指標呈正相關關系。
研究結果
選擇微生物組一致或者不一致的同卵雙胞胎
Selection of Microbiome-Concordant and -Discordant Monozygotic Twin Pairs
我們選擇了具有相似體重指數( BMI )的雙胞胎,基于之前獲得的16S rRNA基因測序數據,它們的微生物組樣本間多樣性( β-多樣性)要么一致,要么不一致。這項研究中的成年同卵雙胞胎不共享一個家庭(household),我們假設雙胞胎之間的其他環境變量相似。我們基于三個β-多樣性距離確定同卵雙胞胎微生物組之間的一致或不一致程度,這三個距離是Bray-Curtis、加權(weighted)UniFrac和未加權(unweighted)UniFrac。與預期一致,β-多樣性是相關的(Pearson相關系數>0.4)。基于成對距離(pairwise distance)的分布,我們從所有三種分布的邊界中選擇了21對同卵雙胞胎(圖1A),同時保持年齡和體重指數在整個組中的平衡。在所選的21對雙胞胎中,微生物組具有一致性的同卵雙胞胎之間比不具有微生物不一致的更相似(p = 6.31 X 10 -12,兩類相似度分組統計)。不具有微生物組一致性的同卵雙胞胎的微生物組在所有的分類學水平上都有不同的組成,特別是在門的水平上,Firmicutes和Bacteroidetes是兩個主要的門,對同卵雙胞胎之間的差異貢獻最大(圖1B/C)。
圖1. 雙胞胎的微生物組差異
( A )來自之前研究中的354對單卵雙胞胎微生物組的β-多樣性。每個點代表一對雙胞胎的β-多樣性,使用加權(weighted)UniFrac (x軸)、未加權(unweighted)UniFrac (z軸)和Bray-Curtis (y軸)方法測量的。平面是最小二乘法(the least squared)擬合的Bray-Curtis ~ Weighted UniFrac + Unweighted UniFrac平面。從兩個邊緣(edges)中選擇具有微生物組具有一致性(藍色)和微生物組不具有一致性(橙色)的同卵雙胞胎子集。黑點表示用于病毒組和整個糞便宏基因組比較的樣本。
( B )比較21對同卵雙胞胎在門水平上的分類學概況(相對豐度),1 – 9組的微生物組具有一致性,10 – 21組的微生物不具有不一致性。
( C )微生物組具有一致性(藍色點,樣本量n = 9 )和不具有一致性(橙色點,樣本量n = 12 )同卵雙胞胎的主要門水平的相對豐度的差異。使用了Mann-Whitney’s U test. ***表示p < 0.0005, *表示p = 0.055。
類病毒顆粒(VLPs)的鳥槍法宏基因組測序
Shotgun Metagenomes of VLPs
我們從用于16S rRNA基因多樣性分析的相同糞便樣品中分離出類病毒顆粒(virus-like particles)。從類病毒顆粒(virus-like particles)中提取的DNA用于全基因組擴增,然后進行鳥槍法宏基因組測序。第一個大片段文庫(“large-insert-size library”)選擇平均插入大小為500 bp (總共34,325,116對序列reads;質量控制后每個樣品817,265 ± 249,550對序列),用于病毒重疊群(contigs)的重新組裝(de novo assembly)。第二個小片段文庫平均插入大小為300 bp的較小片段在(“small-insert-size library”)中純化并測序。最終的pair-end 序列合并為2,5324,163條較長的過濾過質量的序列,以提高比對(mapping)精確度。
識別推定的細菌污染
Identification of Putative Bacterial Contaminants
從類病毒顆粒(virus-like particles)制備和測序的病毒可能被細菌DNA污染。然而,鑒于噬菌體是水平基因轉移的主要媒介,在溶源噬菌體狀態下,溫和病毒通常占細菌基因組的10 %,去除潛在的細菌污染也可能去除病毒序列。為了評估細菌DNA的污染,我們把病毒序列比對(mapped)到一組8163個完全組裝的細菌基因組上。我們的策略是評估每個基因組全部長度上每個100kb滑窗的覆蓋率,那些覆蓋率中值大于100的基因組被認為是污染。比對到短區域的序列被認為是溶源噬菌體或水平轉移的基因而被保留下來(圖2A)。比對(map)到基因組的序列且被確定為潛在污染物,去除它們之后再進行進一步的分析。
我們識別了65個細菌基因組是潛在污染,每個樣品的序列中1 % ± 1.125 %比對(mapping)到細菌基因組。大多數( 37 / 68 )屬于Firmicutes門;在物種水平上,在至少50 %的樣品中檢測到Bacteroides dorei, B. vulgatus, Ruminococcus bromii, Faecalibacterium prausnitzii, B. xylanisolvens, Odoribacter splanchnicus和B. caecimuris。如果微生物組中最豐富的細菌種類是最可能的污染源,那么它們作為污染物的相對豐度應該與它們在微生物組中的相對豐度相對應。然而,我們觀察到污染的DNA和微生物組中代表分類群的相對豐度之間沒有顯著的相關性(圖2B)。
圖2. 類病毒顆粒(VLP)在準備過程中的細菌污染
( A ) 單個樣品(4A)在去除被認定為污染的read之前(上圖)與之后(下圖)的類病毒顆粒(VLP)比對到細菌基因組的熱圖。細菌基因組用豎條表示,按長度排序,分成了100,000bp大小的bins。中值覆蓋率超過了100的序列被認為是污染。左邊的色標顯示了bin覆蓋率,散點圖顯示了每個基因組bin覆蓋率的中位數。
( B )從所有類病毒顆粒(VLP)提取物中識別出來的65個污染基于NCBI的進化樹圖。右圖: 類病毒(VLP)提取物中細菌基因組的豐度與微生物組中16S rRNA基因圖譜之間的Spearman相關系數(rank correlation co-efficient (rho))。左圖:所有個體中細菌基因組的總豐度。
功能組成支持病毒在類病毒顆粒純化中的富集
Functional Profiles Support Viral Enrichment in VLP Purification
為了評估病毒組的功能性內容,我們使用整合基因集Integrated Gene Catalog,IGC)的KEGG對“short-insert-size”文庫的原始序列進行了注釋。根據以前的研究,大部分宏基因組類病毒顆粒(virus-like particles)的序列( 85.43 % ± 5.74 % )被比對(mapped)到具有未知功能的基因(圖3A)。
為了進一步驗證序列來源于類病毒顆粒(virus-like particles)而不是微生物組,我們生成并且比較了四個補充個體的類病毒顆粒(virus-like particles)和大量糞便樣品的宏基因組數據。與預期一致,來自相同樣品的病毒組和微生物組的功能分布是不同的。比對(map)到注釋基因的病毒組序列在兩個類別中富集:遺傳信息過程(Genetic Information Process)( 48.87 % ± 12.12 % )和核苷酸代謝(Nucleotide Metabolism)( 17.59 % ± 8.81 % ),相比之下微生物宏基因組中分別為24.31 % ± 1.28 %和5.47 % ± 0.4 %(圖3B)。基本上,細菌宏基因組中存在的大多數其他功能類別在病毒組中都不存在。此外,相對于微生物組,病毒組的功能注釋顯示樣本間的更高的變異,更低的組內相關系數(intraclass correlation coefficient,圖3B)。
圖3. 糞便宏基因組和病毒組的功能基因(gene content)比較
( A ) 糞便宏基因組和病毒組中KEGG類別的相對豐度,包括整合基因集(Integrated Gene Catalog,IGC)的所有命中(hits),不考慮注釋。
( B )糞便宏基因組和病毒組在KEGG注釋第二級類別中相對豐度的熱圖,不包括帶有未知注釋的整合基因集基因。
色標顯示相對豐度的平方根。A.V.表示附加的病毒組;A.M.表示附加的微生物組(全基因組提取)。A.M.的Intra-class coefficient(ICC) 值為0.99,A.V.的ICC值為0.85。具有微生物一致性的同卵雙胞胎的ICC值0.69,不具有一致性的ICC值為0.68。
病毒組是個體獨特的
Viromes Are Unique to Individuals
我們從“large-insert-size library”中組裝了序列,總共產生了大于500 nt 的107307條重疊群 (最大值:79,863 nt;平均值,1,118±1741 nt)。為了評估病毒組的結構和組成,建立了一個比對到去重復的重疊群的序列補充矩陣(a matrix of the recruitment of 序列 against dereplicated 重疊群 was built)。這個補充的矩陣包括14584條,既長(>1300 nt ),覆蓋面又廣( > 5X )的重疊群,他們被稱為“病毒類型(virotypes)”。對補充矩陣的分析表明,每個個體都有一組獨特的病毒類型(virotypes): 3415種病毒類型只存在于一個個體中(占總數的23.41 % ), 413種病毒類型存在于至少50 %的個體中 ( 2.83 % ),只有18種病毒類型存在于所有個體中 ( 0.1 % )。
微生物組具有一致性的雙胞胎共享病毒類型
Twins with Concordant Microbiomes Share Virotypes
我們檢查了雙胞胎之間共享的病毒類型(virotypes),并觀察到同卵雙胞胎共享的病毒類型(virotypes)并不比無關的個體多。然后,我們分別評估了微生物組具有一致和不具有一致性的雙胞胎:微生物組不具有一致性的雙胞胎與無關個體相比不共享更多的病毒類型( p = 0.254 ),而微生物組具有一致性的雙胞胎確實比無關個體共享更多的病毒類型( p = 0.048 )。此外,我們還發現微生物組具有一致性的雙胞胎比微生物組不具有一致性的雙胞胎共享更多的病毒類型( p = 0.015 )。
在腸道病毒組中噬菌體占優勢
Bacteriophage Dominance of the Gut Virome
為了描述病毒組的分類組成,我們試圖使用投票系統方法(a voting system approach that)對所有66,446個去重復并且有良好覆蓋率的重疊群進行注釋,該方法利用組裝后的重疊群及其編碼蛋白中的信息。此外,我們對兩個高度豐富的腸道相關噬菌體家族(families)進行了定制注釋: ( 1 )crAssphage;( 2 ) Microviridae科。為此,我們使用隱馬爾可夫模型( Hidden Markov Models ,HMMs )來搜索crAssphage (雙鏈DNA,dsDNA )病毒和Microviridae科(單鏈DNA,ssDNA )病毒重疊群。
HMMs使我們能夠識別遠源的同源物(distant homologs),然后我們將它們與已知的參考序列整合到系統發育樹中,以確認注釋并更好地解析分類。我們注釋了108個重疊群( 19個crAssphage,90個Microviridae科),驗證了68個重疊群在科水平的分配(assignments),并為97個重疊群分配了一個亞科。對于Microviridae科,只有11個重疊群以前有分配的物種分類(taxonomic assignment),都屬于Gokushovirinae,我們確認了這些分配,另外有23個重疊群為Gokushovirinae,54個重疊群為Alpavirinae,1個重疊群為Pichovirinae。對于crAssphage,11個重疊群與原始的crAssphage聚集在一起,3個重疊群與Chlamydia噬菌體參考基因組聚集在一起,5個重疊群與IAS病毒聚集在一起。
在校對了投票系統注釋和HMM注釋之后,總共有12751個重疊群( 29.62 % )被分配物種分類。病毒組以噬菌體為主,只有6.42 %的重疊群被注釋為真核病毒。與預期一致,大多數重疊群( 96.98 % )是dsDNA病毒,而只有2.43 %的重疊群被標注為ssDNA病毒。Caudovirales是最豐富的目,其三個主要科分別為: Myoviridae ( 20.22 % ± 4.83 % )、Podoviridae ( 10.54 % ± 3.27 % )和Siphoviridae ( 35.25 % ± 7.19 % )。crAssphage家族平均構成重疊群的13.26 % ( ± 12.24 % ),在一個病毒組中最大的分布可以達到55.80%,Microviridae占病毒群的3.87 % ± 2.57 %。有趣的是,我們觀察到Phycodnaviridae超過平均豐度的1 % ( 1.77 % ± 1.12 % 圖4A),以及與核質大DNA病毒(nucleocytoplasmic large DNA viruses, NCLDV)相關的重疊群的平均相對分布為3.99 % ± 2.22 %。在所有樣品中都存在的18個重疊群包括10個標記為crAssphage的重疊群,2個標記為“未分類的Myoviridae”,2個標記為“未分類的Caudovirales”,1個標記為Microviridae,3個未分類。在每個樣本定義的分類概況中,我們在所有分類水平上尋找具有微生物組一致和不具有微生物組一致性的雙胞胎的病毒組組成的差異。任何分類群在目和科水平上沒有顯著差異,包括crAssphage和Microviridae科(圖4B)。
圖4.病毒組組成
21對同卵雙胞胎的微生物組在科水平的分類特征比較,1 - 9 組是具有一致性的微生物組,10 – 21組是不具有一致性的微生物組。
( A )同卵雙胞胎的病毒組在科水平的組成。
( B )微生物組具有一致性(藍色點,樣本量n = 9 )和不具有一致性的(橙色點,樣本量n = 12 )同卵雙胞胎在每個科水平的相對豐度差異。
我們使用CRISPR比對微生物與噬菌體數據庫(microbe-versue-phage,MVP)預測病毒類型(virotypes)和分類特征重疊群(taxonomically characterized)的細菌宿主。由于注釋噬菌體的宿主,我們沒有獲得任何注釋為真核病毒的重疊群信息。這些方法使我們能夠識別910個重疊群推定的(putative)宿主。在這910個重疊群中,只有一個先前被注釋為crAssphage,與預期一致,其宿主被推斷為Bacteroidetes的物種。我們總共鑒定了1280個推定的(putative)細菌宿主菌株,包括來自多個門87個屬的187個物種:其中大多數來自Firmicutes門(92),其次是Bacteroidetes門( 41 )和Proteobacteria門 ( 38 )。每個重重疊群的宿主數量中值為1(IQR = 1–2 ),而在菌株水平上,每個宿主的噬菌體數量中值為2 (IQR= 1–3 )。
病毒多樣性與微生物多樣性相關
Virome Diversity Correlates with Microbiome Diversity
為了評估病毒組和微生物組多樣性之間的關系,我們使用從測序數據中獲取的三個不同層次的信息檢查了病毒組的樣本內多樣性(α-多樣性)和β-多樣性: ( 1 )病毒類型(virotypes),( 2 )分類注釋的重疊群,( 3 )從短序列中注釋的基因。
α-多樣性
微生物組和病毒組的α-多樣性在用于測試相關性的三層信息中的兩層中呈正相關(病毒類型(virotypes)和分類注釋的重疊群,圖5A)。我們使用帶注釋的重疊群來查詢病毒亞組(subgroups)(真核ssDNA、真核dsDNA、細菌ssDNA和細菌dsDNA)中的α-多樣性。結果表明真核病毒的多樣性與微生物組α -多樣性無關。相反,ssDNA或dsDNA的噬菌體與微生物組α-多樣性呈正相關關系。
圖5. 噬菌體多樣性與微生物組多樣性相關,但與真核病毒多樣性不相關
( A )病毒組香農α-多樣性(Shannon α-diversity)與微生物組香農α-多樣性((Shannon α-diversity))的相關性( 樣本量n = 42 )。繪制了線性回歸95 %置信區間的最佳擬合線。病毒類型(Virotypes):皮爾遜相關系數(Pearson correlation coefficient)= 0.406,m= 0.3,p = 0.007,R2 = 0.165。分類學:皮爾遜相關系數 = 0.389,m = 0.25,p = 0.010,R2 = 0.151。基因:皮爾遜相關系數 = 0.105,m = 0.11,p = 0.506,R2 = 0.011。
( B )根據注釋為真核ssDNA病毒、ssDNA噬菌體、真核dsDNA病毒和dsDNA噬菌體的重疊群計算的病毒組香農α-多樣性(Shannon α-diversity)與微生物組香農多樣性(Shannon α-diversity)的相關性( 樣本量n = 42 )。繪制了線性回歸95%置信區間的最佳擬合線。真核病毒: 皮爾遜相關系數= 0.027,m= 0.034,p = 0.863,R2= 0.000751。sDNA噬菌體: 皮爾遜相關系數= 0.394,m= 0.35,p = 0.009,R2 = 0.155。dsDNA真核病毒: 皮爾遜相關系數= 0.143,m= 0.15,p = 0.368,R2 = 0.020。dsDNA噬菌體: 皮爾遜相關系數= 0.400,m = 0.25,p = 0.008,R2 = 0.16。
β-多樣性
我們觀察到,當使用Hellinger距離時,與不具有一致性的微生物組的雙胞胎相比,具有微生物組一致性的雙胞胎病毒組β-多樣性較低;平均無權重Jaccard 距離和Bray-Curtis距離也顯示出相同的趨勢。與我們觀察到的α-多樣性相似,無論使用哪一層信息,具有一致性的微生物組的同卵雙胞胎中病毒組的平均Hellinger距離明顯低于不具有一致性的微生物組的同卵雙胞胎(圖6)。把具有微生物組一致性的雙胞胎或不具有一致性的微生物組的雙胞胎按性別分開時,我們沒有觀察到β-多樣性的顯著差異。盡管如此,任何關于性別影響的推斷都是有局限的,因為每個群體的個體數量都減半了。此外,當使用注釋重疊群時,在微生物組和病毒組β-多樣性之間觀察到顯著正相關。這種關系是由噬菌體而不是真核病毒驅動的。
圖6. 病毒組β-多樣性模式反映了微生物組的β-多樣性
根據分析的三個不同的信息層(病毒類型(virotypes)、基因(genes)和分類學(taxonomy)),箱線圖顯示了微生物組和病毒組的Hellinger距離分布,對于微生物組具有一致性的同卵雙胞胎(藍色,樣本量n = 9 ),微生物組不具有一致性的同卵雙胞胎(橙色,樣本量n = 12 ),微生物組具有一致的同卵雙胞胎中的無關樣本(藍色,樣本量n = 144 ),以及微生物組不具有一致性的同卵雙胞胎中的無關樣本(橙色,樣本量n = 264 )。均值之間的顯著差異(Mann-Whitney’s U test, p < 0.020) 用不同的字母表示。
最后,我們比較了相關(同卵雙胞胎)和無關個體之間的病毒組和微生物組的成對距離(pairwise distance)。成對距離矩陣顯示病毒組和微生物組β-多樣性測量值之間的正相關,不僅在雙胞胎之間,在所有個體之間都是如此。這些結果表明,不管宿主之間的遺傳相關性如何,個體的微生物組越相似,病毒組也會越相似。
研究討論
同卵雙胞胎,像其他兄弟姐妹一樣,通常比無關個體擁有更相似的腸道微生物組。此外,同卵雙胞胎總體上比異卵雙胞胎具有更相似的微生物組,盡管在整個微生物組水平上,這種影響很小,這主要是由一小組可遺傳的微生物驅動的。然而,在同卵雙胞胎群體中,微生物組中雙胞胎內部差異可能和異卵雙胞胎的一樣大。我們利用同卵雙胞胎β-多樣性的巨大差異,選擇了腸道微生物組高度一致或不一致的同卵雙胞胎。我們對它們的病毒環境的分析表明,盡管個體間腸道病毒環境差異很大,而且不管宿主的相關性如何,他們的微生物環境越不相似,他們的病毒環境就越不相似。這種模式是由病毒組的噬菌體驅動的。
通過從微生物組的β-多樣性分布中選擇同卵雙胞胎,我們去除了宿主遺傳相關性作為可能影響病毒組的變量。以前對嬰兒雙胞胎病毒組和微生物組的研究表明,同卵雙胞胎的微生物組和病毒組比無關個體的更相似,這表明共享的宿主基因型和/或環境是關鍵。相反,一項對成年雙胞胎病毒組的研究表明,成年同卵雙胞胎沒有比不相關的個體擁有更相似的病毒組;然而,根據目前的研究結果,這可能是一個統計功效(power)問題。事實上,在我們的數據集中,我們觀察到無論雙胞胎的微生物組一致還是不一致,同卵雙胞胎比無關個體都具有更多相似的病毒組病毒類型(virotypes)和物種分類(taxonomy)。
之前的研究表明,與成年雙胞胎相比,年輕雙胞胎的病毒組相似性更高,這與嬰兒雙胞胎共享更大的環境有關,特別是在飲食方面。Minot等人的研究也表明,相同飲食的個體比不同飲食的個體具有更相似的腸道病毒組。眾所周知,飲食是日常微生物組波動的強大驅動力,所以飲食對病毒組的影響可能是由微生物組介導的。然而,我們沒有控制飲食,所以我們觀察到的微生物組不一致可能是由于雙胞胎在取樣時飲食不同造成的。不管影響微生物組一致性的差異的基礎是什么,它都與病毒組的一致性密切相關。
以前沒有直接討論過成年人的病毒組豐富度(richness)和微生物組豐富度之間的關系。我們觀察到,使用描述病毒多樣性的三層信息中的兩層,微生物組和病毒組的α-多樣性正相關。具體來說,這種模式在病毒類型(virotypes)和物種分類學(taxonomy)上被觀察到,但在基因(gene)上沒有。然而,由于觀察到病毒基因僅在兩類中得到富集,即遺傳信息處理(Genetic Information Processing)和核苷酸代謝(Nucleotide Metabolism),我們預計受試者之間病毒組基因的多樣性不會有差異。分類注釋層面(taxonomic annotation layer)的信息表明,是病毒的噬菌體組分而不是真核病毒推動了這種α-多樣性相關的模式。
病毒組和微生物組多樣性之間的正相關關系表明,宿主的可獲取性(availability)越強,病毒的多樣性就越高。這些觀察與“piggy back the winner”模型一致,該模型假設在密度大的環境中,噬菌體選擇進入溶源循環,并與其宿主一起復制。事實上,對人類腸道病毒組的縱向研究已經報道了與溶源性相關的基因,溫帶型的重疊群隨時間(over time)的低突變率,以及病毒組的長期穩定性,表明了對溶源性周期的偏好。然而,噬菌體捕食行為(phage predation)被認為是維持高度多樣性和高效生態系統的一個重要因素,并可能在快速變化的生態系統中扮演維持多樣性的角色,如人類腸道中。對病毒組-微生物組相互作用的短期時間序列(time series)分析,以及對噬菌體繁殖中溶源-裂解轉變(lysogenic-lytic switch)的更好理解,將有助于解釋在人類腸道病毒組中觀察到的模式。
這里描述的病毒組的組成與以前報道的成人糞便病毒組的組成有相似性。從經過注釋的部分來看,Caudovirales目及其科Siphoviridae、Myoviridae和Podoviridae以及crAssphage是所有樣本中的優勢噬菌體。Manrique等人將嬰兒腸道的噬菌體定殖過程總結如下:真核病毒首先占據新生兒腸道,隨后是Caudovirales,在2.5歲前Microviridae開始成為優勢噬菌體。的確,在我們的樣本集中觀察到了豐富的Microviridae,但是Caudovirales是優勢群體。年齡與這里研究的成人受試者的多樣性模式無關。
盡管這里描述的每個病毒組具有高度的多樣性和獨特性,但我們在受試者中發現了一組病毒:所有樣本中都存在18個重疊群。這些重疊群中有一半以上被注釋為crAssphage,這與最近這種噬菌體廣泛存在的報道一致。我們的數據集中其他共有的病毒類型(virotypes)被分類為Myoviridae和Microviridae。我們還發現了比對到以核質大DNA病毒、Phycodnaviridae和Mimiviridae為代表的科水平的重疊群。這些類型的病毒越來越多地被報道為人類腸道病毒組的成員。一組核心噬菌體由九個代表組成,包括crAssphage。廣泛共享的病毒類型(virotypes)可能表示了,個體之間特定宿主的廣泛共享,或者這些病毒在人類微生物組中具有廣泛的宿主范圍。
我們使用HMMs來注釋病毒重疊群,這使得我們能夠深入探討病毒組的分類學的內容。除了與公共數據庫的比較所揭示的內容之外,我們并確認了這些注釋。因為每種類型的病毒(例如,科水平)都需要自己的HMM,所以我們將這種方法應用于幾個關鍵組(key groups)。當應用于crAssphage時,HMM檢索的重疊群僅與來自糞便病毒的序列聚在一組,而不與來自其他環境(例如陸地或海洋)的序列。這表明,盡管crAssphage是一個多樣化的噬菌體群體,但其在人類腸道中的多樣性僅限于crAssphage參考基因組,IAS病毒參考基因組或者Chlamydia噬菌體相關的序列。我們還將HHM應用于Microviridae科,這是一種ssDNA噬菌體。我們能夠確認Gokushovirinae和Alpavirinae亞科的不同成員的存在。盡管有證據表明,所描述的Alpavirinae基因組構成了Microviridae科的第三組,它們對應于溶源噬菌體,這使得很難將它們整合到國際病毒分類委員會(International Committee on Taxonomy of Viruses, ICTV )的分類中;因此,在應用HMM圖譜(profiles)前,沒有任何重疊群被標注為Alpavirinae。
對于每一個病毒分類組(taxonomic group),都有一組相應的細菌宿主。從我們用來選擇雙胞胎的16S rRNA基因多樣性數據中,很明顯是哪一個門水平的細菌對具有一致性的微生物組雙胞胎和不具有一致性的微生物組雙胞胎的微生物組的差異貢獻最大。但是與細菌不同的是,我們無法根據病毒中的目或者科來辨別出這樣清晰的模式。事實上,大部分噬菌體多樣性只歸入一個目Caudovirales,及其三個科:Myoviridae, Podoviridae和Siphoviridae。這些科的病毒可以感染不相關的宿主。因此,我們沒有必要期望特定的病毒目或病毒科顯示在細菌門水平上觀察到的這種模式(很明顯是哪一個門水平的細菌對具有一致性的微生物組雙胞胎和不具有一致性的微生物組雙胞胎的微生物組的差異貢獻最大)。
最后,我們注意到了一個有趣的模式,即在選定的細菌種類中,病毒組中完全覆蓋細菌基因組。由于這些推定的污染物不是微生物組中最豐富的成員,它們不太可能代表大量(bulk)DNA的隨機污染。目前還不清楚為什么某些細菌基因組顯示如此高的覆蓋率。一種可能性是,我們正在觀察具有轉座功能的噬菌體宿主的物種范圍。噬菌體,比如Mu噬菌體可以隨機整合到宿主基因組中,通過連續幾輪復制轉座擴增,然后可以包裝宿主基因組的任何部分。有趣的是,在此檢測到的幾種污染也被報道為其他人類腸道病毒研究中的污染,這可能表明具有轉座功能的噬菌體的宿主特異性。另一種解釋包括囊泡產生、基因轉移劑和/或廣義轉導過程。對不同病毒數據庫中發現的完整細菌基因組的進一步比較,可能有助于揭示它們的來源,特別是在多項研究中回收的相同細菌物種。
研究方法
EXPERIMENTAL MODEL AND SUBJECT DETAILS
糞便樣品
Fecal Samples
本研究中使用的糞便樣本是作為之前的研究的一部分而獲得的。從16S rRNA基因多樣性中,先前共測量了354對同卵雙胞胎,他們的糞便樣本是在2013年1月28日至2014年7月14日期間收集的。我們基于雙胞胎中的三個微生物組β-多樣性距離,選擇了9對微生物組具有一致性和12對微生物組不具有一致性的同卵雙胞胎。這三種距離是,unweighted UniFrac, weighted UniFrac和Bray-Curtis。在微生物組具有一致性和不具有一致性組內都選擇了能夠在性別、年齡、BMI和BMI差異方面(BMI difference)保持平衡的雙胞胎。一致組中的雙胞胎年齡在23至77歲之間,包括5對男性和4對女性,微生物組不具有一致性的雙胞胎年齡在29至81歲之間,包括5對男性和7對女性。所有涉及使用這些先前收集的樣本的工作都得到康奈爾大學IRB的批準。
從人類糞便樣品中分離類病毒樣顆粒
Isolation of Virus-like Particles (VLPs) from Human Fecal Samples
類病毒顆粒(Virus-like Particles, VLPs)的分離基于之前描述過的方法。對于類病毒樣顆粒分離,之前使用0.02 μm濾膜( Whatman )過濾,0.5 g糞便樣品在15 mL PBS中渦旋5 - 10分鐘,使之重新懸浮。將勻漿在4,500 xg下離心30分鐘,上清液通過0.22 μm polyethersulfone(PES ) Express Plus Millipore Stericup ( 150 ml )過濾,以去除細胞碎片和細菌大小的顆粒。然后濾液在Millipore Amicon Ultra-15離心過濾單元上濃縮100K至1毫升。將濃縮物轉移到5 Prime Phase Lock Gel中,并在室溫下用200 ml氯仿(chloroform)溫育10分鐘。在15000 xg下離心1分鐘后,將水層轉移到新的微量離心管中,并在37℃用Invitrogen TURBO DNase (14 U )、Promega RNase One (20 U )和1 ml Benzonase Nuclease (E1014 Sigma Benzonase Nuclease) 處理3小時。溫育后,向每個樣品中加入0.04 體積(volumes)0.5 M EDTA。在進一步處理之前樣品被儲存在- 80℃環境下。
病毒DNA鳥槍法測序
Viral DNA Shotgun Sequencing
病毒DNA是用從Invitrogen購買的PureLink Viral RNA/DNA Mini Kit提取的。然后使用從Sigma-Aldrich購買的GenomePlex Complete Whole Genome Amplification (WGA2) Kit擴增每個病毒DNA樣品。該步驟包括兩個空白對照,但是產量非常低,無法構建文庫。然后用Covaris S2 Adaptive Focused Acoustic Disruptor 對擴增產物進行片段化,參數設置如下:duty cycle為10 %,cycle per burst為200,強度為4, 時長60 s。每個病毒測序文庫按照Illumina TruSeq DNA Preparation Protocol制備,每個樣品有一個獨特的標簽。所有標簽化文庫匯集在一起。其中一半由BluePippin根據大小選擇用來富集更長的插入物( 425 - 875 bp,包括adapters)。在Illumina HiSeq 2500儀器上,兩個文庫(pools),即“大片段文庫large-insert-size library”和“小片段文庫short-insert-size library”,在康奈爾生物技術資源 測序中心的Illumina HiSeq 2500上,以250 bp雙端的快速模式運行,在獨立lane上進行測序。
全部糞便樣品的宏基因組鳥槍法測序
Whole Fecal Metagenome Shotgun Sequencing
基因組DNA是使用PowerSoil - htp DNA提取試劑盒從每份樣品中的大約100毫克樣品中提取的。然后,每個測序文庫都是按照Illumina TruSeq DNA標準建庫方法,用500 ng DNA,使用gel-free方法,經過14次PCR循環制備的。在康奈爾生物技術資源 測序中心的Illumina HiSeq 2500上,以2x150 bp模式運行,在獨立lane上進行測序。
細菌污染的評估
Assessment of Bacterial Contamination
2017年2月21日,從NCBI FTP上檢索了8163個完整的細菌基因組。使用Bowtie 2 v.2.2.8比對(mapped)每個樣本的序列到細菌參考基因組上,參數如下: -local-maxins 800 -k = 3。使用view和depth Samtools commands v.1.5,計算每個堿基的基因組覆蓋率時,只考慮了比對質量超過20的序列。接下來,平均基因組覆蓋率為100K bp bins。我們觀察到均勻覆蓋的基因組的median bin coverage至少是100;那些median bin coverage大于100的基因組被認為是污染,刪除比對到這些基因組的序列。細菌基因組中可能有一個或多個溶源噬菌體;這些溶源噬菌體的爆發(bursting)事件可能會發生,產生幾個類病毒樣顆粒(Virus-like Particles, VLPs)。作為一項保守措施,為了避免源自溶源噬菌體而非細菌基因組本身的序列丟失,bins覆蓋度超過細菌平均覆蓋度三個標準差的bins也被識別并歸類為類溶源噬菌體(prophages-like)區域。比對)到潛在污染基因組的read被標記為“污染”,并從進一步的分析中移除,而比對(mapping)到高覆蓋度 bins的序列比對被標記為“可能的溶源噬菌體”。
使用內部Python腳本構建每個樣品中每個潛在污染的豐度的矩陣,并采用PKM標準化方法。與此同時,來自古德里奇等人的數據,每個OTU的相對豐度被回收,并在物種層面使用summarize_taxa.py qiime腳本進行匯總。針對兩組物種,計算了污染物相對豐度與其對應的16S rRNAs數據之間的Spearman相關性。
功能組成
Functional Profiles
經過joined和trimmed的來自“小片段文庫”的序列被比對到整合基因集上,這是人類腸道微生物組中參考基因的總集。使用的方法是BLASTX DIAMONAL v.0.7.5,最大e-value值的截止值為0.001,要報告的最大目標序列數目設置為25。
比對到整合基因集后,使用內部Python腳本生成了豐度矩陣。然后根據整合基因集)提供的每一個基因,使用KEGG對矩陣進行注釋。注釋的豐度矩陣被稀釋(rarefied,subsampling without replacement)為每個樣本2000000 read命中(hits)。然后使用QIIME 1.9的命令summarize_taxa_through_plots.py生成KEGG功能圖譜。使用R包Psych計算每組(附加的微生物組、附加的病毒組、具有一致性的微生物組樣品病毒組和不具有一致性的微生物組樣品病毒組)功能圖譜的組內相關系數。
從頭組裝
De novo Assembly
經過質量剪切步驟的序列還是雙端序列(正向和反向),使用針對于短序列的整合宏基因組裝 (InteMAP)流程組裝,插入(insert)片段大小設置為325 bp ± 100 bp。每個樣品單獨組裝。組裝第一次運行后,所有干凈的序列都使用Bowtie 2 v.2.2.8比對到組裝的重疊群,參數如下: -local-maxins 800。然后至少一次比對具有一致性的序列都提交到InteMAP以供二次組裝。使用自寫Perl腳本,將來自所有樣本的大于500 bp的重疊群匯集在一起,并用兩兩比對方法進行比較。從這一分析中,有可能識別出潛在的環狀基因組,并在另一個重疊群中將超過90%長度的重疊群去冗余。
根據Roux等人對覆蓋度(coverage)和長度(length)的建議,對去重復后的宏基因組集合(assemblies)進行序列的補充,用于構建豐度矩陣。使用Rsubread v.1.28.0將序列比對到非冗余的重疊群。使用自寫Python腳本將比對(mapping)的輸出解析成豐度矩陣,該矩陣通過每個樣品中相對豐度RPKM方法進行標準化,并轉換為Log10(x+1),x為標準化豐度。標準化覆蓋率低于5x的重疊群被除去。最后,應用重疊群長度過濾獲得病毒類型(virotypes)。繪制重疊群數量作為長度的函數的衰減曲線,長度閾值就是衰減曲線的轉折點1,300 bp。
HMM注釋
HMM Annotation
建立了獨立的HMM組成(profiles,圖譜/打分矩陣),以識別類crAss(crAss-like)重疊群和Microviridae 重疊群。為了構建HMM 類- crAss組成特征,我們從NCBI網站上下載了類-crAss家族的主要衣殼蛋白( Major Capsid Protein,MCP )序列。多序列比對使用MUSCLE v.3.8.31進行的,并使用UGENE v.1.31.0進行檢查。間隙(gaps)超過30 %的位置(positions)被移除。最后,HMM – crAsslike組成是使用軟件包HMMER v.3.1b2 的hmmbuild構建的。對于Microviridae科的例子,還使用了Alves等人開發的病毒蛋白1 (viral protein 1,VP1 )的所有HMM組成。
使用hmmsearch查詢組裝好的重疊群的預測蛋白質,以匹配HMM -圖譜。e-value值低于1x10-5的蛋白質被認為是真正的同源物,其他的標準還包括,參考蛋白質的大小在參考蛋白質的大小范圍內( crAsslike MCP : 450 - 510殘基(residues);Microviridae: 450 - 800個殘基(residues)),至少50 %的覆蓋率(coverage)和至少40 %的同一性(identity)。覆蓋率和同一性通過BLASTp,用真實同源物查詢參考序列來確定。
通過上述步驟的真正同源物被用于系統發育分析。參考序列和同源序列使用MUSCLE v.3.8.31進行比對,使用UGENE v.1.31.0去除至少30 %缺口的位點。使用RAxML v.8.2.4進行最大似然( ML )系統發育分析,使用prottest v.3.4.2獲得了最佳進化模型,ML樹中節點的支持是通過具有100次偽復制(pseudoreplicates)的自舉(bootstrap)獲得的。
物種組成
Taxonomic Profile
為了推斷組裝的類病毒顆粒(Virus-like Particles, VLPs)的分類學關系(taxonomic affiliation),使用GeneMarkS v.4.32對所有大于500 bp的重疊群預測基因。預測基因的氨基酸序列隨后被用于BLASTp搜索中,使用DIAMOND v.0.7.5對NR NCBI病毒數據庫進行搜索最大e-value閾值(cutoff)為0.001,報告中目標序列輸出最大數目設置為25。使用BLASTp結果,每個基因的分類由MEtaGenome Analyzer(MEGAN5 )v.5.11.3中的最近共同祖先算法(lowest-common-ancestor algorithm)進行分配。參數如下: Min Support: 1, Min Score: 40.0, Max Expected: 0.01, Top Percent: 10.0, Min-Complexity filter: 0.44。獨立地,使用CENTRIFUGE v.1.0.4查詢NT NCBI病毒基因組數據庫獲得每個重疊群的分類結果。然后使用投票系分配每個重疊群的最終分類注釋,其中每個蛋白質的分類注釋和重疊群的CENTRIFUGE注釋被視為投票。通過對重疊群的所有可能投票,構建了一個N元樹(N-ary tree),每個節點(node)的權重(weight)是包括該節點的投票數。重疊群的分類注釋將是遍歷(traversing)通過權重最高節點(heaviest nodes)的樹的結果,但有一個考慮:如果節點的所有子節點具有相同的權重,遍歷(traversing)必須停止。分類概況被認為是補充矩陣的一個子集,包含所有由投票系統(voting system)注釋或通過HMM概況標注的重疊群 (見上文)。
噬菌體-宿主相互作用的預測
Prediction of Phage-Host Interaction
使用PilerCR v.1.06,從用于評估細菌污染的8,163種細菌基因組中識別出有規則間隔的短回文重復序列(Clustered Regularly Interspaced Short Palindromic Repeats, CRISPRs)。間隔物(spacers)的預期大小為20 bp和72 bp,被用作對病毒類型和分類標注重疊群的查詢,使用BLASTn (v.2.6.0+ )短查詢參數: 覆蓋至少90%間隔區且e值<0.001的匹配被認為是CRISPR間隔區-病毒關聯。此外,使用LAST-959病毒類型和有分類注釋的重疊群被比對到MVP數據庫中病毒群的代表基因組上。由于MVP中的病毒簇包含至少95%同一性的序列,其長度的至少80%,因此只保留滿足這些限制的匹配。重疊群的宿主是由其匹配的病毒簇確定的。
多樣性指數
Diversity Indexes
樣本內的香農多樣性指數( a -多樣性)和同卵雙胞胎內的Hellinger距離( B-多樣性)是使用生成的所有三個豐度矩陣(函數、分類和讀取補充矩陣)的Vegan R包的多樣性和距離vegdist函數計算的。使用皮爾遜相關系數測量病毒組α-多樣性和微生物組α -多樣性之間的相關性。病毒組β-多樣性和微生物組β-多樣性之間的相關性是通過使用皮爾遜相關系數的曼特爾檢驗(Mantel test)來計算的。此外,對微生物組具有一致性的同卵雙胞胎之間的β-多樣性與微生物組不具有一致性的同卵雙胞胎之間的β-多樣性進行了比較;p值使用Mann-Whitney U test來計算。
統計分析
QUANTIFICATION AND STATISTICAL ANALYSIS
p值是使用使用Python “scipy”包的Mann-Whitney U測試或Mantel測試獲得的;使用Python “scipy” 包將相關系數測量皮爾遜相關系數;α和β多樣性是用R的 “vegan” 包計算的;使用R包“psych”計算類別內系數(Intra-class coefficien);使用RAxML進行最大似然系統發育分析。
拓展閱讀
數據分析過程中使用的腳本 https://github.com/leylabmpi/TwinsUK_virome
Human Genetics Shape the Gut Microbiome https://www.cell.com/fulltext/S0092-8674(14)01241-0
Environment dominates over host genetics in shaping human gut microbiota https://www.nature.com/articles/nature25973?platform=hootsuite
Early life dynamics of the human gut virome and bacterial microbiome in infants https://www.nature.com/articles/nm.3950
The Human Gut Phage Community and Its Implications for Health and Disease https://www.mdpi.com/1999-4915/9/6/141
Healthy human gut phageome https://www.pnas.org/content/113/37/10400
猜你喜歡
10000+: 菌群分析
寶寶與貓狗 提DNA發Nature 實驗分析誰對結果影響大 Cell微生物專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:生信寶典 學術圖表 高分文章 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統計繪圖
16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
在線工具:16S預測培養基 生信繪圖
科研經驗:云筆記 云協作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧秘
————————————————
版權聲明:本文為CSDN博主「劉永鑫Adam」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/woodcorpse/article/details/88087034