文獻下載鏈接:High-throughput, single-microbe genomics with strain resolution, applied to a human gut microbiome
Supplementary materials:Figs.S1 to S13;Tables S1 to S8;Movies S1 to S10
發表期刊:《Science》
影響因子:63.714
時間:2022年
0. 文章亮點
(1)Microbe-seq:微生物單菌株基因組測序實驗方法
作者開發了一項微生物單細胞基因組測序的方法用于人類腸道微生物組研究:使用集成的微流控液滴生成裝置,將成千上萬的微生物單獨封裝到液滴中。在每一個液滴中溶解微生物,進行全基因組擴增,并用特定的條形碼標記DNA;最后,匯集所有液滴中的DNA序列并構建NGS測序文庫。
(2)微生物參考基因組構建方法
由于微生物組研究的參考基因組是未知的,因此作者開發了一個通用的計算框架(可以整合來自同一物種多個微生物的測序reads,生成一個較為全面的參考基因組列表),通過比較來自同一物種的不同微生物個體基因組,可以確定是否存在多菌種共存,并構建菌株分辨率基因組。
1. Microbe-seq高通量樣本制備原理(基于微流控裝置)
整個實驗流程用到5款微流控液滴生成裝置:
- 裝置A:分離微生物(試劑:微生物懸液;裂解試劑;油)
- 裝置B:擴增試劑封裝(試劑:樣本液滴;油;擴增試劑)
- 裝置C:片段化試劑封裝(試劑:樣本液滴;油;Nextera transposomes)
- 裝置D:Beads封裝(試劑:樣本液滴;油;beads;PCR試劑)
- 裝置E:去除合并液滴(試劑:樣本液滴;油)
1.1 單菌封裝(裝置A)
droplets=microbe+ lysis reagents
通過液滴微流控裝置生成液滴,每個液滴盡可能包含單個微生物,同時體系內包含裂解試劑(液滴大小在50um左右)
1.2 菌類裂解(PCR儀)
最終將所有的液滴收集在回收管內,通過溫度孵育的方式,裂解液滴內的微生物(注意:此時液滴相互為封閉狀態,每個微生物的DNA都保留在自己的單一液滴中)
The incubation program for lysis :
37°C for 30 min,
75°C for 15 min,
95°C for 5 min and sample storage at 4°C
1.3 擴增試劑封裝(裝置B)
將上一步的樣本液滴注入到裝置B,在此與擴增試劑混合,并形成體積更大的液滴
使用電場將其與含有擴增試劑的第二個液滴合并
1.4 全基因組擴增(PCR儀)
收集所得到的體積更大的液滴,并通過孵育擴增的方式提高DNA含量
The incubation program for MDA :
30°C for 6-8 hours,
65°C for 10 min and sample storage at 4°C
1.5 片段化試劑封裝(裝置C)
將上一步的樣本液滴注入到裝置C,在此與片段化試劑混合(Nextera adapters),形成體積更大的液滴
與上一步程序類似,在此使用電場將其與含有片段化試劑的液滴合并
1.6 片段化(PCR儀)
將上一步所有的液滴收集在回收管內,通過溫度孵育的方式片段化DNA
The incubation program for tagmentation:
55°C for 10 min, and sample storage at 10°C
1.7 Beads封裝(裝置D)
裝置D首先將Beads與PCR試劑混合成凝膠珠液滴(此時液滴體積較大)
隨后,裝置D將上一步的樣本液滴逐個與凝膠珠液滴合并(帶有DNA條形碼引物的水凝膠微球+PCR試劑)
與上一步程序類似,在此使用電場使得液滴合并更高效
1.8 生成引物序列(PCR儀)
引物序列通過組合條形碼的擴展生成:
The incubation program for barcoding:
72°C for 4 min,
98°C for 30 s;
10 cycles of 98°C for 7 s,
60°C for 30 s and 72°C for 40 s;
72°C for 5 min
sample storage at 4°C,slow ramping of 2°C/s at this step
通過PCR反應將這些條形碼引物連接到每個液滴內的DNA分子片段上。
引物包含兩部分:用于標記液滴的條形碼序列和Nextera adatpers。
作者觀察到PCR后一些液滴的合并,可能發生在PCR的高溫階段。考慮到較大的液滴可能含有來自多種微生物的DNA,因此用圖1中的 裝置E去除合并液滴。
1.9 pooling并構建NGS文庫
最終打破液滴,添加用于illumina測序的接頭序列
后續省略掉不然太羅嗦...
2. Microbe-seq方法驗證(微生物群落模型的單細胞基因組測序)
SAG的概念:具有相同barcode的測序序列的集合即稱為一個single-amplified genome (SAG)。
SAG的純度:將一個SAG中的所有比對到參考基因組的reads作為分母,共享同一個物種參考基因組的reads數作為分子,比值最高的參考基因組所對應物種即為SAG所包裹的微生物物種信息,而該比值也被稱為SAG的純度。
SAG的基因組覆蓋率:對于每一個高純度的SAG,其對應物種參考基因組的堿基長度為分母,參考基因組中被SAG的reads所覆蓋的堿基數為分子,其比值即為SAG的基因組覆蓋率。
2.1 實驗設計
4種相似濃度的菌株混合(其中各菌株的參考基因組已知):
- 革蘭氏陽性:S. aureus(金黃色葡萄球菌);B. subtilis(枯草芽孢桿菌)
- 革蘭氏陰性:E. coli(大腸桿菌);K. pneumoniae(肺炎克雷伯菌)
2.2 實驗結果
革蘭氏陰性菌的基因組覆蓋率偏低,猜測可能有2種原因:
(1)Microbe-seq基于酶裂解微生物的方法,不太適用于革蘭氏陰性菌(有可能存在不能裂解的情況)
(2)革蘭氏陰性菌的基因組偏大
(1)Microbe-seq可以實現高通量單基因組測序:包括4種混合菌株的模擬群落最終獲得 5497 SAGs(Table S1)
(2)SAGs的reads幾乎來源于單個微生物:SAGs的純度大多數超過95%(圖B)
(3)SAGs基因覆蓋率產生差異:革蘭氏陽性菌(S. aureus,B. subtilis)的SAGs基因組覆蓋率平均值分別為25%,17%;革蘭氏陰性菌(E. coli,K. pneumoniae)的SAGs基因組覆蓋率平均值分別為8%,9%(Fig.S2)
(4) 完整基因組覆蓋需要SAGs組裝:每個SAGs的基因組信息都是不完整的,但通過50個SAGs的reads組裝,可以拼接出完整的微生物基因組(圖C)
3. Microbe-seq:人腸道微生物樣本的實驗設計與數據分析
3.1 實驗設計
實驗材料:
健康人糞便樣本 (一年半的時間內取樣7次)
實驗方法:
對于供試者的每一份糞便樣本,均執行以下實驗操作
(1)Microbe-seq
(2)19個菌株分離培養+基因組測序(組裝基因組質量參考)
(3)宏基因組測序(微生物多樣性參考)
3.2 微生物基因組組裝與注釋(Microbe-seq數據)
3.2.1 基因組組裝步驟
- step1:識別同一物種對應的SAGs
- step2:根據堿基序列的overlap區域denovo組裝,如SAGs reads-->contigs -->SAG’s partial genome
- step3:通過hash function為每個SAG’s genome賦予標簽
- step4:通過層次聚類的方式將相似的SAG’s genome放入preliminary data bins(基于hash標簽計算相似性)
- step5:對于每一個data bin,其中的reads組合在一起(不區別來自哪個SAG)組裝成bin’s tentative genome
- step6:計算每個bin’s tentative genome的hash 標簽,并以此計算相互之間的相似性
- step7:重復進行以上步驟(拆分、聚類和組裝bin’s tentative genome),優化bin的序列以保證其中的reads僅來源于一個分類單元
- step8:通過ANI度量各bin之間的 tentative genome序列相似性,ANI>95%的tentative genome被合并組裝成對應單個物種的精細基因組
解釋匯總:
(1)判斷bin僅包含一種分類單元的方法:如果比對到bin’s tentative genome的兩條不同的contigs,存在于兩個不重疊的SAGs亞群(說明bin中數據可能包含了2種不同的物種),則需要對bin中的數據做優化
(2)ANI概念: average nucleotide identity,通過比較兩個基因組的同源序列來估算其相似性的度量指標
(3)為什么step8用ANI評估相似性?step8 可以看到多個bin可能包含同一物種的基因組,這里每個相似的bin組合了很多SAGs的基因組(覆蓋率足夠大了),所以足以與其他bin中的基因組產生共享物種的overlap序列。
3.2.2 基因組質量評估
通過計算單拷貝的marker基因評估以下2個指標:
- 完整性:本次分析組裝出的一個分類單元基因組的部分
- 污染:來自其他分類單元的基因組的部分
高質量基因組:52個(完整性>為0.9,污染<為0.05)
中質量基因組:24個(完整性>為0.5,污染<為0.1)
超過3/4的SAGs(16723)都包含在以上76個基因組中,除此之外有6個基因組的SAGs數量低于24,因此最終組裝的基因組質量偏低。
分離菌培養+基因組測序的實驗方法,其組裝的基因組被認為“行業金標準”,實驗設計時作者分離并單獨培養了該供體糞便樣本中的19種菌,將Microbe-seq數據組裝的基因組與其對比,17個物種的ANI>99.5%,說明作者開發的基因組組裝算法還是比較可靠的。
3.2.3 基因組注釋
將組裝好的基因組與公共數據庫 GTDB-Tk比對,ANI>95%作為標準確定其對應的物種類型。本次實驗獲得了來自不同門的廣泛物種組合,包括厚壁菌門、擬桿菌門、放線菌門、變形菌門和梭菌門,包括粗糞桿菌、均勻擬桿菌和褐孢桿菌這類在人類腸道微生物群中已知非常豐富的物種。
同時從該人類供體分離培養的19個物種菌株也在存在于圖3中(17個物種的ANI>99.5%)
3.2.4 人腸道菌株級基因組識別
3.2.4.1 分析方法
前面的研究步驟都只將分析定位在 “物種” 級別,接下來作者又將進一步做菌株水平的基因組異質性分析。
- 理論:一個SAG代表一個細胞,同種菌株的SAGs的基因組相似度高,因而可以通過基因組序列比較將ANI高的SAGs聚類為一簇。
- 現實:每個SAGs捕獲的基因組信息都不全面(5%-50%),同種菌株對應SAGs共享基因組信息也不盡相同,因此直接比較SAGs的基因組來區分菌株是不現實的。
- 解決辦法:以解析物種A的菌株組成舉例,(1)將其SAGs序列比對到物種A的組裝基因組,(2)識別出所有的SNP位點,(3)根據SAGs之間的SNP相似性,將所有SAGs聚類并區分為不同的菌株(來源于同種菌株的SAGs擁有相似的SNP集合)
3.2.4.2 方法驗證
基于SNP相似性的算法,可用于菌株分群,文章正文里作者以普通擬桿菌舉例:
(1)普通擬桿菌可以根據SNP相似性劃分為4種菌株,同種菌株的SAGs對應SNP相似性大于95%(圖A, 圖B)
(2)通過microbe-seq組裝得到的“菌株級”基因組與分離培養的菌株基因組高度相似(ANI高于99.9%),同時獲得未被分離培養的strainB的基因組信息(圖C)
(3)7個不同的取樣時間段里,供體內普通擬桿菌不同菌株的比例存在動態變化(圖D)
后續作者也將該方法用于其他菌種的菌株分型,詳細信息參考 (fig. S9 and tableS4)
3.3 人腸道微生物關聯分析
HGT概念:基因水平轉移(Horizontal gene transfer,HGT),又稱橫向基因轉移或側向基因轉移,指在不同物種之間所進行的DNA片段的流動。(打破了親緣關系的界限,使基因能夠在不同的物種之間進行交換,它經常在人類腸道微生物組中觀察到)
HGT事件:在本篇文章中,作者指定兩個物種基因組之間存在一個至少5kb的共同序列,相似性為99.98%,才能夠稱為 “HGT事件”。
3.3.1 人腸道微生物HGT分析
3.3.1.1 分析方法
- step1: 在各物種基因組中尋找到HGT序列(僅對比高質量基因組)
- step2:將SAGs的reads比對到HGT sequence做假陽性驗證(如果HGT事件是污染的結果,則只有一小部分SAGs能夠覆蓋到HGT序列)
- step3:從分離培養菌的基因組中驗證HGT事件(選做)
- step4:將HGT事件分解到單個菌株,查看菌株之間的HGT異質性
- step5:計算每段HGT序列的共享菌株種類
3.3.1.2 方法驗證
使用 “3. Microbe-seq:人腸道微生物樣本的實驗設計與菌株檢出”中的數據做分析和方法驗證
(1)在49個僅包含單一菌種的基因組中,作者發現了66個HGT事件(圖A)
(2)在包含多個種菌株的基因組中:厚壁菌門的各株系HGT事件各不相同;擬桿菌門中B. vulgatus的兩種菌株與該菌門的其他物種之間均存在HGT事件(圖A,圖B)
(3)幾乎一半的HGT gene(包含HGT序列)共享3種以上的菌株(圖C)
3.3.2 宿主-噬菌體關聯分析
多樣性分析揭示了病毒的存在,特別是crAssphage,目前從人類腸道微生物組(68,69)中識別出的最豐富的噬菌體。噬菌體的一般調節作用,被認為是調節細菌的豐度和行為.這種基于液滴的方法不僅封裝了單個細菌,還封裝了與之物理共存的任何噬菌體.
3.3.2.1 分析方法
- step1:每個SAG中的reads比對到 crAssphage 參考基因組(篩選出存在crAssphage的SAGs)
- step2:存在crAssphage的SAGs比對到76個物種的組裝基因組(篩選出與crAssphage存在共生的菌種)
- step3:將與crAssphage存在共生SAGs的信息精確到菌株水平
3.3.2.2 方法驗證
使用 “3. Microbe-seq:人腸道微生物樣本的實驗設計與菌株檢出”中的數據做分析和方法驗證
(1)本次實驗檢出的76種微生物中,只有B. vulgatus與crAssphage顯著關聯(圖A)
(2)B. vulgatus中,只有strain A與crAssphage顯著相關(圖B)
3.4 人類腸道微生物群的多樣性分析
作者在人腸道微生物樣本取樣后,每份樣本平行做了microbe-seq和宏基因組測序,用來驗證兩種方法做 “微生物群的多樣性分析” 的優劣。不過,宏基因組做多樣性分析的優勢更大(雖然獲得的是bulk數據,但DNA來源卻是數百萬細胞),microbe-seq的通量仍然局限在10k以下。
以下附表來源于文獻的Supplementary materials,個人感覺紅框內的數據頗有爭議(不知是否是數據填寫錯誤),歡迎各位讀者幫忙答疑解惑!
4. 結論匯總
4.1 方法優勢
(1)實現菌株級基因組分析:無需培養細菌,通過液滴微流控的方法封裝單個細菌并標記和擴增其DNA,測序獲得50+個SAGs,即可整合組裝出對應菌株基因組
(2)實現細菌菌株的HGT分析:microseq用于人類腸道微生物研究時,在49個僅包含單一菌種的基因組中發現了66個HGT事件,同時,特定噬菌體菌株與細菌之間的體內關聯可以為研究噬菌體如何調節微生物組成提供特定的起點,并可能指導基于噬菌體的治療方法的后續發展
(3)實現菌株多樣性分析:對微生物群落的現有物種多樣性和豐度進行準確的分析
(4)實現微生物群落菌株級動態變化分析:如疾病、飲食或抗生素治療時,隨著作用時間推移監測微生物菌株水平變化差異
4.2 方法劣勢
(1)SAGs基因組覆蓋率低:革蘭氏陽性菌的覆蓋率為20%左右,革蘭氏陰性菌的覆蓋率為8%左右
(2)細菌通量低:一份樣本單次實驗大概率只能獲得1000-2000個SAGs
(3)群落多樣性檢測精度低:microseq僅能捕獲群落中的部分微生物,對微生物群落多樣性的檢測精度不及metagenomics(群落中的低豐度菌株很可能不被捕獲,或SAGs過少不能被組裝)
(4)細菌裂解偏好性:研究中革蘭氏陰性菌的基因組覆蓋率低,作者推測可能有細菌不能被裂解的情況導致