原文:https://www.sohu.com/a/270075112_99971433
本文主要介紹了16S的實(shí)驗(yàn)、建庫、數(shù)據(jù)分析等過程,也是我自己近期的一個(gè)小總結(jié),初學(xué)之時(shí)從很多前輩的無私分享中受益良多,在此也和大家分享一些我的見解,當(dāng)然我也只是一個(gè)初學(xué)者,還有很多不完備之處,希望能與各位一起交流分享。
導(dǎo)航
本文一共分為三個(gè)部分:
- 實(shí)驗(yàn)部分
- 建庫測(cè)序
- 16S測(cè)序數(shù)據(jù)分析
一. 實(shí)驗(yàn)部分:DNA提取與質(zhì)檢
1. DNA提取[1]
- QIAamp fast DNA stool Mini. Ref:51604
- Protocol: Isolation of DNA from stool for Pathogen Detection.
1.1 注意事項(xiàng):
- ① 如果檢測(cè)細(xì)胞較難溶解(G+菌),可在step3中將水浴溫度增加到95℃。
- ② 離心條件:室溫,14000rpm。
1.2 準(zhǔn)備:
- ① 提前30-40min開啟水浴鍋。
- ② 在37-70℃中重新溶解Buffer AL和inhibitEX buffer中殘留的沉淀。
- ③ 按照說明添加相應(yīng)體積的酒精于AW1和AW2。
- ④ 加溶液前先混勻。
1.3 實(shí)驗(yàn)步驟
實(shí)驗(yàn)步驟在原基礎(chǔ)上有所修改
- 先將樣本在室溫下融化10分鐘左右。
- 加1.2mL inhibitEX Buffer于2mL離心管中,棉簽混勻糞便樣本后取180-220mg于2mL的離心管中,vortex直到將樣本完全混勻。
- 70℃(可將裂解溫度提高到95℃),5min,vortex,15s。
- 離心1min。
- 取上清550uL到新的1.5mL的EP管中,離心1min。
- 加30uL proteinase K到新的1.5 mL的EP管中。
- 吸取400 uL步驟5中的上清液到步驟6中的EP管中。
- 加400uL buffer AL, vortex,15s。
- 70℃孵育10min。
- 加
400uL
酒精(96-100%),混勻(vortex)。 - . 吸取600 uL加入吸附柱,離心1min,棄下管,換新的收集管。
- .
重復(fù)步驟11一次。
- . 加500 uL Buffer AW1, 離心1min,棄下管,換新的收集管。
- . 加500 uL Buffer AW2, 離心3min,棄下管,換新的收集管。
- . 空管離心3min。
- . 將吸附柱轉(zhuǎn)移到新的1.5mL EP管中,加200ul(如果濃度較低可減少體積)Buffer ATE, 室溫孵育
5min
,離心1min。
2. 質(zhì)檢
僅供參考
- DNA濃度:≥10ng/ul[2]
- DNA純度:A260/A280 = 1.8 – 2.0左右
- DNA總量:≥300ng[3]
- DNA完整性:要有明顯的基因組主帶
- 1% 的瓊脂糖凝膠,上樣量400ng,120v電壓跑膠30min
- 這是較好的結(jié)果了,有拖帶很正常,只要主帶明顯即可。
3. 總結(jié)
- 樣本成分復(fù)雜,基因組DNA比較容易降解,在保證提取質(zhì)量的前提下盡量加快前期的樣本處理速度。
- 樣本反復(fù)凍融之后提取的DNA質(zhì)量較差,保存之前可分裝成多管或者一次多提幾管備用。
二. 建庫測(cè)序[4]
- 以下只做一個(gè)簡單的介紹,僅供參考
流程圖
16s建庫流程
第一輪PCR
第一輪PCR
PCR示意圖
第二輪PCR
第二輪PCR
RCR產(chǎn)物純化與文庫質(zhì)檢
PCR產(chǎn)物純化與文庫質(zhì)檢
三. 16S測(cè)序數(shù)據(jù)分析
關(guān)注微信公眾號(hào):生信草堂,后臺(tái)回復(fù)16S測(cè)序數(shù)據(jù),即可獲取示例所用的文件
- 16S rRNA 基因是編碼原核生物核糖體小亞基的基因,長度約1500bp左右,包括9個(gè)可變區(qū)和10個(gè)保守區(qū),保守區(qū)序列反映了物種間的親緣關(guān)系,而可變區(qū)序列則能反映物種間的差異。經(jīng)常用于細(xì)菌系統(tǒng)發(fā)育和分類鑒定,核心是物種分析,包括微生物的種類,不同種類間的相對(duì)豐度,不同分組間的物種差異以及系統(tǒng)進(jìn)化等。一般根據(jù)實(shí)驗(yàn)?zāi)繕?biāo),設(shè)計(jì)和樣本類型等不同,擴(kuò)增的區(qū)域也會(huì)有所不同。
- 本實(shí)例采用的是Illumina MiSeq V3-V4區(qū)的測(cè)序數(shù)據(jù),長度在460bp左右,為減少運(yùn)算量等,本例只包含了5個(gè)樣本,僅供參考。
- 分析流程是在linux上完成,需要有一點(diǎn)linux基礎(chǔ)。
16S分析流程
點(diǎn)擊這里查看網(wǎng)頁版
16S分析流程
1. qiime2安裝[5]
1.1 Minicoda軟件包管理器安裝
安裝miniconda軟件管理器(https://conda.io/miniconda.html):用于安裝QIIME2及依賴關(guān)系
# 下載最新版miniconda3
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 添加可執(zhí)行權(quán)限
chmod +x Miniconda3-latest-Linux-x86_64.sh
# 運(yùn)行安裝程序
./Miniconda3-latest-Linux-x86_64.sh
按安裝過程中提示操作:回車查看許可協(xié)議,空格翻頁,輸入yes同意許可;默認(rèn)安裝目錄為你的家目錄下/miniconda3目錄,可回車確認(rèn)使用此目錄;我個(gè)人習(xí)慣修改為/conda更簡潔);安裝結(jié)束時(shí)提示是否添加至你的環(huán)境變量~/.bashrc,這里我選no。
原因如下:選yes可直接將conda3環(huán)境加入環(huán)境變量的最高優(yōu)先級(jí),使用方便,但Python3變?yōu)槟J(rèn)環(huán)境,破壞你之前依賴Python2的軟件環(huán)境。而選no不添加保證之前軟件安裝環(huán)境不變,但運(yùn)行conda及相關(guān)程序時(shí),需要運(yùn)行一條命令臨時(shí)添加~/conda/bin
目錄至環(huán)境變量,或使用絕對(duì)路徑。
以后想要使用conda,需要運(yùn)行如下命令將conda臨時(shí)添加環(huán)境變量
export PATH=~/conda/bin:$PATH
如果你剛才同意添加環(huán)境變量,完成后關(guān)閉當(dāng)前終端,新打開一個(gè)終端繼續(xù)操作才能生效。
升級(jí)conda為最新版:新版的bug最少,碰到問題的機(jī)率也小
# 升級(jí)conda程序
conda update conda
# 安裝下載工具
conda install wget
提示是否安裝時(shí),點(diǎn)y,再回車可完成安裝。
安裝qiime2-2021.2
Linux(64-bit)版本
# 下載軟件安裝列表
wget https://data.qiime2.org/distro/core/qiime2-2021.2-py36-linux-conda.yml
# 創(chuàng)建虛擬環(huán)境并安裝qiime2,防止影響其它己安裝軟件
conda env create -n qiime2-2021.2 --file qiime2-2021.2-py36-linux-conda.yml
# 刪除軟件列表
rm qiime2-2021.2-py36-linux-conda.yml
下載安裝所有依賴關(guān)系,時(shí)間主要由網(wǎng)速?zèng)Q定,我第一次白天安裝的,安裝了9個(gè)小時(shí)吧,反正工作時(shí)間一直在捯飭,反反復(fù)復(fù)卡機(jī),最后還是中斷了。
晚上不服氣,繼續(xù)重新安裝。結(jié)果一個(gè)小時(shí)搞定,很快就成功了。
(還是晚上工作好呀,白天集群真的太擁擠啦,哎。越來越理解程序員為啥總是喜歡晚上啦)
激活工作環(huán)境,需要幾十秒,命令如下:
conda activate qiime2-2021.2
檢查是否安裝成功,彈出程序幫助即成功
qiime --help
QIIME 2運(yùn)行成功,顯示如下幫助信息:
關(guān)閉工作環(huán)境
source deactivate
當(dāng)前為Python3工作環(huán)境,不用QIIME 2時(shí)關(guān)閉環(huán)境,不然你其它程序運(yùn)行可能會(huì)出錯(cuò)
2. 導(dǎo)入數(shù)據(jù)分析前的工作(可選)
- 送公司測(cè)序返還的數(shù)據(jù)一般都是拆分過并去除了引物的,可以自己再做一下質(zhì)檢,后續(xù)使用dada2分析時(shí)也會(huì)有堿基質(zhì)量分布圖,所以這步可以不做,自己質(zhì)檢(fastqc)的信息會(huì)比較全面。
- 切除引物也只是一個(gè)示例,在本例中可以跳過。
2.1 質(zhì)檢
公司的給的測(cè)序數(shù)據(jù)一般都是拆分過的,可將單端數(shù)據(jù)全部合并做質(zhì)檢,也可單獨(dú)質(zhì)檢
cat命令合并壓縮過的文件會(huì)出錯(cuò),合并之前需要先解壓。
gunzip *.gz # 解壓
第一種方法:合并后質(zhì)檢。
cat R1 > R1.fastq #合并上游序列,并指定輸出文件名為R1.fastq
cat R2 > R2.fastq #合并下游序列,并指定輸出文件名為R2.fastq
質(zhì)檢
mkdir qc #創(chuàng)建一個(gè)文件夾用于存放質(zhì)檢文件
fastqc -t 2 R1.fastq R2.fastq -o qc # -t --threads,一般有多少個(gè)樣本用多少線程。-o 指定輸出文件存放目錄。
第二種方法:單獨(dú)質(zhì)檢后將質(zhì)檢報(bào)告合并
mkdir qct #創(chuàng)建一個(gè)文件夾用于存放質(zhì)檢文件
fastqc *fastq -t 10 -o qct
pip install multiqc #安裝multiqc
multiqc qct/* # 合并報(bào)告
- fastqc的結(jié)果包括reads各位置的堿基質(zhì)量值分布、堿基的總體質(zhì)量值分布、reads各個(gè)位置上堿基分布比例、GC含量分布、reads各個(gè)位置的N堿基數(shù)目、是否含有測(cè)序接頭序列等。
- 圖中橫軸是測(cè)序序列的堿基,縱軸是質(zhì)量得分,質(zhì)量值Q = -10*log10(error P),即20表示1%的錯(cuò)誤率,30表示0.1%的錯(cuò)誤率。圖中每1個(gè)箱線圖(又稱盒須圖),都是該位置的所有序列的測(cè)序質(zhì)量的一個(gè)統(tǒng)計(jì),分別表示最小值、下四分位數(shù)(第25百分位數(shù))、中位數(shù)(第50百分位數(shù))、上四分位數(shù)(第75百分位數(shù))以及最大值,圖中藍(lán)色的細(xì)線是各個(gè)位置的平均值的連線。
- 第一種方法:fasqc堿基質(zhì)量分布圖(R1)
- 第二種方法:堿基質(zhì)量分布圖
也可在dada2步驟時(shí)設(shè)置合適的參數(shù)去除引物(論壇里建議在使用dada2處理數(shù)據(jù)之前先去掉引物。https://forum.qiime2.org/t/lost-of-data-with-dada2/1449/5)
2.2 切除引物(本例中的引物已經(jīng)切除,可跳過)
安裝與升級(jí)cutadapt
pip install --user --upgrade cutadapt
將cutadapt添加$PATH環(huán)境變量(需管理員權(quán)限,沒有也沒關(guān)系,可以跳到下一步)
echo 'PATH="PATH"'>>/etc/profile
如無管理員權(quán)限,每次使用cutadapt時(shí)需指定路徑
如:~/.local/bin/cutadapt --help # 如不指定路徑則會(huì)使用$PATH中的默認(rèn)版本,老版本不支持多進(jìn)程
創(chuàng)建存放cut的序列的目錄
mkdir cut_adapt
切除引物序列示例。
~/.local/bin/cutadapt -g forward_primer -e number forward.fastq -o file/R1.fastq -j 0
cutadapt參數(shù):
-j 0 表示調(diào)用所有CPU
-o 指定輸出文件目錄、文件名。
-g 5’端引物
-a 3’端引物
-e 引物匹配允許錯(cuò)誤率,如0.1,0.15等
3. 在qiime2中分析測(cè)序數(shù)據(jù)
3.1 準(zhǔn)備工作
需要自己寫2個(gè)文件
1.manifest file,將數(shù)據(jù)放在當(dāng)前的文件夾下,然后自己寫一個(gè)絕對(duì)路徑文件,按以下格式寫,#開頭的行是注釋行會(huì)被自動(dòng)忽略,例如以下命名為為se-33-manifest的文件,也可保存為txt等文件
absolute filepaths “Fastq manifest” formats *file name: se-33-manifest
sample-id,absolute-filepath,direction
002,/data/shixq/qiime2/002_R1.fastq,forward
002,/data/shixq/qiime2/002_R2.fastq,reverse
017,/data/shixq/qiime2/017_R1.fastq,forward
017,/data/shixq/qiime2/017_R2.fastq,reverse
020,/data/shixq/qiime2/020_R1.fastq,forward
020,/data/shixq/qiime2/020_R2.fastq,reverse
060,/data/shixq/qiime2/060_R1.fastq,forward
060,/data/shixq/qiime2/060_R2.fastq,reverse
091,/data/shixq/qiime2/091_R1.fastq,forward
091,/data/shixq/qiime2/091_R2.fastq,reverse
另外如果在當(dāng)前測(cè)序數(shù)據(jù)文件下操作,絕對(duì)路徑可寫為(和上面的寫法相等):
sample-id,absolute-filepath,direction
002,$PWD/002_R1.fastq,forward
002,$PWD/002_R2.fastq,reverse
2.sample metadata文件,可用EXCEL編輯后保存為制表符分割的txt文件,根據(jù)自己的數(shù)據(jù)做修改。
其中q2:types那行可以不寫,如果分類是以數(shù)字來表示的,如1,2,3,代表不同的分組則需要標(biāo)注這列對(duì)應(yīng)的q2:types為categorical(分類的),否則會(huì)默認(rèn)為numeric(數(shù)字)而報(bào)錯(cuò)。
SampleID subject edu height weight env1 env4
q2:types categorical categorical categorical categorical categorical
091 subject-1 5 160 50 2 1
020 subject-1 5 160 70 1 3
017 subject-1 2 174 70 1 3
060 subject-2 2 160 70 1 1
002 subject-2 5 174 50 2 1
3.2 激活工作環(huán)境
source activate qiime2-2018.8
3.3 導(dǎo)入帶質(zhì)量的雙端測(cè)序數(shù)據(jù)
- 質(zhì)量值體系分為 Phred33 和 Phred 64兩種,如下圖所示,一般看fastq文件的質(zhì)量值那行包含!和?(對(duì)應(yīng)ASCII值33和63)等,即為Phred33體系(一般都為Phred33)。
- 測(cè)序質(zhì)量值
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path se-33-manifest \
--output-path paired-end-demux.qza \
--input-format PairedEndFastqManifestPhred33
可視化文件paired-end-demux.qza
qiime demux summarize \
--i-data paired-end-demux.qza \
--o-visualization paired-end-demux.qzv
- 各樣品測(cè)序數(shù)據(jù)柱狀分布圖,展示不同測(cè)序深度下樣品數(shù)量分布
- pair-end-demux.qzv
- 上下游堿基質(zhì)量分布圖
paired-end-demux.qzv
- 注:生成的.qzv文件可點(diǎn)這里拖拽進(jìn)網(wǎng)頁查看( https://view.qiime2.org/
) - 或是使用qiime tools view paired-end-demux.qzv 查看
3.4 dada2去燥,合并雙端序列
這步也可使用Deblur,這里不做演示,可參考官方文檔
這步花的時(shí)間最長,可使用--p-n-threads 0 參數(shù)調(diào)用所有CPU,減少運(yùn)算時(shí)間。
注意:需要20bp以上的overlap才能使用dada2拼接,否則會(huì)報(bào)錯(cuò)。
qiime dada2 denoise-paired \
--i-demultiplexed-seqs paired-end-demux.qza \
--p-trim-left-f 0 \
--p-trim-left-r 0 \
--p-trunc-len-f 270 \
--p-trunc-len-r 250 \
--o-table table.qza \
--o-representative-sequences rep-seqs.qza \
--o-denoising-stats denoising-stats.qza \
--p-n-threads 0 #調(diào)用所有CPU
可視化denoising stats(qzv文件可在線查看)
qiime metadata tabulate \
--m-input-file denoising-stats.qza \
--o-visualization denoising-stats.qzv
- 展示去除低質(zhì)量序列、嵌合體、合并等后的序列數(shù)
- denoising-stats.qzv
3.5 FeatureTable and FeatureData summaries
Feature表
qiime feature-table summarize \
--i-table table.qza \
--o-visualization table.qzv \
--m-sample-metadata-file sample-metadata.txt
代表序列統(tǒng)計(jì)
qiime feature-table tabulate-seqs \
--i-data rep-seqs.qza \
--o-visualization rep-seqs.qzv
3.6 建樹用于多樣性分析
qiime phylogeny align-to-tree-mafft-fasttree \
--i-sequences rep-seqs.qza \
--o-alignment aligned-rep-seqs.qza \
--o-masked-alignment masked-aligned-rep-seqs.qza \
--o-tree unrooted-tree.qza \
--o-rooted-tree rooted-tree.qza
3.7 Alpha多樣性分析
計(jì)算多樣性(包括所有常用的Alpha和Beta多樣性方法),輸入有根樹、Feature表、樣本重采樣深度
取樣深度看table.qzv文件確定(一般為樣本最小的sequence count,或覆蓋絕大多數(shù)樣品的sequence count)
qiime diversity core-metrics-phylogenetic \
--i-phylogeny rooted-tree.qza \
--i-table table.qza \
--p-sampling-depth 55464 \
--m-metadata-file sample-metadata.txt \
--output-dir core-metrics-results
輸出結(jié)果包括多種多樣性結(jié)果,文件列表和解釋如下:
beta多樣性bray_curtis距離矩陣 bray_curtis_distance_matrix.qza
alpha多樣性evenness(均勻度,考慮物種和豐度)指數(shù) evenness_vector.qza
alpha多樣性faith_pd(考慮物種間進(jìn)化關(guān)系)指數(shù) faith_pd_vector.qza
beta多樣性jaccard距離矩陣 jaccard_distance_matrix.qza
alpha多樣性observed_otus(OTU數(shù)量)指數(shù) observed_otus_vector.qza
alpha多樣性香農(nóng)熵(考慮物種和豐度)指數(shù) shannon_vector.qza
beta多樣性u(píng)nweighted_unifrac距離矩陣,不考慮豐度 unweighted_unifrac_distance_matrix.qza
beta多樣性u(píng)nweighted_unifrac距離矩陣,考慮豐度 weighted_unifrac_distance_matrix.qza
測(cè)試分類元數(shù)據(jù)(sample-metadata)列和alpha多樣性數(shù)據(jù)之間的關(guān)聯(lián),輸入多樣性值、sample-medata,輸出統(tǒng)計(jì)結(jié)果
統(tǒng)計(jì)faith_pd算法Alpha多樣性組間差異是否顯著
qiime diversity alpha-group-significance \
--i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
--m-metadata-file sample-metadata.txt \
--o-visualization core-metrics-results/faith-pd-group-significance.qzv
統(tǒng)計(jì)evenness組間差異是否顯著
qiime diversity alpha-group-significance \
--i-alpha-diversity core-metrics-results/evenness_vector.qza \
--m-metadata-file sample-metadata.txt \
--o-visualization core-metrics-results/evenness-group-significance.qzv
- 以evenness-group-significance.qzv為例,圖中可點(diǎn)Category選擇分類方法,查看不同分組下箱線圖間的分布與差別。圖形下面的表格,詳細(xì)詳述組間比較的顯著性和假陽性率統(tǒng)計(jì)。
- evenness-group-significance.qzv
3.8 Beta 多樣性分析
按subject分組,統(tǒng)計(jì)unweighted_unifrace距離的組間是否有顯著差異,其他的分組分析類似。
qiime diversity beta-group-significance \
--i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
--m-metadata-file sample-metadata.txt \
--m-metadata-column subject \
--o-visualization core-metrics-results/unweighted-unifrac-subject-significance.qzv \
--p-pairwise
可視化三維展示unweighted-unifrac的主坐標(biāo)軸分析
qiime emperor plot \
--i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
--m-metadata-file sample-metadata.txt \
--p-custom-axes weight \
--o-visualization core-metrics-results/unweighted-unifrac-emperor-weight.qzv
可視化三維展示bray-curtis的主坐標(biāo)軸分析
qiime emperor plot \
--i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
--m-metadata-file sample-metadata.txt \
--p-custom-axes height \
--o-visualization core-metrics-results/unweighted-unifrac-emperor-height.qzv
3.9 Alpha rarefaction plotting
--p-max-depth should be determined by reviewing the “Frequency per sample” information presented in the table.qzv file
that was created above. In general, choosing a value that is somewhere around the median frequency seems to work well.
but you may want to increase that value if the lines in the resulting rarefaction plot don’t appear to be leveling out,
or decrease that value if you seem to be losing many of your samples due to low total frequencies closer to the minimum
sampling depth than the maximum sampling depth.
--p-max-depth一般取table.qzv文件Frequency per sample的中位數(shù)左右
qiime diversity alpha-rarefaction \
--i-table table.qza \
--i-phylogeny rooted-tree.qza \
--p-max-depth 55000 \
--m-metadata-file sample-metadata.txt \
--o-visualization alpha-rarefaction.qzv
- 可視化將有兩個(gè)圖。頂部圖是α稀疏圖,主要用于確定樣品的豐富度是否已被完全觀察或測(cè)序。如果圖中的線在沿x軸的某個(gè)采樣深度處看起來“平坦化”(即接近零斜率),則表明收集超出該采樣深度的其他序列將不可能會(huì)有其他的OTU(feature)產(chǎn)生。如果圖中的線條沒有達(dá)到平衡,這可能是因?yàn)樯形赐耆^察到樣品的豐富程度(因?yàn)槭占男蛄刑伲蛘咚赡鼙砻髟跀?shù)據(jù)中存在大量的測(cè)序錯(cuò)誤(被誤認(rèn)為是新的多樣性)。底部圖表示當(dāng)特征表稀疏到每個(gè)采樣深度時(shí)每個(gè)組中保留的樣本數(shù)。
- 5個(gè)樣本被分成兩組weight,圖中顯示即兩條線,每組的樣本數(shù)分別為2和3。
- Alpha rarefaction
3.10 訓(xùn)練分類器
- 不同實(shí)驗(yàn)使用不同的引物有不同的擴(kuò)增區(qū)域,鑒定物種分類的精度就不同,提前的訓(xùn)練可以讓分類結(jié)果更準(zhǔn)確。
- 提供自己的測(cè)序引物序列即可
下載數(shù)據(jù)庫文件(greengenes)
wget ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
解壓
tar -zxvf gg_13_8_otus.tar.gz
使用rep_set文件中的99_otus.fasta數(shù)據(jù)和taxonomy中的99_OTU_taxonomy.txt數(shù)據(jù),也可根據(jù)需要選擇其他相似度。
導(dǎo)入?yún)⒖夹蛄?/h1>
qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path 99_otus.fasta \
--output-path 99_otus.qza
導(dǎo)入物種分類信息
qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path 99_otu_taxonomy.txt \
--output-path ref-taxonomy.qza
Extract reference reads
這里不建議指定截取的長度(參考:https://forum.qiime2.org/t/how-can-i-train-classifier-for-paired-end-reads/1512/3)
Greengenes 13_8 99% OTUs from 341F/805R region of sequences(分類器描述),提供測(cè)序的引物序列,截取對(duì)應(yīng)的區(qū)域進(jìn)行比對(duì),達(dá)到分類的目的。
qiime feature-classifier extract-reads \
--i-sequences 99_otus.qza \
--p-f-primer CCTACGGGNGGCWGCAG \ #341F引物
--p-r-primer GACTACHVGGGTATCTAATCC \ #805R引物
--o-reads ref-seqs.qza
Train the classifier(訓(xùn)練分類器)
基于篩選的指定區(qū)段,生成實(shí)驗(yàn)特異的分類器
qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier Greengenes_13_8_99%_OTUs_341F-805R_classifier.qza
3.11 物種分類
物種分類
qiime feature-classifier classify-sklearn \
--i-classifier Greengenes_13_8_99%_OTUs_341F-805R_classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
結(jié)果可視化
qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
物種分類條形圖
qiime taxa barplot \
--i-table table.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample-metadata.txt \
--o-visualization taxa-bar-plots.qzv
taxonomy.qzv
- 圖中開頭字母分別表示:界 (Kingdom)、門(Phylum)、綱 (Class)、目 (Order)、科( Family)、屬( Genus)、種 (Species)
- taxa-bar-plots.qzv
3.12.1 ANCOM差異度分析
- 差異豐度分析采用ANCOM (analysis of composition of microbiomes),是2015年發(fā)布在Microb Ecol Health Dis上的方法,文章稱在微生物組方面更專業(yè),但不接受零值(零在二代測(cè)序結(jié)果表中很常見),用于比較兩個(gè)或更多群體中微生物組的組成。
- 示例樣本較少,沒有顯著差異,在此不做展示,可參考方法。
按subject分組進(jìn)行差異分析
qiime feature-table filter-samples \
--i-table table.qza \
--m-metadata-file sample-metadata.txt \
--p-where "subject='subject-1'" \
--o-filtered-table subject-1-table.qza
OTU表添加假count,因?yàn)锳NCOM不允許有零
qiime composition add-pseudocount \
--i-table subject-1-table.qza \
--o-composition-table comp-subject-1-table.qza
subject-1 -->weight
qiime composition ancom \
--i-table comp-subject-1-table.qza \
--m-metadata-file sample-metadata.txt \
--m-metadata-column weight \
--o-visualization ancom-subject-1-weight.qzv
3.12.2 按種水平進(jìn)行差異分析,genus level (i.e. level 6 of the Greengenes taxonomy)
按種水平進(jìn)行合并,統(tǒng)計(jì)各種的總reads
qiime taxa collapse \
--i-table subject-1-table.qza \
--i-taxonomy taxonomy.qza \
--p-level 6 \
--o-collapsed-table subject-1-table-l6.qza
add-pseudocount
qiime composition add-pseudocount \
--i-table subject-1-table-l6.qza \
--o-composition-table comp-subject-1-table-l6.qza
subject-1 -->weight
qiime composition ancom \
--i-table comp-subject-1-table-l6.qza \
--m-metadata-file sample-metadata.txt \
--m-metadata-column weight \
--o-visualization l6-ancom-subject-1-weight.qzv
refernce:
[2]、[3] 數(shù)值僅供參考,不同的測(cè)序公司要求會(huì)有不同。
[4] https://support.illumina.com/downloads/16s_metagenomic_sequencing_library_preparation.html
[5] https://docs.qiime2.org/2018.8/install/
[6] https://forum.qiime2.org/t/qiime2-chinese-manual/838
[7] https://forum.qiime2.org/t/lost-of-data-with-dada2/1449/5
[8] https://docs.qiime2.org/2018.8/tutorials/moving-pictures/