擴增子一站式分析平臺QIIME
2018年1月QIIME2全面接檔QIIME1
極簡操作
source activate qiime2
qiime tools import --type 'SampleData[PairedEndSequencesWithQuality]' --input-path ../test-paired-end-demultiplexed --source-format CasavaOneEightSingleLanePerSampleDirFmt --output-path demux-paired-end.qza
qiime dada2 denoise-paired --i-demultiplexed-seqs demux-paired-end.qza --o-table table.qza --o-representative-sequences rep-seqs-dada2.qza --p-trim-left-f 0 --p-trim-left-r 0 --p-trunc-len-f 220 --p-trunc-len-r 220
qiime feature-table summarize --i-table table.qza --o-visualization table.qzv
mkdir tableqzv
qiime tools export table.qzv --output-dir tableqzv
mkdir rep-seqs-dada2qza
qiime tools export rep-seqs-dada2.qza --output-dir rep-seqs-dada2qza
source deactivate
QIIME2是微生物組分析流程QIIME的全新版,采用Python3全新編寫
- 更易于安裝:QIIME2引入了Miniconda軟件包管理器,沒有管理員權限也可以輕松安裝;同時發(fā)布了docker鏡像,下載即可運行
- 分析流程化:分析流程更加標準化,不讓用戶盲然下面該做什么;
- 可視化增強:QIIME后發(fā)制人,超越引用6964次的mothur流程,就是其可視化方面的優(yōu)勢,現(xiàn)可視化結果更加漂亮,且全新采用交互式圖形結果,點選可查看細節(jié),更易于分析
- 方便合作:項目很少一個組可完成,多人多地結果圖表方便共享,適合當下科研合作的需求
- 可擴展:支持自定義功能并加入分析流程;高手可以自己寫包,加入QIIME2的流程中
- 分析可重復:全新定義了文件系統(tǒng),即包括分析數(shù)據(jù)、也包括分析過程和結果,每一步的結果,均可追溯全部分析過程,方便檢查和重復
qiime
Usage: qiime [OPTIONS] COMMAND [ARGS]...
QIIME 2 command-line interface (q2cli)
--------------------------------------
To get help with QIIME 2, visit https://qiime2.org.
To enable tab completion in Bash, run the following command or add it to
your .bashrc/.bash_profile:
source tab-qiime
To enable tab completion in ZSH, run the following commands or add them to
your .zshrc:
autoload bashcompinit && bashcompinit && source tab-qiime
Options:
--version Show the version and exit.
--help Show this message and exit.
Commands:
info Display information about current deployment.#info: qiime info --citations獲得版本和引用信息
tools Tools for working with QIIME 2 files
dev Utilities for developers and advanced users.
alignment Plugin for generating and manipulating alignments. #alignment 比對
composition Plugin for compositional data analysis.
dada2 Plugin for sequence quality control with DADA2. #聚類
deblur Plugin for sequence quality control with Deblur.#聚類
demux Plugin for demultiplexing & viewing sequence quality.#demux 拆分樣品,結果統(tǒng)計
diversity Plugin for exploring community diversity.#diversity 群落多樣性
emperor Plugin for ordination plotting with Emperor.#emperor 繪制排序圖
feature-classifier Plugin for taxonomic classification.# 物種分類
feature-table Plugin for working with sample by feature tables.#特征表格
gneiss Plugin for building compositional models.#建模
longitudinal Plugin for paired sample and time series analyses.#成對樣品和時間序列分析
metadata Plugin for working with Metadata.# 元數(shù)據(jù)
phylogeny Plugin for generating and manipulating phylogenies.#多重比對構樹
quality-control Plugin for quality control of feature and sequence data.#質量控制
quality-filter Plugin for PHRED-based filtering and trimming.#質量過濾
sample-classifier Plugin for machine learning prediction of sample metadata.#機器學習預測樣品數(shù)據(jù)
taxa Plugin for working with feature taxonomy annotations.#注釋
vsearch Plugin for clustering and dereplicating with vsearch.# 去冗余
QIIME2 數(shù)據(jù)管理
- 1數(shù)據(jù)文件:人工產(chǎn)品(artifacts)
.qza是分析過程文件,包含原始數(shù)據(jù),分析過程和結果,保證了文件格式的標準,可重復分析 - 2數(shù)據(jù)文件:可視化(visualizations)
.qzv 與qza文件類似,包括分析方法和結果,方便追溯圖表的產(chǎn)生,它是分析的終點,不會再流程匯總繼續(xù)分析。結果包括表格,交互圖像,靜態(tài)圖像https://view.qiime2.org/可查看 - 3 語義類型(Semantic types)
每步分析都會產(chǎn)生qza文件,都會有相應的語義類型,避免用戶不合理的分析過程(用未標準化的OTU表進行多樣性分析) - 數(shù)據(jù)導入
QIIME2使用了標準文件格式qza和qzv,分別是數(shù)據(jù)文件和統(tǒng)計圖表文件;目的是統(tǒng)一文件格式,方便追溯分析過程。最典型的導入數(shù)據(jù),是原始測序數(shù)據(jù)的導入。實際上,我們可以從分析的任何一步導入數(shù)據(jù),繼續(xù)分析。比如合作者提供了biom格式的OTU表,我們可以導入,并進行下游的統(tǒng)計分析。 - 數(shù)據(jù)導出
命令: qiime tools export feature-table.qza --output-dir exported-feature-table
export 命令可以導出過程文件qza和qzv的數(shù)據(jù)
extract 命令不只可以到導出過程文件qza和qzv的數(shù)據(jù),還包括生成此文件的相關軟件版本,以及步驟的說明
元數(shù)據(jù)
元數(shù)據(jù)是實驗設計的描述信息表或統(tǒng)計結果,是分析原始數(shù)據(jù)必須的基本信息。
元數(shù)據(jù)是從原始數(shù)據(jù)中獲得生物學發(fā)現(xiàn)的關鍵。在QIIME2中,樣品的元數(shù)據(jù)包括技術細節(jié),如DNA條形碼用于區(qū)分樣品、樣品描述,如分類、時間點、取樣部分等。對于特征表(Feature,原稱OTU)的元數(shù)據(jù),一般為特征的注釋信息,如物種分類信息。樣品和特征表的元數(shù)據(jù)在QIIME2中很多步分析需要使用。
DADA2與deblur 降噪軟件
DADA2
DADA2是R的一個軟件包,可以進行過濾,去重,嵌合體過濾,reads的拼接,可以修正擴增子的測序錯誤,確定更多的真實變異。擴增子測序本身就具有內在的限制,但是聚類OTU的方式進一步限制了它的發(fā)展。OTU不是物種,它們不應該成為錯誤的一部分,DADA2可以具有更高的分辨率
DADA(Divisive Amplicon Denoising Algorithm)含義為區(qū)分擴增子降噪方程
可以確定真實的變異在454測序擴增子數(shù)據(jù)輸出更少的假陽性。DADA2是DADA的擴展和增強可以應用于Illumina測序數(shù)據(jù)
- 特點:DADA2最重要的優(yōu)勢是它用了更多的數(shù)據(jù)。DADA2的錯誤模型包含了質量信息,而其他的方法都在過濾低質量之后把序列的質量信息忽略。而且DADA2的錯誤模型也包括了定量的豐度,而且該模型也計算了各種不同轉置的概率A->C。而且DADA2以自身數(shù)據(jù)的錯誤模型為參數(shù),不用依賴于其他參數(shù)分布模型。
DADA2算法:
一種分裂式分割算法
- 1首先將每個reads全部看作單獨的單元,Sequence相同的reads被納入
一個sequence,reads個數(shù)即成為該sequence的豐度(abundance)
(其實就是去冗余的過程) - 2計算每個sequence豐度的p-value。當最小的p-value低于設定的閾值時,
將產(chǎn)生一個新的partition。每一個sequence將會被歸入最可能生成該
sequence的partition。 - 3 依次類推,完成分割歸并。
DADA2與UPARSE,MED(也是一種高分辨率的發(fā)現(xiàn)Illumina測序錯誤的方法)的比較
三個測試數(shù)據(jù)集
balanced和HMP,Extreme是三種模擬的數(shù)據(jù)集,
漢明距離
虛線表示,3%聚類的漢明距離
在較低的分辨率時,DADA2有更好的表現(xiàn),藍色表示新增加的物種,黑色表示一致的物種
DADA2可以更精確的區(qū)分物種,輸出更少的錯誤序列,更有利于下游多樣性和差異性分析
Deblur 快速解決單核苷酸群落模式
PCR和測序過程中的噪音限制了區(qū)分更相近的物種。傳統(tǒng)的聚類OTU的方法也是一種克服測序錯誤的方式,但是需要人為的設定cutoff的一致性,但是這種方法也降低了分類的精確性。 臨床,食品安全,特殊的生態(tài)應用需要更精確的物種區(qū)分。此外這種方法合并數(shù)據(jù)進行分析時需要重新進行聚類。Deblur方法提出了sub-operational-taxonomic-unit (sOTU) 提出更精確的分類亞OTU的概念。
- 特點:通過降噪提高了精確性和敏感性,同時減少計算需求。
提出了一個核苷酸對就可以區(qū)分的分類水平
可以針對單個樣品水平。適合大規(guī)模的測序數(shù)據(jù)比較容易整合多批次的測序樣品
Deblur 可以去除假陽性 受到序列長度和多樣性的限制
Deblur算法步驟:
- 1 序列按豐度從大到小排序
- 2 根據(jù)上界錯誤率和計算的漢明距離,從序列中抽取被認定為錯誤的序列
-
3 當某個sequence的reads頻次降到0時,該sequence即被刪除
Deblur和DADA2進行了穩(wěn)定性的比較
穩(wěn)定性從不同的樣品中發(fā)現(xiàn)相同sOTU(牽涉到要整合各個時期的數(shù)據(jù))
40個糞便樣品用Miseq不同的run測了兩次
(B)對鑒定出來的 unique sOTU進行處理,與NCBI的NR/nt庫進行比較。在兩種不同方式中的misatch中的比例,在Deblur中,在DADA2中出現(xiàn),在兩種方法中都出現(xiàn)
(C)對鑒定出來的 unique sOTU進行處理,相同的情況,列表示的是不同的種屬和地理位置,Deblur的豐度分布模式和真實情況更相似
(D)是三種方法所用的時間
物種注釋與分類
通過將我們的查詢序列(即,我們的特征,無論是ASV還是OTU)與具有已知分類組成的序列的參考數(shù)據(jù)庫進行比較來實現(xiàn)物種注釋。 簡單地找到最接近的比對并不是很好 , 因為其他序列同樣接近匹配或幾乎接近可能具有不同的分類學注釋。 因此,我們使用分類學分類來確定最接近的分類學歸屬,具有某種程度的置信度或共識(如果無法確定地預測,則可能不是物種名稱!),基于比對k-mer頻率等。 在QIIME 2中學習更多關于分類學分類的知識可以閱讀。
q2-feature-classifier包含三種不同的分類方法。 classify-consensus-blast和classify-consensus-vsearch都是基于對齊的方法,可以在N top hits找到合適的注釋信息。 這些方法直接參考數(shù)據(jù)庫FeatureData [Taxonomy]和FeatureData [Sequence]文件,不需要預先訓練。
根據(jù)您的特定樣品制備和測序參數(shù)(包括用于擴增的引物和序列讀數(shù)的長度),分類分類器在進行培訓時表現(xiàn)最佳。 因此,一般來說,您應該按照訓練要素分類器中的說明使用q2-feature-classifier來訓練您自己的分類學分類器(例如,來自下面的標記基因參考數(shù)據(jù)庫)。
Qiita提供對許多公共微生物組數(shù)據(jù)集的訪問。 如果您正在尋找用于測試或薈萃分析的微生物組數(shù)據(jù),那么Qiita是一個很好的起點。
基于機器學習的分類方法可通過classify-sklearn獲得,理論上可以應用scikit-learn中可用的任何分類方法。 必須訓練這些分類器,例如,以了解哪些特征最佳地區(qū)分每個分類群,為分類過程增加額外的步驟。 分類器訓練是參考數(shù)據(jù)庫和標記基因特異性的,每個標記基因/參考數(shù)據(jù)庫組合只需要進行一次; 然后可以根據(jù)需要重復使用該分類器,而無需重新訓練!
大多數(shù)用戶甚至不需要遵循該教程并執(zhí)行該培訓步驟,因為可愛的QIIME 2開發(fā)人員提供了幾種預先訓練好的分類器供公眾使用
哪種方法最好? 它們都非常好,否則我們不會在這里暴露它們。 ??但一般來說,使用Naive Bayes分類器的classify-sklearn可以略微優(yōu)于我們根據(jù)16S rRNA基因和真菌ITS序列分類的幾個標準測試的其他方法。 然而,對于一些用戶來說,這可能更困難和令人沮喪,因為它需要額外的訓練步驟。 該訓練步驟可能是內存密集型的,成為一些無法使用預訓練分類器的用戶的障礙。 一些用戶還喜歡基于對齊的方法,因為他們的操作模式更加透明,其參數(shù)更易于操作(有關這些參數(shù)的說明和不同應用程序的推薦設置,請參Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugin)。
特征分類可能很慢。 這完全取決于您擁有的序列數(shù)量和參考序列的數(shù)量。 OTU聚類序列將需要更長的時間進行分類(因為通常還有更多)。 在分類之前過濾序列文件中的低豐度特征,如果您對運行時有疑慮,請盡可能使用較小的參考數(shù)據(jù)庫。 在實踐中,在“正常大小”的測序實驗中(無論是什么意思??),我們會看到幾分鐘(幾百個特征)到幾個小時(幾十萬個特征)之間的差異,以便完成分類。 如果你想在那里掛一些數(shù)字,請查看我們的分類器運行時性能基準。
功能分類可能是內存密集型的。 我們通常看到最小4 GB RAM,最多需要32 GB。 這一切都取決于參考序列的大小,它們的長度和查詢序列的數(shù)量......
使用classify-sklearn的示例顯示在要素分類器教程和動態(tài)圖片教程中。 分類法流程圖應該使其他分類器方法合理清晰。
所有分類器都會生成FeatureData [Taxonomy]工件,其中包含每個查詢序列的分類法分類列表。
想要查看哪些序列和分類分配與每個功能ID相關聯(lián)? 使用qiime元數(shù)據(jù)制表將FeatureData [Taxonomy]和FeatureData [Sequence]工件作為輸入。
以下是具有FeatureData [Taxonomy]工件的主要操作:
- 1.Collapse your feature table with taxa collapse! 這會將共享相同分類分配的所有功能合并到一個功能中。 該分類分配成為新要素表中的要素ID。 此功能表可以與原始功能表相同的方式使用。 一些用戶可能特別感興趣于執(zhí)行例如分類法知識的多樣性分析,但至少任何分配分類法的人都可能對測試這些分類群的差異豐度感興趣。 使用分類群作為特征與使用ASV或OTU作為特征進行差異豐度分析比較可以為各種分析提供診斷和信息.
- 繪制您的分類組成,以查看每個樣本中各種類群的豐富程度。 查看分類群條形圖和功能表熱圖以獲取更多詳細信息
- 過濾特征表和代表性序列(FeatureData [序列]工件)以刪除某些分類組。 這對于去除已知的污染物或非目標基團是有用的,例如包括線粒體或葉綠體序列的宿主DNA。 它也可用于關注特定組以進行更深入的分析。 有關更多詳細信息和示例,請參閱過濾教程.
QIIME2核心概念
- 數(shù)據(jù)文件: 人工產(chǎn)品 (artifacts)
QIIME2為了使分析流程標準化,分析過程可重復,制定了統(tǒng)一的分析過程文件格式.qza
;qza文件類似于一個封閉的系統(tǒng),里面包括原始數(shù)據(jù)、分析的過程和結果;這樣保證了文件格式的標準,同時可以追溯每一步的分析,以及圖表繪制參數(shù)。這一方案為實現(xiàn)將來可重復的分析提供了基礎。比如文章投稿,同時提供分析過程的文件,別人可以直接學習或重復實驗結果。 - 數(shù)據(jù)文件:可視化(visualizations)
QIIME2生成的圖表結果文件類型,以.qzv
為擴展名,末尾的v代表visual;它同qza文件類似,包括分析方法和結果,方便追溯圖表是如何產(chǎn)生的;唯一與qza不同的,它是分析的終點,即結果的呈現(xiàn),不會在流程中繼續(xù)分析。可視化的結果包括統(tǒng)計結果表格、交互式圖像、靜態(tài)圖片及其它組合的可視化呈現(xiàn)。這類文件可以使用QIIME2qiime tools view
命令查看,不安裝程序也可在線 https://view.qiime2.org/ 168 導入顯示; - 語義類型(Semantic types)
QIIME2每步分析中產(chǎn)生的qza文件,都有相應的語義類型,以便程序識別和分析,也避免用戶引入不合理的分析過程(如使用末標準化的OTU表進行多樣性分析)。了解分析各步的結果,才能對分析有更深入和全面的認識。 - 插件(Plugins)
QIIME2中的某個特定功能即為插件,比如拆分樣品、Alpha多樣性分析等。插件每個人都可以開發(fā),系列已經(jīng)由社區(qū)開發(fā)了標準化分析的插件,其他用戶按其標準開發(fā)的特定分析,并可與團隊聯(lián)系發(fā)布,或整合入平臺。 - 方法和可視化
方法是對QIIME2定義的輸入格式進行操作的過程,并產(chǎn)生標準格式的輸出,以方便后續(xù)分析,輸入和輸出均為qza文件;可視化是對定義的標準輸入,產(chǎn)生統(tǒng)計表格或可視化圖形,方便用戶解讀,輸入為qza格式,輸出為qzv,文件不僅包括結果,還包括處理的分析命令和參數(shù),方便重復和檢查分析過程是否準確。
常用的語義類型semantic types
FeatureTable[Frequency]: 頻率,即Feature表(OTU表),為每個樣品中對應OTU出現(xiàn)頻率的表格
FeatureTable[RelativeFrequency]: 相對頻率,OTU表標準化為百分比的相度豐度
FeatureTable[PresenceAbsence]: OTU有無表,顯示樣本中某個OTU有或無的表格
FeatureTable[Composition]: 組成表,每個樣品中OTU的頻率
Phylogeny[Rooted]: 有根進化樹
Phylogeny[Unrooted]: 無根進化樹
DistanceMatrix: 距離矩陣
PCoAResults: 主成分分析結果
SampleData[AlphaDiversity]: Alpha多樣性結果,來自樣本自身的分析
SampleData[SequencesWithQuality]: 帶質量的序列,要求有質量值,要求序列名稱與樣品存在對應關系,如為按樣品拆分后的數(shù)據(jù)格式
SampleData[PairedEndSequencesWithQuality]: 成對的帶質量序列,要求序列ID與樣品編號存在對應關系;
FeatureData[Taxonomy]: 每一個OTU/Feature的分類學信息
FeatureData[Sequence]: 代表性序列
FeatureData[AlignedSequence]: 代表性序列進行多序列比對的結果
FeatureData[PairedEndSequence]: 雙端序列進行聚類或去噪后,分類好的OTU或Feature
EMPSingleEndSequences: 采用地球微生物組計劃標準實驗方法產(chǎn)生的單端測序數(shù)據(jù);
EMPPairedEndSequences: 采用地球微生物組計劃標準實驗方法產(chǎn)生的雙端測序數(shù)據(jù);
TaxonomicClassifier: 用于物種注釋的分類軟件
參考:
QIIME2官網(wǎng)
QIIME2中文幫助文檔 (Chinese Manual)
擴增子分析QIIME2. 2分析實戰(zhàn)Moving Pictures
Nature綜述:Rob Knight等大佬手把手教你開展菌群研究
Overview of QIIME 2 Plugin Workflows
Official QIIME workshops
silva|qiime