今天我們要來介紹在16S分析中經常用到的另一個在線分析工具LEfSe。該工具是由Huttenhower小組開發的,用于通過相對豐度來發現2個或更多個組之間的生物標記。本節主要介紹兩種方法第一種是由qiime1生成輸入文件+LEfSe web線上分析, 第二種是使用Koeken工具產生LEfSe結果。
工具網址:http://huttenhower.sph.harvard.edu/galaxy/
文章引用:Segata et. al 2011
分析的流程如下:
1、導入含有2行metadata的微生物豐度表
2、鑒定與metadata分類相關的微生物標記
3、根據分析結果繪制Bar及Cladograms圖
因為LEfSe的輸入文件要求將微生物豐度表和metadata合并在一起,而qiime1中我們將豐度表和metadata的表是分開的,所以我們首先要將兩張表格合并。
輸入文件含有以下幾個要素:
1、Sample Identifiers,樣本唯一識別號,通常是mapping文件中的樣本ID
2、Class variable,該變量將會用于確定分組以比較兩組或多組的差異。
3、Subclass variable,該變量時可選的,當你需要對樣本增加更多的描述性信息的時候可以使用該變量。
準備LEfSe輸入文件
轉化為相對豐度表
第一步是要將你的OTU表轉化為相對豐度表,qiime中的sumarize_taxa.py
可以進行該操作,并且添加樣本的meta信息。
產生的文件里包含不同分類水平的文件。你可以選擇你想要進行分析的水平文件用于下游分析。通常我們選擇Level6(Genus 屬)水平。
# Convert to relative abundances
summarize_taxa.py \
-i otu_table.biom \
-o summarize_taxa_L6 \
-m mapping_file.txt \
--delimiter '|'
剔除不需要的meta數據
產生的文件包含了所有mapping文件里的meta信息。而LEfSe最多需要兩列meta信息和一列Sample identifiers,所以你必須刪除其他你不感興趣的meta信息。另外,刪除列名“#SampleID”中的“#”。
最后產生的文件如下圖所展示。
可以發現與LEfSe給的樣例有一點差別,它是以行進行展示,這張表是列,所以在之后進行分析的時候要注意選擇Columns。
利用LEfSe分析Qiime數據
打開網站http://huttenhower.sph.harvard.edu/galaxy/,選擇左側LEfSe功能:
然后點擊左側菜單的Get Data,然后上傳文件。上傳成功后會看見右側菜單欄增加了你上傳的文件。
A) Format data for LEfSe
然后我們要進行第一步 Format Data,在這一步里我們需要確定哪一列是我們的class/subclass和sample ID。
a.對于第一個選擇,確保輸入的文件是你想要分析的文件。(如果沒有顯示出來,可以重新點擊以下LEfSe)
b.確定meta信息是按照列還是行給予。根據你輸入文件的格式確定,如果是LEfSe范例中給的輸入文件則按照Rows, d如果是qiime1合并得到的輸入文件則選擇Columns。
c.對于剩下的3個選擇,你必須將列名對應到其的變量類別Class/SubClass以及SampleID。如果你沒有SubClass那可以選擇no subclass。
選擇完畢后點擊Execute。
B) Run LEfSe
接著可以點擊左側LDA Effect Size(LEfSe),確定你的篩選標準包括p value和effect size cutoff。
LEfSe能夠發現代表、描述特定群體的分類群,因此如果看到根據變量(例如對照或治療)著色的任何分類群,可以將其解釋為該分類群與其他群體相比顯著增加。
C/D. Plotting data
完成了LDA Effect Size之后就可以繼續點擊左側菜單欄,進行圖像的繪制。
Plot LEfSe Results
該圖為條形圖條形長度表示特定組中特定分類群的效應大小(LDA)。 條形的長度表示log10轉換的LDA分數。 顏色表示與其他組相比,發現分類群的哪個組更豐富,即代表在哪個組豐度更高。 即使rag2(紅色)的LDA得分為負,這也是由于計算效果大小時分子和分母的順序。 此順序由字母順序確定,因此我們始終可以使用效果大小的絕對值來解釋某個分類群的兩組之間差異的比例。
Plot Cladogram
第二個圖以分支圖的形式顯示結果,這是表示顯著性和系統發育的直觀方式。 顏色代表系統發育樹的哪個分支更顯著地代表某一群體。 在這種情況下,放線菌和擬桿菌在rag2組中更豐富,而厚壁菌在truc組中更為豐富
其他
剩下兩個畫圖功能可以更詳細的展示不同樣本的不同生物標記的分布。大家可以根據自己的需求選擇。
使用Koeken工具生成LEfSE結果
除了使用qiime1以外,我們還可以使用Koeken工具產生輸入文件。該工具可將LEfSe直接與QIIME數據一起用于快速分析。 它的構建使用戶可以使用LEfSe分析他們的16s rRNA數據,而無需手動更改meta數據信息并將數據上傳到Galaxy。通常,此meta變量是關于數據的時間特征,以便于我們可以查看每個時間點的生物標記分類單元。
安裝:
# Install Koeken
pip install https://github.com/twbattaglia/koeken/zipball/master
例子:如果包含--clade選項,將為每個分析生成分支圖。
koeken.py \
--input otu_table.biom \
--output koeken_output \
--map mapping_file.txt \
--level 6 \
--class Treatment \
--split Day \
--clade
最終Koeken會在每個時間點產生許多文件,包括了LEfSe的結果。當然,如果需要,你還可以像之前的例子一樣,將產生的文件傳到LEfSe的網站上進行后續的分析。
最后生成的文件如下:
── koeken_output/
└── summarize_taxa_L#/ (Summarize taxa output files)
└── lefse_output/
└── format_lefse/ (Formatted LEfSe files)
├── run_lefse/ (Results from running analysis files)
└── clade/ (PDF's of analysis cladograms)