最近投文章,審稿人問了一個關于系統進化樹的問題。
Reviewer: 1
I still don't understand, why authors sequence 486 isolates but only use a tiny fraction (20) for the phylogenetic tree. Clearly 20 strains out of 486 is not a representative group. Why haven't all isolates been used? Also, I am missing an appropriate substitution model. If authors are unfamiliar with phylogenetic analyses: jmodel test, would for instance be an option.
我分離了486個可培養菌并測了每個菌的16s rRNA基因,其中有很多菌的16s是非常相似的。最初我是在EzBioCloud (www.ezbiocloud.net)直接提交16s序列鑒定,該數據均是可培養菌模式菌株的16s序列。然后我就將這486鑒定歸類為20種菌種,拿著20種菌種的16s序列在MEGA中構建了系統進化樹。審稿回來,reviewer就提出了上述問題,要求486個分離株的16s序列構建進化樹,并且需要尋找最佳模型,推薦了jmodel test軟件。
大致過程如下
1. 待建序列:NCBI上下載的63個16s參比序列和486個分離株的序列,共549個。
2. 使用jmodel進行了模型選擇,88種模型可供選擇。在i7 6700,8G的臺式機上跑了7個多小時,計算完后統計AIC和BIC的時候卡死了,跑了兩遍都這樣,不知道怎么回事,最后放棄使用這個軟件了。
3. 使用IQ-TREE進行模型選擇和ML建樹,288種模型可供選擇。在i5 2450M,8G筆記本的VMware虛擬機(2個線程,4G內存)上執行。
#使用MUSCLE對549個序列對齊
conda install muscle
muscle -in 16s.fas -out 16s_muscle.fas
#使用BMGE對序列剪齊
conda install bmge
java -jar BMGE.jar -i 16s_muscle.fas' -t DNA -of 16s_muscle_trim.fas -m DNAPAM250:4 –g 0.5
#使用ModelFinder尋找最優模型
conda install iqtree
iqtree -s?16s_muscle_trim.fas -m MF -nt 2
得到最佳模型TIM3+F+R4
#使用UFBoot2建樹
iqtree -s 16s_muscle_trim.fas -m TIM3+F+R4 -bb 1000 -nt AUTO
4. Figtree可視化樹文件16s_muscle_trim.contree
16s_muscle_trim.contree: the consensus tree with assigned branch supports where
branch lengths are optimized on the original alignment.