- variable sites
- informative sites
- nucleotide diversity
信息位點的定義:
在兩個及以上分類單元(的序列)中存在差異,且其中至少有兩種變異類型在該位點出現兩次及以上(雖然有了定義自己還是不太明白)
摘自 高老師的系統發育分析完整教程
三個名詞的概念自己還不太理解,先把如何計算的過程記錄下來,以論文 comparative analysis of six lagetstroemia complete chloroplast genome 中提到的六個紫薇屬葉綠體基因組序列為例,使用mafft進行比對,然后計算上面三個指標(論文中的Table4)。
使用之前提到的python腳本下載六種紫薇屬植物的葉綠體基因組序列 簡單的python腳本批量下載葉綠體基因組序列
species | accession number |
---|---|
L.fauriei | KT358807 |
L.indica | KX263727 |
L.guilinensis | KU885923 |
L.indica “LüzhaoHongdie” | KF572028 |
L.subcostata | KF572029 |
L.speciosa | KX572149 |
第一種方法使用DNAsp軟件
1、點擊file——open data file讀入比對好的數據
2、點擊Data——format,依次選擇haploid,chloroplast,點擊OK
30.PNG
輸出的結果包括位點總數(這里需要注意的是DnaSp這個軟件計算的總位點數是去掉gap以后的)非變異位點;變異位點;singleton variable sites(這個不知道是什么意思);有效位點數(parsimony informative sites);計算出來的結果和文章中的Table4有些出入,暫時還沒有想到原因
4、點擊analysis——DNA polymorphism 計算核苷酸多態性
32.PNG
第二種方法使用IQ-tree
IQ-tree是用來構建最大似然樹(ML)的一款軟件,閱讀幫助文檔時發現IQ-tree也可以用來計算有效位點的數量,使用到的參數
iqtree -s example.phy -m JC -n 0 -alninfo
-s 指定輸入文件
-m 指定模型
-n 暫時不知道是什么作用 <#iterations> Fix number of iterations to stop (default: auto)
-alninfo 將統計結果輸出到 .alninfo 文件中 Print alignment site statistics to .alninfo file
31.PNG
結果和第一種方法也不太一樣
第三種方法使用在線程序https://indra.mullins.microbiol.washington.edu/DIVEIN/
這種方法和第二種輸出的結果是一致的