現代測序數據的發展使生物數據大量增加,大量包含數十萬條序列對序列比對算法造成巨大挑戰,FAMSA是一種新的漸進式算法,專為快速、準確地比對數千條蛋白序列而設計。
參數設置
1.1 下載安裝
git clone https://github.com/refresh-bio/FAMSA # 克隆
cd FAMSA #進入文件夾
make # 編譯
1.2 案例測試
1.2.1 使用默認參數排列序列
./famsa ./test/adeno_fiber/adeno_fiber sl.aln
# adeno_fiber :為500條蛋白序列
# sl.aln:多序列比對后的對齊文件
# 經過測試 500條蛋白序列運行時間不到1秒
1.2.2 使用UPGMA模式輸出
# 使用 UPGMA 樹與 8 個計算線程對齊序列,將結果壓縮
./famsa -gt upgma -t 8 -gz ./test/adeno_fiber/adeno_fiber upgma.aln.gz
# -gt : the guide tree mode
# -t :線程數
有四個參數可以選擇:sl | upgma | nj | import
sl :single linkage (); upgma : UPGMA,暫時不知道什么含義
nj : 構建進化樹的一種方法;
import 文檔解釋為:導入一個樹格式的文件,不是很清楚
1.2.3 利用軟件構建了不能可視化的樹
./famsa -gt nj -gt_export ./test/adeno_fiber/adeno_fiber nj.dnd
# -gt_export 定義輸出文件為樹的形式
# .dnd文件格式為可視化樹的格式,但是閱讀文檔發現因為只是構建樹并沒有加入進化距離,所以無法用軟件可視化
1.2.4 輸入進化樹加快比對速度
./famsa -gt import nj.dnd ./test/adeno_fiber/adeno_fiber nj.aln
# import 導入構建好的樹文件
其他軟件的用法后續如果用到會進行補充!!!