FAMSA多序列比對軟件

現代測序數據的發展使生物數據大量增加,大量包含數十萬條序列對序列比對算法造成巨大挑戰,FAMSA是一種新的漸進式算法,專為快速、準確地比對數千條蛋白序列而設計。

參數設置

1.1 下載安裝

git  clone https://github.com/refresh-bio/FAMSA # 克隆
cd  FAMSA #進入文件夾
make  # 編譯

1.2 案例測試

1.2.1 使用默認參數排列序列

./famsa ./test/adeno_fiber/adeno_fiber sl.aln

# adeno_fiber :為500條蛋白序列
# sl.aln:多序列比對后的對齊文件
# 經過測試 500條蛋白序列運行時間不到1秒

1.2.2 使用UPGMA模式輸出

# 使用 UPGMA 樹與 8 個計算線程對齊序列,將結果壓縮
./famsa -gt upgma -t 8 -gz ./test/adeno_fiber/adeno_fiber upgma.aln.gz

# -gt : the guide tree mode
# -t :線程數

有四個參數可以選擇:sl | upgma | nj | import
sl :single linkage (); upgma : UPGMA,暫時不知道什么含義
nj : 構建進化樹的一種方法;
import 文檔解釋為:導入一個樹格式的文件,不是很清楚

1.2.3 利用軟件構建了不能可視化的樹

./famsa -gt nj -gt_export ./test/adeno_fiber/adeno_fiber nj.dnd

# -gt_export 定義輸出文件為樹的形式
# .dnd文件格式為可視化樹的格式,但是閱讀文檔發現因為只是構建樹并沒有加入進化距離,所以無法用軟件可視化

1.2.4 輸入進化樹加快比對速度

./famsa -gt import nj.dnd ./test/adeno_fiber/adeno_fiber nj.aln
# import 導入構建好的樹文件

其他軟件的用法后續如果用到會進行補充!!!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容