分箱結(jié)果可以使用 checkM 檢查完整性和污染度。
checkM
基于數(shù)據(jù)庫中構(gòu)建好的單拷貝基因集和進(jìn)化樹,將bin定位到進(jìn)化樹中找到參考物種,基于譜系特異的marker gene(單拷貝),進(jìn)行完整性和污染度進(jìn)行評(píng)估。
- 數(shù)據(jù)準(zhǔn)備:上一步的分箱結(jié)果
參考腳本
# 運(yùn)行checkM
checkm lineage_wf \
--threads 5 \ # 線程
--tmpdir ./ \ # tmp目錄路徑
--extension fa \ # 序列文件后綴
bins \ # 輸入,分箱結(jié)果目錄
checkm \ # 輸出目錄
> checkM.sh.log 2>&1 # 存儲(chǔ)日志
分箱結(jié)果去冗余
計(jì)算資源充足的情況下,可以將所有測序數(shù)據(jù)一起進(jìn)行組裝,然后分箱。但實(shí)際操作中,由于內(nèi)存限制,一般會(huì)分樣品或者將生物學(xué)重復(fù)放在一起進(jìn)行拼接。這樣就會(huì)存在多個(gè)組裝和分箱結(jié)果,需要對(duì)其中重復(fù)的 bin去冗余。這個(gè)操作可以使用 dRep 實(shí)現(xiàn)。
# 將所有分箱fasta文件存放在bin目錄下
# 運(yùn)行dRep去冗余
dereplicate out_dRep \ # 最小基因組長度,默認(rèn)50k
--length 50000 \
-comp 75 -con 25 \ #最小的基因組完整度,默認(rèn)75,最大的基因組污染率,默認(rèn)25
-g ./bins/*.fasta