利用LTR_retriever整合LTR數(shù)據(jù)集

下載地址

一:安裝

  1. 可以conda安裝或自己手動(dòng)安裝
$conda create -n LTR_retriever
$conda activate LTR_retriever
$conda install -y -c conda-forge perl perl-text-soundex
$conda install -y -c bioconda cd-hit repeatmasker
$git clone https://github.com/oushujun/LTR_retriever.git
$./LTR_retriever/LTR_retriever -h
  1. 除此之外還需要安幾個(gè)依賴的軟件
1. makeblastdb, blastn, and blastx in the BLAST+ package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)
2. cd-hit-est in the CDHIT package (http://weizhongli-lab.org/cd-hit/) OR blastclust in the BLAST package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy/2.2.25/)
3. hmmsearch in the HMMER package (http://hmmer.org/; v3.1b2 or higher)
4. RepeatMasker (http://www.repeatmasker.org/)

其中安裝RepeatMasker需要一個(gè)Dfam.hmm以及RepBase RepeatMasker Edition,可以在這下載:

RepBase RepeatMasker Edition: https://pan.baidu.com/s/1c2zSMKo
Dfam.hmm:                     https://www.dfam.org/releases/Dfam_3.1/families/Dfam.embl.gz

RepeatMasker比較常用的參數(shù)如下:

-e: 搜索引擎,默認(rèn)都選擇ncbi
-pa: 并行計(jì)算,多線程
-s, -q, -qq: 搜索速度,速度和敏感度成反比
-lib: 自定義重復(fù)數(shù)據(jù)庫
-species: 指定物種,例如human, mouse, arabidopsis
-gff: 額外輸出GFF文件
  1. 開始安裝
$perl ./configure

然后修改LTR_retriever的'paths'文件:

$vim /your_path_to/LTR_retriever/paths

修改:

BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided
BLAST+=/data1/spider/ytbiosoft/soft/ncbi-blast-2.8.1+/bin/
RepeatMasker=/data1/spider/ytbiosoft/soft/RepeatMasker-master
HMMER=/data1/spider/ytbiosoft/soft/hmmer/hmmer-3.2.1/src
CDHIT=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/cd-hit
BLAST=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/

二:數(shù)據(jù)輸入

數(shù)據(jù)有如下兩個(gè):

  • Genomic sequence
  • LTR-RT candidates(可以接受多個(gè)LTR輸入,包括 LTRharvest以及 LTR_FINDER等的輸出結(jié)果:2個(gè)足以)
    兩個(gè)軟件的下載地址:
LTR_Finder:https://github.com/xzhub/LTR_Finder.git
LTRharvest:http://genometools.org/
  1. LTRharvest


    LTRharvest
$gt suffixerator \ 
-db $REFERENCE \ 
-indexname $SPECIES \ 
-tis -suf -lcp -des -ssp -sds -dna
 
$gt ltrharvest \ 
-index $SPECIES \ 
-similar 90 -vic 10 -seed 20 -seqids yes \ 
-minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \ 
-motif TGCA -motifmis 1 > $SPECIES.harvest.scn &
  1. LTR_Finder
$tar -zxvf  LTR_Finder.tar.gz
$cd source && make
$ltr-finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 $REFERENCE > $SPECIES.finder.scn &

三.運(yùn)行程序(支持一個(gè)輸入或者多個(gè)輸入)

一個(gè)輸入

$LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn

多個(gè)輸入

$LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn -infinder $SPECIES.finder.scn -threads 20

輸出為$REFERENCE.LTRlib.fa,重命名為L(zhǎng)TR.lib,作為后續(xù)repeatmasker屏蔽重復(fù)時(shí)的輸入文件。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容