LTR_retriever: 一個(gè)更加準(zhǔn)的LTR整合分析工具

背景篇

在植物基因組中,I類轉(zhuǎn)座因子,LTR-RT(LTR retrotransposons)是基因組擴(kuò)張的主要原因。完整的LTR長度在85~5000 bp之間,下圖圖A表示的是一個(gè)完整的LTR-RT,灰色框表示TSD(target site duplications), 紅色三角形表示LTR motif(長度在2bp左右), 藍(lán)色框表示LTR。LTR中間序列長度在1,000~15,000之間波動(dòng)。

LTR-RT結(jié)構(gòu)

完整的LTR-RT主要?dú)w為兩大類: Gypsy和Copia。如果LTR中間的序列不包含開放閱讀框(ORF), 那么所屬的LTR-RT就無法獨(dú)立的轉(zhuǎn)座。

安裝篇

LTR_retriever不是一個(gè)獨(dú)立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果,過濾其中的假陽性LTR-RT,得到高質(zhì)量的LTR-RT庫。

先下載LTR_retriever本體

git clone https://github.com/oushujun/LTR_retriever.git

之后修改LTR_retriever下的paths, 提供BLAST+, RepeatMasker, HMMER, CDHIT這些工具的路徑。

BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided

更加方便的安裝方法用Bioconda安裝好cd-hit repeatmasker, 然后下載LTR_retriever:

conda create -n LTR_retriever
source activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit
conda install -c bioconda/label/cf201901 repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h

此外你還需要額外安裝LTRharvest, LTR_FINDERMGEScan_LTR

由于MGEScan_LTR裝起來比我想象中麻煩,所以本文就僅使用LTRharverst和LTR_FINDER

使用篇

盡管LTR_retriever支持多個(gè)LTR工具的輸入,但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。

以擬南芥的基因組序列為例,分別使用LTRharverst和LTR_FINDER來尋找擬南芥中潛在LTR序列,之后用LTR_retreiver來合并結(jié)果。

#LTRharvest
gt suffixerator \
  -db TAIR10.fa \
  -indexname TAIR10 \
  -tis -suf -lcp -des -ssp -sds -dna
gt ltrharvest \
  -index TAIR10 \
  -similar 90 -vic 10 -seed 20 -seqids yes \
  -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
  -motif TGCA -motifmis 1  > TAIR10.harvest.scn &
# LTR_FINDER
ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 TAIR10.fa > TAIR10.finder.scn &

LTR_retriever支持單個(gè)候選的LTR,

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn

也支持多個(gè)候選LTR輸入

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn -infinder TAIR10.finder.scn -threads 20

輸出文件如下

運(yùn)行結(jié)果

其他測(cè)試

LAI值是作者提出用于衡量基因組完整度參數(shù)。比較2個(gè)LTR輸入和1個(gè)LTR輸入的LAI值,后者是15.62,前者是14.47,這也意味這個(gè)值其實(shí)是受到輸入的候選LTR數(shù)目影響,但最終結(jié)果應(yīng)該穩(wěn)定在一個(gè)閾值內(nèi)。

我測(cè)試了多個(gè)物種在兩種軟件下找到的LTR,以及最終pass留下的LTR, 發(fā)現(xiàn)最終能夠pass,數(shù)量都相對(duì)較少。同時(shí)限速步驟就是LTR_finder 和 LTRharvest。

物種 基因組大小 LTR_finder LTRharvest Pass LAI 測(cè)序技術(shù)
A. lyrata 206M 1456 1017 1044 20.39 Sanger
A. thaliana (TAIR10) 120 M 207 550 184 15.62 Sanger
B. rapa (2.5) 391M 1251 3182 520 0 PacBio + 二代20Kb 40Kb文庫
B. rapa (3.0) 353 M 3515 3635 1968 7.16 PacBio + BioNano + Hi-C
C.rubella 135 M 643 600 144 10.96 454 + Sanger
A. alpina 336 M 3840 3107 2556 11.01 PacBio + BioNano + Hi-C
某物種A 454 M 5384 2789 4294 17.89 PacBio

還有一個(gè)有趣的現(xiàn)象,B. rapa 3.0版本盡管是最近用三代加Hi-C組裝的基因,但是以LAI的標(biāo)準(zhǔn),只能算是Draft級(jí)別, 當(dāng)然也比2.5版本好出不少。

當(dāng)然作者也對(duì)很多物種的多個(gè)版本組裝進(jìn)行了比較,下圖來自于 Assessing genome assembly quality using the LTR Assembly Index (LAI)

基因組評(píng)估

如果使用該軟件記得引用下面兩篇文獻(xiàn)

  • LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons
  • Assessing genome assembly quality using the LTR Assembly Index (LAI)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容