「基因組注釋」MITE-Hunter鑒別基因組的MITE序列

背景篇

MITE屬于II類非自主轉(zhuǎn)座因子,并且在真核生物中存在大量的拷貝。 MITE長度大約是500bp,并且擴(kuò)增速度非常快。2013年一篇發(fā)表在NAR的文章"P-MITE: a database for plant miniature inverted-repeat transposable elements", 作者統(tǒng)計(jì)了各個(gè)物種中MITE的數(shù)目

MITE在不同物種的數(shù)目

目前主要有兩大家族,Stowaway和Tourist,分別來自于Tc1/Mariner和PIF/Harbinger超家族。一個(gè)典型MITE結(jié)構(gòu)如下:

MITE結(jié)構(gòu)

MITE-Hunter從基因組上搜索II類轉(zhuǎn)座因子,如MITE(miniature inverted repeat transposable elements),以及長度低于2kb的非自主轉(zhuǎn)座因子。MITE-Hunter的分析流程如下圖所示,主要分為五步:

  1. 根據(jù)MITE的結(jié)構(gòu)特征搜索候選的TE
  2. 通過配對(duì)序列聯(lián)配(Pairwise Sequence Alignment, PSA) 過濾假陽性
  3. 得到模板序列
  4. 基于多序列比對(duì)(Multiple Sequence Alignment, MSA)進(jìn)一步過濾假陽性,構(gòu)建一致性序列,并預(yù)測TSD
  5. 將一致性序列進(jìn)行分組,歸類到不同家族。
分析流程

注:

  • TIR: terminal inverted repeats 末端反向重復(fù)
  • TSD: target site duplication 靶點(diǎn)重復(fù)

安裝篇

安裝MITE-Hunter之前,先要安裝其他三個(gè)軟件:

http://target.iplantcollaborative.org/mite_hunter.html下載,進(jìn)入解壓后的文件夾中,運(yùn)行如下安裝命令

perl MITE_Hunter_Installer.pl \
  -d /opt/biosoft/MITE_Hunter/ \  #MITE_hunter解壓縮后的文件夾路徑
  -f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路徑
  -b /opt/biosoft/blast-2.29/blastall \ #blastall的路徑
  -m /opt/biosoft/mdust/mdust \ # mdust的路徑
  -M /opt/biosoft/muscle/muscle #muscle的路徑

使用篇

下面的操作中,假設(shè)你下載了擬南芥的基因組,并且命名為TAIR10.fa

MITE-Hunter只要求單個(gè)輸入文件,但是有很多參數(shù)需要調(diào)整。

perl MITE_Hunter_manager.pl \
  -i TAIR10.fa \
  -g thaliana \
  -n 5 \
  -S 12345678 \
  -P 1 &

參數(shù)說明:

核心的三個(gè)參數(shù):

  • -i 輸入的基因組序列
  • -P:使用多少比例的序列去搜索TE,對(duì)于700Mb以下的基因組用1. 參數(shù)可以設(shè)置為1/(實(shí)際基因組大小/700),例如人類基因組是3G, 那么就可以是0.25.
  • -g: 輸出文件名的前綴

其他參數(shù), 除了改改線程數(shù)以外,基本上都是無腦用作者的默認(rèn)參數(shù)。

  • -w: 最大能發(fā)現(xiàn)的TE長度,默認(rèn)是2000
  • -c: CPU數(shù), 默認(rèn)是5
  • -n: 最多有多少組,默認(rèn)5.
  • -d: 這個(gè)參數(shù)過濾低復(fù)雜度序列,例如"AAAAA...", "TATATATATA...", "GGGG..", 默認(rèn)是0.2,也就是預(yù)測TE序列要是超過20%。后續(xù)還有一個(gè) -p 參數(shù)和該參數(shù)一樣,不知道作者是怎么想的。
  • -f: MITE兩翼的序列長度(默認(rèn)60), 用于判斷TE是否為真。
  • -t: 最短TIR(terminal inverted repeat)的長度, 默認(rèn)10,用于尋找候選的TE
  • -M: TSD(the longest target site duplication)的長度,默認(rèn)10,用于尋找候選的TE
  • -l: TIR區(qū)域所允許的最大錯(cuò)配堿基數(shù), 默認(rèn)1.
  • -L: 默認(rèn)是 90, 表示兩個(gè)TE至少有 90 bp 相似的序列,才會(huì)被歸為一組
  • -I: 默認(rèn)是 80, 表示兩個(gè)TE要是 80% 以上的相似度就會(huì)被歸為一組。
  • -m: TE最多少要有多少拷貝數(shù),默認(rèn)是3.
  • -T: 作者不推薦你修改。參數(shù)默認(rèn)是"TA_"表示候選TE必須包含2bp即"TA"的TSD。
  • -C: 默認(rèn)0,表示MITE_Hunter會(huì)使用找到的TE的全部序列進(jìn)行搜索,尋找是否有其他拷貝,如果設(shè)置為1,則表示只用前后200bp去搜索。
  • -A: 默認(rèn)是90,表示如果TE中有超過90bp的低復(fù)雜度序列,則過濾。
  • -S: MITE-Hunter一共有8步,你可以用"12"先只運(yùn)行前2步,然后用"345678"運(yùn)行后續(xù)的幾步。
  • -F : 0 或1, 默認(rèn)MITE_hunter會(huì)自動(dòng)處理
  • -s: 沒有具體說明作用

輸出文件

MITE-Hunter的輸出文件包括分組后的一致性TE序列及其對(duì)應(yīng)多重聯(lián)配文件。其中以".aln.elite"結(jié)尾的文件便是多重序列聯(lián)配結(jié)果文件(MSA)。文件名中有"Step8_"的文件則包含TE一致性序列,每個(gè)文件都是一個(gè)TE家族,除了"Step_8.singlet"和"Step_8.paired". 前者里的TE在基因組上沒有相似的同源序列,后者是潛在的復(fù)合TE序列。

你還可以手動(dòng)檢查輸出結(jié)果,過濾一些假陽性。例如通過檢查MSA文件,根據(jù)能否確定TIR和TSD的位置判斷預(yù)測的TE是否真實(shí)存在

案例

以及將預(yù)測的TE在http://target.iplantcollaborative.org/進(jìn)行檢索,判斷一個(gè)TE是否是有多個(gè)其他TE組成。

覆蓋度一致,說明是單個(gè)TE
覆蓋度不一致,說明是復(fù)合TE

最后合格的序列,或者直接將輸出文件,Step8_*.fa” 和 “Step8_singlet.fa”候選的MITE序列,你可以將其命名為MITE.lib,用作后續(xù)的RepeatMasker輸入.

推薦閱讀

其他的一些MITE軟件: MITE Digger, RSPB

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容