背景篇
MITE屬于II類非自主轉(zhuǎn)座因子,并且在真核生物中存在大量的拷貝。 MITE長度大約是500bp,并且擴(kuò)增速度非常快。2013年一篇發(fā)表在NAR的文章"P-MITE: a database for plant miniature inverted-repeat transposable elements", 作者統(tǒng)計(jì)了各個(gè)物種中MITE的數(shù)目
目前主要有兩大家族,Stowaway和Tourist,分別來自于Tc1/Mariner和PIF/Harbinger超家族。一個(gè)典型MITE結(jié)構(gòu)如下:
MITE-Hunter從基因組上搜索II類轉(zhuǎn)座因子,如MITE(miniature inverted repeat transposable elements),以及長度低于2kb的非自主轉(zhuǎn)座因子。MITE-Hunter的分析流程如下圖所示,主要分為五步:
- 根據(jù)MITE的結(jié)構(gòu)特征搜索候選的TE
- 通過配對(duì)序列聯(lián)配(Pairwise Sequence Alignment, PSA) 過濾假陽性
- 得到模板序列
- 基于多序列比對(duì)(Multiple Sequence Alignment, MSA)進(jìn)一步過濾假陽性,構(gòu)建一致性序列,并預(yù)測TSD
- 將一致性序列進(jìn)行分組,歸類到不同家族。
注:
- TIR: terminal inverted repeats 末端反向重復(fù)
- TSD: target site duplication 靶點(diǎn)重復(fù)
安裝篇
安裝MITE-Hunter之前,先要安裝其他三個(gè)軟件:
- NCBI BLAST: 下載鏈接為https://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.9/,注意選擇平臺(tái)
- Muscle: 下載地址為http://www.drive5.com/muscle/downloads.htm
- mDust: 下載地址為https://github.com/lh3/mdust
從http://target.iplantcollaborative.org/mite_hunter.html下載,進(jìn)入解壓后的文件夾中,運(yùn)行如下安裝命令
perl MITE_Hunter_Installer.pl \
-d /opt/biosoft/MITE_Hunter/ \ #MITE_hunter解壓縮后的文件夾路徑
-f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路徑
-b /opt/biosoft/blast-2.29/blastall \ #blastall的路徑
-m /opt/biosoft/mdust/mdust \ # mdust的路徑
-M /opt/biosoft/muscle/muscle #muscle的路徑
使用篇
下面的操作中,假設(shè)你下載了擬南芥的基因組,并且命名為TAIR10.fa
MITE-Hunter只要求單個(gè)輸入文件,但是有很多參數(shù)需要調(diào)整。
perl MITE_Hunter_manager.pl \
-i TAIR10.fa \
-g thaliana \
-n 5 \
-S 12345678 \
-P 1 &
參數(shù)說明:
核心的三個(gè)參數(shù):
- -i 輸入的基因組序列
- -P:使用多少比例的序列去搜索TE,對(duì)于700Mb以下的基因組用1. 參數(shù)可以設(shè)置為1/(實(shí)際基因組大小/700),例如人類基因組是3G, 那么就可以是0.25.
- -g: 輸出文件名的前綴
其他參數(shù), 除了改改線程數(shù)以外,基本上都是無腦用作者的默認(rèn)參數(shù)。
- -w: 最大能發(fā)現(xiàn)的TE長度,默認(rèn)是2000
- -c: CPU數(shù), 默認(rèn)是5
- -n: 最多有多少組,默認(rèn)5.
- -d: 這個(gè)參數(shù)過濾低復(fù)雜度序列,例如"AAAAA...", "TATATATATA...", "GGGG..", 默認(rèn)是0.2,也就是預(yù)測TE序列要是超過20%。后續(xù)還有一個(gè) -p 參數(shù)和該參數(shù)一樣,不知道作者是怎么想的。
- -f: MITE兩翼的序列長度(默認(rèn)60), 用于判斷TE是否為真。
- -t: 最短TIR(terminal inverted repeat)的長度, 默認(rèn)10,用于尋找候選的TE
- -M: TSD(the longest target site duplication)的長度,默認(rèn)10,用于尋找候選的TE
- -l: TIR區(qū)域所允許的最大錯(cuò)配堿基數(shù), 默認(rèn)1.
- -L: 默認(rèn)是 90, 表示兩個(gè)TE至少有 90 bp 相似的序列,才會(huì)被歸為一組
- -I: 默認(rèn)是 80, 表示兩個(gè)TE要是 80% 以上的相似度就會(huì)被歸為一組。
- -m: TE最多少要有多少拷貝數(shù),默認(rèn)是3.
- -T: 作者不推薦你修改。參數(shù)默認(rèn)是"TA_"表示候選TE必須包含2bp即"TA"的TSD。
- -C: 默認(rèn)0,表示MITE_Hunter會(huì)使用找到的TE的全部序列進(jìn)行搜索,尋找是否有其他拷貝,如果設(shè)置為1,則表示只用前后200bp去搜索。
- -A: 默認(rèn)是90,表示如果TE中有超過90bp的低復(fù)雜度序列,則過濾。
- -S: MITE-Hunter一共有8步,你可以用"12"先只運(yùn)行前2步,然后用"345678"運(yùn)行后續(xù)的幾步。
- -F : 0 或1, 默認(rèn)MITE_hunter會(huì)自動(dòng)處理
- -s: 沒有具體說明作用
輸出文件
MITE-Hunter
的輸出文件包括分組后的一致性TE序列及其對(duì)應(yīng)多重聯(lián)配文件。其中以".aln.elite"結(jié)尾的文件便是多重序列聯(lián)配結(jié)果文件(MSA)。文件名中有"Step8_"的文件則包含TE一致性序列,每個(gè)文件都是一個(gè)TE家族,除了"Step_8.singlet"和"Step_8.paired". 前者里的TE在基因組上沒有相似的同源序列,后者是潛在的復(fù)合TE序列。
你還可以手動(dòng)檢查輸出結(jié)果,過濾一些假陽性。例如通過檢查MSA文件,根據(jù)能否確定TIR和TSD的位置判斷預(yù)測的TE是否真實(shí)存在
以及將預(yù)測的TE在http://target.iplantcollaborative.org/進(jìn)行檢索,判斷一個(gè)TE是否是有多個(gè)其他TE組成。
最后合格的序列,或者直接將輸出文件,Step8_*.fa” 和 “Step8_singlet.fa”候選的MITE序列,你可以將其命名為MITE.lib,用作后續(xù)的RepeatMasker輸入.
推薦閱讀
- MITE-Hunter: a program for discovering miniature inverted-repeat transposable elements from genomic sequences
- MITE-Hunter_manual
- P-MITE: a database for plant miniature inverted-repeat transposable elements
其他的一些MITE軟件: MITE Digger, RSPB