轉座子
??轉座子(transposable element):或稱跳躍基因,是一種可以改變其在基因組中位置的DNA序列,有時會產生或逆轉突變,改變細胞的遺傳特性和基因組大小。
??轉座子按照轉座方式的不同,可分為兩大類:I型轉座子(Class I elements),II型轉座子(Class II elements)。
??I型轉座子又叫反轉座子(retrotransposon),其在轉座時,會先以DNA為模板,在RNA聚合酶II的作用下,轉錄成一段mRNA,然后再以這段mRNA為模板反轉錄成cDNA,最后在整合酶的作用下將這段cDNA整合到基因組上新的位置。根據反轉座子轉座機制,人們形象地稱其為“復制-粘貼”型轉座原件。
??II型轉座子也叫做轉座子(transposon),在轉座酶的作用下,II型轉座子從原來的位置解離下來,再重新整合到染色體上的其他位置,原來的位置由于轉座子解離形成的斷鏈,會在DNA修復的機制下被修復完整。故II型轉座子轉座的機制被形象地稱為“剪切-粘貼”。
??根據參考文獻對轉座子的分類,總結如下:
TEtranscripts
??轉座子其實屬于重復序列中的一個特殊類別,由于重復序列的研究起來比較復雜,所以一直以來研究這方面的人并不多。今天我們就來說一說如何分析差異轉座子,其實從本質上看與分析差異基因表達類似,把轉座子當成基因,然后統計reads,最后利用差異軟件如DESeq2做差異分析。只不過,目前市面上好多軟件都是為統計基因表達值而設計的,并不適合用來分析轉座子。因為轉座子具有重復序列,所以序列間相似性很高,所以比對到該區域的reads有很多是mutil-alignments,也就是說同一條read會有好多個比對到的地方。這樣的話,如果簡單的統計reads,勢必會造成偏差,因為好多read被重復計數。當然也可以只用unique-alignments的reads,但這樣肯定會丟失很多信息。所以為了更準確地分析轉座子的差異,有人就開發相應的軟件 — TEtranscripts
。該軟件在定量時,考慮了比對到轉座子區域的reads數目(給予每一條mutil-alignments的reads一個權重),轉座子的長度,fragment長度等信息,使用Expectation maximization
方法確定reads具體屬于哪一個轉座子。盡管本人也不是很明白軟件的具體算法,但通過文獻中的描述可以感覺到該方法還是比較科學靠譜的。
??從上面的流程圖,可以看出該軟需要三種輸入文件,樣本bam、基因組gtf、轉座子gtf,包含兩個子命令TEtranscripts
、TEcount
,前一個命令會輸出表達值和差異結果,后一個只是統計表達值。統計reads的時候,軟件有兩種模式可選分別為multi
、uniq
,默認是multi
。如果選擇uniq
模式,mutil-alignments的reads就會被丟棄不用于計數。一般選擇默認情況更好。該軟件由python編寫,安裝和使用都很方便:
#安裝
git clone https://github.com/mhammell-laboratory/TEtranscripts
cd TEtranscripts
python setup.py install --user
# 差異分析
TEtranscripts --mode multi \
-t case1.bam case2.csort.bam case3.bam \
-c ctrl1.bam ctrl2.bam ctrl3.csort.bam \
--foldchange 1 \
--GTF hg38_gene.gtf \
--TE hg38_rmsk.gtf \
--project transposon \
--sortByPos
??從上面的命令可以看出,使用起來確實很簡單,里面的參數也很容易理解,這里就不一一解釋了。程序正常結束后會在目錄中生成如下文件:
result
├── transposon.cntTable # count矩陣
├── transposon_DESeq2.R # 差異R腳本
├── transposon_gene_TE_analysis.txt # 總的差異結果
└── transposon_sigdiff_gene_TE.txt # 顯著性的差異結果
??差異的結果跟直接用R包分析的結果一樣,差異分析方法默認使用的是DESeq2
。如果對差異的閾值不滿意,可以直接修改差異分析腳本文件 (如這里的transposon_DESeq2.R
) 來生成想要的結果。
結束語
??重復序列作為基因組中復雜且基本沒有被開發的區域,也在慢慢進入更多研究者的視野,未來也許人們會在這個類似荒漠的地方發現新的綠洲。哦了,今天的分享到此結束了~~~
參考資料
- http://www.lxweimin.com/p/9191633017a1
- https://blog.sciencenet.cn/blog-1509670-1205415.html
- 《TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets》
- 《Transposable Elements: Classification, Identification, and Their Use As a Tool For Comparative Genomics》