TEtranscripts:轉座子元件差異表達

轉座子

??轉座子(transposable element):或稱跳躍基因,是一種可以改變其在基因組中位置的DNA序列,有時會產生或逆轉突變,改變細胞的遺傳特性和基因組大小。
??轉座子按照轉座方式的不同,可分為兩大類:I型轉座子(Class I elements),II型轉座子(Class II elements)。
??I型轉座子又叫反轉座子(retrotransposon),其在轉座時,會先以DNA為模板,在RNA聚合酶II的作用下,轉錄成一段mRNA,然后再以這段mRNA為模板反轉錄成cDNA,最后在整合酶的作用下將這段cDNA整合到基因組上新的位置。根據反轉座子轉座機制,人們形象地稱其為“復制-粘貼”型轉座原件。
??II型轉座子也叫做轉座子(transposon),在轉座酶的作用下,II型轉座子從原來的位置解離下來,再重新整合到染色體上的其他位置,原來的位置由于轉座子解離形成的斷鏈,會在DNA修復的機制下被修復完整。故II型轉座子轉座的機制被形象地稱為“剪切-粘貼”。
??根據參考文獻對轉座子的分類,總結如下:

TEtranscripts

??轉座子其實屬于重復序列中的一個特殊類別,由于重復序列的研究起來比較復雜,所以一直以來研究這方面的人并不多。今天我們就來說一說如何分析差異轉座子,其實從本質上看與分析差異基因表達類似,把轉座子當成基因,然后統計reads,最后利用差異軟件如DESeq2做差異分析。只不過,目前市面上好多軟件都是為統計基因表達值而設計的,并不適合用來分析轉座子。因為轉座子具有重復序列,所以序列間相似性很高,所以比對到該區域的reads有很多是mutil-alignments,也就是說同一條read會有好多個比對到的地方。這樣的話,如果簡單的統計reads,勢必會造成偏差,因為好多read被重復計數。當然也可以只用unique-alignments的reads,但這樣肯定會丟失很多信息。所以為了更準確地分析轉座子的差異,有人就開發相應的軟件 — TEtranscripts。該軟件在定量時,考慮了比對到轉座子區域的reads數目(給予每一條mutil-alignments的reads一個權重),轉座子的長度,fragment長度等信息,使用Expectation maximization方法確定reads具體屬于哪一個轉座子。盡管本人也不是很明白軟件的具體算法,但通過文獻中的描述可以感覺到該方法還是比較科學靠譜的。

??從上面的流程圖,可以看出該軟需要三種輸入文件,樣本bam、基因組gtf、轉座子gtf,包含兩個子命令TEtranscriptsTEcount,前一個命令會輸出表達值和差異結果,后一個只是統計表達值。統計reads的時候,軟件有兩種模式可選分別為multiuniq,默認是multi。如果選擇uniq模式,mutil-alignments的reads就會被丟棄不用于計數。一般選擇默認情況更好。該軟件由python編寫,安裝和使用都很方便:

#安裝
git clone https://github.com/mhammell-laboratory/TEtranscripts
cd TEtranscripts
python setup.py install --user

# 差異分析
TEtranscripts --mode multi \
              -t case1.bam case2.csort.bam case3.bam \
              -c ctrl1.bam ctrl2.bam ctrl3.csort.bam \
              --foldchange 1 \
              --GTF hg38_gene.gtf \
              --TE hg38_rmsk.gtf \
              --project transposon \
              --sortByPos

??從上面的命令可以看出,使用起來確實很簡單,里面的參數也很容易理解,這里就不一一解釋了。程序正常結束后會在目錄中生成如下文件:

result
├── transposon.cntTable                   # count矩陣
├── transposon_DESeq2.R                   # 差異R腳本   
├── transposon_gene_TE_analysis.txt       # 總的差異結果
└── transposon_sigdiff_gene_TE.txt        # 顯著性的差異結果    

??差異的結果跟直接用R包分析的結果一樣,差異分析方法默認使用的是DESeq2。如果對差異的閾值不滿意,可以直接修改差異分析腳本文件 (如這里的transposon_DESeq2.R) 來生成想要的結果。

結束語

??重復序列作為基因組中復雜且基本沒有被開發的區域,也在慢慢進入更多研究者的視野,未來也許人們會在這個類似荒漠的地方發現新的綠洲。哦了,今天的分享到此結束了~~~

參考資料

  1. http://www.lxweimin.com/p/9191633017a1
  2. https://blog.sciencenet.cn/blog-1509670-1205415.html
  3. 《TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets》
  4. 《Transposable Elements: Classification, Identification, and Their Use As a Tool For Comparative Genomics》
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容