你可能不知道的基因組注釋文件冷知識

寫在前面的廢話

注釋文件的格式已經被各種教程講爛了,那我肯定不能這么俗套。所以咱們今天只談風花雪月,不講具體格式……

搞NGS,注釋文件是我們經常需要用到的。但是不同的實驗室偏愛的數據庫各不相同,甚至同一個課題組的小伙伴都會選擇不同來源的數據庫。那么不同來源的數據庫是否有什么不同呢?如何選擇更適合我們研究的注釋呢?


image.png

太長不看系列

  • 主流的基因注釋版本有三種:RefSeq/Ensemble/UCSC
  • Refseq=NCBI;Ensemble=Gencode
  • Ensemble注釋更全面,Refseq適合那些不那么復雜的注釋

廢話超多系列

首先,我們要知道Refseq是由美國NCBI搞出來的,而ENSEMBL則是由歐洲EMBL-EBI搞出來的,所以這倆不是一回事,甚至可以說差別有點大。

那么差別在哪呢?咱從Gencode說起……


image.png

Gencode

咱先給官方的介紹一下:
GENCODE項目的目標是基于生物學證據高精度地識別和分類人類和小鼠基因組中的所有基因特征,并發布這些注釋以利于生物醫學研究和基因組解釋

怎么樣?夠官方吧……畢竟我是直接把官網的介紹翻譯過來的

接下來,說點接地氣的。Gencode的注釋來源于兩部分。分別是Ensembl-Havana團隊生成的手動基因注釋和Ensembl-genebuild的自動基因注釋。當我們使用Ensembl genome browser時,默認的基因注釋就是Gencode annotation。

這里值得一提的是,在gencode中標識HAVANA來源的,這表示它是人工注釋的。但是這些注釋也有可能是由于Havana手動注釋和Ensembl自動注釋合并的結果
而如果標識的是ENSEMBL,則表明這條注釋是由的確是Ensemble自動注釋得到的

實際上,GENCODE注釋與Ensembl注釋基本相同……此處劃重點,是基本,但不是全部~那么有那些不同呢?

  1. X/Y染色體上PAR區域的注釋:該區域的注釋在Gencode中X染色體和Y染色體各注釋一次,而在Ensembl文件中,只在X染色體進行了注釋

    PAR region(Pseudoautosomal region):該區域是X和Y染色體的同源序列,因為這上面的任何基因可以和常染色體基因一樣正常遺傳而得名

  2. Gencode的第九列,也就是attribute那一列,有一些其他額外的tags,這些tags是Ensebl所沒有的

所以說gencode的基因組注釋基本上和Ensemble是一樣的。

Gencode與Refseq

gencode的注釋,我們最常用的是Comprehensive 版本,這個版本有一個特點,那就是全。這個版本與Refseq相比,轉錄本注釋有著更多更全的外顯子,對基因組的覆蓋范圍更廣,能夠幫助我們發現更多的突變。

當然了,有Comprehensive版本,那一定有basic版本,就是下面這個了。這個版本與Refseq相比,相似性更高,沒有什么所特有的features。


image.png

說了這么多,你可能要問了,不同來源的注釋文件是否可以相互轉換?那我只能很遺憾的告訴你:不能。雖然從整體上來看,這兩個來源的注釋信息大體上是相同的(如果只看某一些基因還是可以發現不同指出),但是這兩個來源的注釋都有不同的版本,而這些不同的版本很難一一對應。

不過,雖說注釋信息不可以相互轉換,但是Refseq ID和ENSEMBL(Gencode) ID是可以相互轉換的。我們可以使用在線工具http://www.ensembl.org/biomart/martview ,也可以使用Biocundutor包調用API,比如biomaRT

UCSC注釋

對不起,我沒有用過,所以我不能誤人子弟,就不多說了。

主要是下載太麻煩,需要各種按鈕選擇,讓我很頭疼

如何選擇適合自己的注釋文件?

首先我們需要知道,沒有任何一個注釋文件是完美的,總會有一些小的瑕疵。可能一些基因的注釋不是很精確,甚至有可能全部都是錯的……

如果我們想要做一些可重復度高的,或者對基因表達水平進行估計的時候,我們因=應該選擇那些不那么復雜的基因注釋,比如Refseq。當我們想要做一些探索性研究的時候,比如可變剪切之類的,我們可以選擇比較復雜的基因注釋,比如Ensembl

source: Wu P-Y, Phan JH, Wang MD. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 2013;14(Suppl 11):S8. doi: 10.1186/1471-2105-14-S11-S8.

一點題外話

不要覺得注釋文件不重要!!!看看人家,比較了注釋文件,就發了一篇sci,引用量還不低……


image.png
參考資料
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容