細(xì)胞器基因注釋軟件簡介(一)

背景

? ??二代測序技術(shù)(NGS)的快速發(fā)展促使各種有機(jī)體的高通量測序數(shù)據(jù)的累積,特別是細(xì)胞器基因組。因此,為了應(yīng)對各種生物細(xì)胞器基因組的基因注釋,需要用于功能基因注釋的更優(yōu)化的工具。盡管目前存在多種注釋軟件,但由于研究的類群不同,注釋軟件的選擇會存在一些差異。這里將匯總大概介紹目前比較流行的注釋軟件,希望能對大家有幫助(其實(shí)是來回饋簡書大佬們各類干貨的分享)。

細(xì)胞器基因組包括質(zhì)體基因組(即葉綠體基因組)和線粒體基因組,動物細(xì)胞器基因組只有線粒體基因組。

葉綠體基因組具有高度保守四分體結(jié)果,由大單拷貝序列( Large Single copy Region,LSC)、小單拷貝區(qū)( Small Single copy Region,SSC)、反向重復(fù)區(qū)A和反向重復(fù)區(qū)B(Inverted Repeat Region,IR)組成。其中,IRA和IRB為兩個反向重復(fù)序列組成的。葉綠體基因組長度一般在為120-220 kb ,約編碼 110 ~ 130 個基因,其中編碼基因(Coding Sequence,CDS)一般約為80,30個tRNA,4個rRNA。其中CDS gene—rps12為跨界基因(外顯子部分在LSC,部分在2個IR內(nèi)),是葉綠體基因注釋中一個非常需要注意的基因。另外部分植物會存在基因組結(jié)果變異(如豆科IR缺少一個等)及基因的丟失與假基因化(如寄生植物)。

植物線粒體基因組由于大量重復(fù)序列的存在導(dǎo)致其基因組大小差異懸殊,222~983kb。基因組數(shù)據(jù)龐大、基因密度低、結(jié)構(gòu)復(fù)雜等原因使得植物線粒體基因組的研究不及質(zhì)體基因組。相對于植物線粒體而言,動物線粒體較為簡單且易于純化,僅有15~20 kb。但關(guān)于線粒體基因組注釋的軟件也不多,主要有針對植物線粒體基因組注釋: Mitofy,針對動物線粒體基因組注釋: DOGMA、GeSeq,以及可注釋幾乎真核生物所有的線粒體基因組:AGORA

干貨區(qū)

各類基因注釋軟件適用類群:

表1.基因注釋軟件適用范圍

AGORA Annotation

優(yōu)點(diǎn):

? ? ? ? 1. ? ? 可注釋幾乎真核生物所有葉綠體和線粒體基因組;

? ? ? ? 2. ? ?? 提供基因外顯子和內(nèi)含子的注釋;

? ? ? ? 3. ? ?? 提供每個基因起始子和終止子位置信息;

? ? ? ? 4. ? ?? 用戶可更改參考用于核基因和細(xì)菌基因組注釋;

? ? ? ?? 5. ? ?? 可生成GB格式(GeneBank);

? ? ? ?? 6. ? ? ? 網(wǎng)頁操作簡單、設(shè)置參數(shù)較少。

缺點(diǎn):

? ? ? ? ? 該軟件尚未用過,有待進(jìn)一步補(bǔ)充。

必調(diào)參數(shù):

query sequence(查詢序列)

reference sequences(參考序列)??????????? NCBI/自定義

genetic code (遺傳密碼)

count of maximum matched genes(最大匹配基因數(shù))???? 設(shè)為1,僅顯示匹配度最高的候選基因;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 大于1,可識別其它匹配基因和分析外顯子和內(nèi)含子。

網(wǎng)址:AGORA - Annotator for Genome of Organelle from the Reference sequences Analysis

工作流程圖(實(shí)線為氨基酸流程,虛線為核苷酸流程):

Fig. 1. Overview of the AGORA system. There are four steps for annotating genes. The solid line indicates the ?ow of amino acids and the dotted line indicates the ?ow of nucleotides. Each line produces results that are ?nally provided as outputs

優(yōu)點(diǎn):

? ? ? 1. ?? 反向Blast搜索的方法確定基因在葉綠體基因組上的位置,不依賴龐大的數(shù)據(jù)庫,顯著提高了注釋的速度,約一分鐘一個種;

? ? ?? 2. ?? 軟件包含新開發(fā)的基因和內(nèi)含子特征邊界檢測算法,極大提高了基因和內(nèi)含子邊界注釋的準(zhǔn)確性;

? ? ?? 3. ?? 作為一個本地注釋葉綠體基因組的命令行工具,可以運(yùn)行于任何配置Perl和Blast的計(jì)算機(jī)系統(tǒng)環(huán)境,同時可以自主選擇葉綠體基因組參考序列,大大提高了葉綠體基因組注釋的靈活性;

? ? ? ? 4. ? ?? 能生成日志文檔輔助用戶檢查注釋結(jié)果;

? ? ? ?? 5. ? ?? 可以批量注釋。

缺點(diǎn):

? ? ? ? ? 1. ? ? 無網(wǎng)頁版,需在命令端運(yùn)行;

? ? ? ? ?? 2. ?? 參考序列需要嚴(yán)格的GB格式;

? ? ? ? ?? 3. ?? 不能有太多參考序列,否則會產(chǎn)生沖突,一般兩個,;

? ? ? ? ?? 4. ? ?? 無法畫圖。

網(wǎng)址:GitHub - quxiaojian/PGA: Plastid Genome Annotator

具體操作流程和注意事項(xiàng):葉綠體基因組注釋軟件PGA使用說明 - 簡書

流程圖:

Fig. 2 PGA annotation flowchart. See text for detailed information on each step

CpGAVAS2 Annotation

優(yōu)點(diǎn):

? ? ? ? 1. ? ?? 注釋準(zhǔn)確率高,可以準(zhǔn)確注釋petB,petD、rps16基因(具小型外顯子:<10bp)和rps12基因(反式剪切基因);

? ? ? ? 2. ? ?? 注釋所有可能的基因;

? ? ? ? 3. ? ?? 支持使用3類參考數(shù)據(jù)集(RNA-seq data——the 43-plastome dataset,NCBI所有數(shù)據(jù)庫——2544-plastome dataset;用戶自定義參考序列集)

? ? ? ? 4. ? ?? 可以Summary repeats,并在基因組圖中顯示(結(jié)果如下圖所示);

? ? ? ?? 5. ? ?? 能生成日志文檔輔助用戶檢查注釋結(jié)果。


Fig. 3 CpGAVAS2的注釋結(jié)果

缺點(diǎn):

? ? ? ?? 1. ? ? 只能單個樣本注釋;

? ? ? ?? 2. ? ? 注釋速度慢,一般為半小時注釋一個基因組。

網(wǎng)址:http://www.herbalgenomics.org/cpgavas/

流程圖:

Figure 4. Overall CPGAVAS2 database architecture and analysis workflow.?


GeSeq Annotation

優(yōu)點(diǎn):

? ? ? 1. ? ? 存在畫圖功能(OGDRAW),畫圖好看;

? ? ? 2. ? ? 可以自主選擇是否提供自己的參照序列,有合適的參考序列即可注釋動物的線粒體基因組(該功能尚未被很好的驗(yàn)證);

? ? ? 3. ? ? 可批量注釋,可注釋100條以上序列;

? ? ? 4. ? ? 不僅能注釋整個葉綠體基因組或區(qū)域,也可以注釋Contigs;

? ? ? 5. ? ? 可提基因。

缺點(diǎn):

? ? ? 號稱可以注釋rps12 gene,但rps12 gene實(shí)際注釋效果不好。

網(wǎng)址:http://blog.sciencenet.cn/blog-3406804-1192085.html

流程圖:

Figure 5. GeSeq annotation pipeline.?

最后,無論注釋軟件初步注釋多么精確,始終需要手動注釋進(jìn)行校正,以確保注釋的正確性。因此,初步注釋的結(jié)果需導(dǎo)入其他工具進(jìn)行基因校正。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,001評論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,786評論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,986評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,204評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,964評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,354評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,410評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,554評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,106評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,918評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,093評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,648評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,342評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,755評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,009評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,839評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,107評論 2 375

推薦閱讀更多精彩內(nèi)容