背景
? ??二代測序技術(shù)(NGS)的快速發(fā)展促使各種有機(jī)體的高通量測序數(shù)據(jù)的累積,特別是細(xì)胞器基因組。因此,為了應(yīng)對各種生物細(xì)胞器基因組的基因注釋,需要用于功能基因注釋的更優(yōu)化的工具。盡管目前存在多種注釋軟件,但由于研究的類群不同,注釋軟件的選擇會存在一些差異。這里將匯總大概介紹目前比較流行的注釋軟件,希望能對大家有幫助(其實(shí)是來回饋簡書大佬們各類干貨的分享)。
細(xì)胞器基因組包括質(zhì)體基因組(即葉綠體基因組)和線粒體基因組,動物細(xì)胞器基因組只有線粒體基因組。
葉綠體基因組具有高度保守四分體結(jié)果,由大單拷貝序列( Large Single copy Region,LSC)、小單拷貝區(qū)( Small Single copy Region,SSC)、反向重復(fù)區(qū)A和反向重復(fù)區(qū)B(Inverted Repeat Region,IR)組成。其中,IRA和IRB為兩個反向重復(fù)序列組成的。葉綠體基因組長度一般在為120-220 kb ,約編碼 110 ~ 130 個基因,其中編碼基因(Coding Sequence,CDS)一般約為80,30個tRNA,4個rRNA。其中CDS gene—rps12為跨界基因(外顯子部分在LSC,部分在2個IR內(nèi)),是葉綠體基因注釋中一個非常需要注意的基因。另外部分植物會存在基因組結(jié)果變異(如豆科IR缺少一個等)及基因的丟失與假基因化(如寄生植物)。
植物線粒體基因組由于大量重復(fù)序列的存在導(dǎo)致其基因組大小差異懸殊,222~983kb。基因組數(shù)據(jù)龐大、基因密度低、結(jié)構(gòu)復(fù)雜等原因使得植物線粒體基因組的研究不及質(zhì)體基因組。相對于植物線粒體而言,動物線粒體較為簡單且易于純化,僅有15~20 kb。但關(guān)于線粒體基因組注釋的軟件也不多,主要有針對植物線粒體基因組注釋: Mitofy,針對動物線粒體基因組注釋: DOGMA、GeSeq,以及可注釋幾乎真核生物所有的線粒體基因組:AGORA。
干貨區(qū)
各類基因注釋軟件適用類群:
AGORA Annotation
優(yōu)點(diǎn):
? ? ? ? 1. ? ? 可注釋幾乎真核生物所有葉綠體和線粒體基因組;
? ? ? ? 2. ? ?? 提供基因外顯子和內(nèi)含子的注釋;
? ? ? ? 3. ? ?? 提供每個基因起始子和終止子位置信息;
? ? ? ? 4. ? ?? 用戶可更改參考用于核基因和細(xì)菌基因組注釋;
? ? ? ?? 5. ? ?? 可生成GB格式(GeneBank);
? ? ? ?? 6. ? ? ? 網(wǎng)頁操作簡單、設(shè)置參數(shù)較少。
缺點(diǎn):
? ? ? ? ? 該軟件尚未用過,有待進(jìn)一步補(bǔ)充。
必調(diào)參數(shù):
query sequence(查詢序列)
reference sequences(參考序列)??????????? NCBI/自定義
genetic code (遺傳密碼)
count of maximum matched genes(最大匹配基因數(shù))???? 設(shè)為1,僅顯示匹配度最高的候選基因;
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 大于1,可識別其它匹配基因和分析外顯子和內(nèi)含子。
網(wǎng)址:AGORA - Annotator for Genome of Organelle from the Reference sequences Analysis
工作流程圖(實(shí)線為氨基酸流程,虛線為核苷酸流程):
優(yōu)點(diǎn):
? ? ? 1. ?? 反向Blast搜索的方法確定基因在葉綠體基因組上的位置,不依賴龐大的數(shù)據(jù)庫,顯著提高了注釋的速度,約一分鐘一個種;
? ? ?? 2. ?? 軟件包含新開發(fā)的基因和內(nèi)含子特征邊界檢測算法,極大提高了基因和內(nèi)含子邊界注釋的準(zhǔn)確性;
? ? ?? 3. ?? 作為一個本地注釋葉綠體基因組的命令行工具,可以運(yùn)行于任何配置Perl和Blast的計(jì)算機(jī)系統(tǒng)環(huán)境,同時可以自主選擇葉綠體基因組參考序列,大大提高了葉綠體基因組注釋的靈活性;
? ? ? ? 4. ? ?? 能生成日志文檔輔助用戶檢查注釋結(jié)果;
? ? ? ?? 5. ? ?? 可以批量注釋。
缺點(diǎn):
? ? ? ? ? 1. ? ? 無網(wǎng)頁版,需在命令端運(yùn)行;
? ? ? ? ?? 2. ?? 參考序列需要嚴(yán)格的GB格式;
? ? ? ? ?? 3. ?? 不能有太多參考序列,否則會產(chǎn)生沖突,一般兩個,;
? ? ? ? ?? 4. ? ?? 無法畫圖。
網(wǎng)址:GitHub - quxiaojian/PGA: Plastid Genome Annotator
具體操作流程和注意事項(xiàng):葉綠體基因組注釋軟件PGA使用說明 - 簡書
流程圖:
CpGAVAS2 Annotation
優(yōu)點(diǎn):
? ? ? ? 1. ? ?? 注釋準(zhǔn)確率高,可以準(zhǔn)確注釋petB,petD、rps16基因(具小型外顯子:<10bp)和rps12基因(反式剪切基因);
? ? ? ? 2. ? ?? 注釋所有可能的基因;
? ? ? ? 3. ? ?? 支持使用3類參考數(shù)據(jù)集(RNA-seq data——the 43-plastome dataset,NCBI所有數(shù)據(jù)庫——2544-plastome dataset;用戶自定義參考序列集)
? ? ? ? 4. ? ?? 可以Summary repeats,并在基因組圖中顯示(結(jié)果如下圖所示);
? ? ? ?? 5. ? ?? 能生成日志文檔輔助用戶檢查注釋結(jié)果。
缺點(diǎn):
? ? ? ?? 1. ? ? 只能單個樣本注釋;
? ? ? ?? 2. ? ? 注釋速度慢,一般為半小時注釋一個基因組。
網(wǎng)址:http://www.herbalgenomics.org/cpgavas/
流程圖:
GeSeq Annotation
優(yōu)點(diǎn):
? ? ? 1. ? ? 存在畫圖功能(OGDRAW),畫圖好看;
? ? ? 2. ? ? 可以自主選擇是否提供自己的參照序列,有合適的參考序列即可注釋動物的線粒體基因組(該功能尚未被很好的驗(yàn)證);
? ? ? 3. ? ? 可批量注釋,可注釋100條以上序列;
? ? ? 4. ? ? 不僅能注釋整個葉綠體基因組或區(qū)域,也可以注釋Contigs;
? ? ? 5. ? ? 可提基因。
缺點(diǎn):
? ? ? 號稱可以注釋rps12 gene,但rps12 gene實(shí)際注釋效果不好。
網(wǎng)址:http://blog.sciencenet.cn/blog-3406804-1192085.html
流程圖:
最后,無論注釋軟件初步注釋多么精確,始終需要手動注釋進(jìn)行校正,以確保注釋的正確性。因此,初步注釋的結(jié)果需導(dǎo)入其他工具進(jìn)行基因校正。