使用BRAKER2進行基因組注釋

使用BRAKER2進行基因組注釋

BRAKER2是一個基因組注釋流程,能夠組合GeneMark,AUGUSTUS和轉錄組數據。

在使用軟件之前,有幾點需要注意下

  • 盡量提供高質量的基因組。目前隨著三代測序價格下降,這一點問題不大。
  • 基因組命名應該簡單,最好就是">contig1"或">tig000001"
  • 基因組需要屏蔽重復序列
  • 默認參數通常表現效果就很好,但是也要根據物種來
  • 一定要對注釋結果進行檢查,別直接使用

軟件安裝

BRAKER的依賴軟件不少,且Perl需要安裝的模塊也很多,我們用conda能解決這些問題(需要添加bioconda頻道)

conda create -n braker2 braker2

安裝結束后會輸出一些提示信息,匯總以下就是

  • 保證AUGUSTUS的config目錄能夠有可寫權限(自己用conda安裝不需要考慮這個問題)
  • GeneMark和GenomeThreader還需要額外下載安裝

我們一定要安裝的就是GeneMark,需要從 http://exon.gatech.edu/GeneMark/license_download.cgi 下載安裝,然后添加環境變量

export GENEMARK_PATH=/your_path_to_GeneMark-ET/gmes_petap/

此外還有一些BRAKER2建議的軟件,conda沒有安裝,需要自己按需安裝

  • DIAMOND 0.9.24: 替代NCBI-BLAST+
  • cdbfasta 0.99: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
  • cdbyank 0.981: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
  • GenomeThreader: 僅在你需要用蛋白數據進行注釋時,才需要

關于這些conda未安裝的軟件參考https://github.com/Gaius-Augustus/BRAKER#optional-tools

cdbfastacdbyank為例

git clone https://github.com/gpertea/cdbfasta.git
cd cdbfasta 
make all

之后可以添加到環境變量

 export CDBTOOLS_PATH=/path/to/cdbfasta/

也可以復制到conda建立的braker2的環境中,其中~/miniconda3是我conda的路徑

cp cdbfasta cdbyank perltest.pl ~/miniconda3/envs/braker2/bin

安裝完成之后,建議現運行下面這一步檢查軟件依賴

 braker.pl --checkSoftware

軟件運行

BRAKER根據數據類型,有不同的運行模式,但根據現狀其實最常見的情況是測了一個基因組,并且還測了二代的轉錄組,或許還有一些近緣物種的蛋白序列。因此假設你手頭有下面這些數據

  • 基因組序列: genome.fasta
  • 轉錄組數據: XX_1.fq.gz, XX_2.fq.gz
  • 蛋白序列: proteins.fa

第一步: 屏蔽基因組中的重復序列,這一步參考使用RepeatModeler和RepeatMasker注釋基因組重復序列

RepeatMasker -xsmall -species arabidopsis -pa 40 -e ncbi  -dir . genome.fasta
#-xsmall: soft-mask

這一步輸出的genome.fasta.masked將是后續注釋的輸入

第二步: 使用STAR將FastQ比對到參考基因組,STAR使用說明參考「RNA-seq分析軟件」RNA-seq比對工具STAR學習筆記

mkdir -p STAR
# 建立索引
STAR \
    --runThreadN 20 \
    --runMode genomeGenerate \
    --genomeDir STAR \
    --genomeFastaFiles genome.fasta
# 比對
STAR \
    --genomeDir STAR \
    --runThreadN 20 \
    --readFilesIn XX_1.fq.gz, XX_2.fq.gz \
    --readFilesCommand zcat \
    --outFileNamePrefix xx_ \
    --outSAMtype BAM SortedByCoordinate \
    --outBAMsortingThreadN 10 \
    --outSAMstrandField intronMotif \
    --outFilterIntronMotifs RemoveNoncanonical
mv xx_Aligned.sortedByCoord.out.bam xx.bam

輸入結果為 xx.bam 如果測了多個組裝的轉錄組,為每個樣本運行一次比對生成多個BAM文件。

第三步: 運行BRAKER2

braker.pl --cores 48 --species=yourSpecies --genome=genome.fasta.masked \
     --softmasking --bam=xx.bam \
     --prot_seq=proteins.fa --prg=exonerate \
     --gff3

braker.pl最多支持48個線程。

最終會輸出蛋白序列和CDS序列以及GFF文件

可能問題

使用conda安裝時可能會出現的問題

Error in file bamToWig.py at line 172: Return code of subprocess was 127

原因是因為faToTwoBit程序出錯

faToTwoBit
faToTwoBit: error while loading shared libraries: libssl.so.1.0.0: cannot open shared object file: No such file or directory

這是因為conda沒能正確處理依賴關系,openssl版本過高,解決方法如下

# 建立軟鏈接
cd ~/miniconda3/envs/braker2/lib
ln -s libssl.so libssl.so.1.0.0
ln -s libcrypto.so libcrypto.so.1.0.0

運行時出現如下警告

OpenBLAS blas_thread_init: RLIMIT_NPROC 4096

無視掉

參考資料

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容