因為課題需要,我們在前期組裝了一個基因組并進(jìn)行了注釋,但是存在兩個問題,一個是沒有考慮可變剪切,另一個是注釋的基因并不準(zhǔn)確,三代轉(zhuǎn)錄組的廣泛普及對于基因研究提供了很大的便利,通過三代轉(zhuǎn)錄本比對到基因組,再利用
TOFU
軟件去冗余可以得到一個基于三代的基因組注釋,在IGV上查看比較可以發(fā)現(xiàn),三代的注釋無論是結(jié)構(gòu)還是完整度上都比二代的注釋更準(zhǔn)確,而且考慮到了可變剪切。那么完全可以將三代的基因組注釋跟二代的注釋結(jié)合起來得到一個更完善更準(zhǔn)確的注釋,最近對這一想法進(jìn)行了嘗試,寫出來用作學(xué)習(xí)探討。
1 獲得全長轉(zhuǎn)錄組的基因組注釋
參考之前寫過的全長轉(zhuǎn)錄組分析的文章全長轉(zhuǎn)錄組分析-小麥 以及全長轉(zhuǎn)錄組更新,分析的時候不要進(jìn)行cluster這一步,原因見精選推文 | 基于三代轉(zhuǎn)錄組的基因注釋踩坑經(jīng)歷以及GSAman使用 - 簡書 ,畢竟是注釋文件,基因組這么多基因,不可能每一個都注釋的非常準(zhǔn)確,重點在于提升準(zhǔn)確性。
經(jīng)過這一步的運行,可以得到hq_isoforms.fasta.no5merge.collapsed.rep.fa
以及hq_isoforms.fasta.no5merge.collapsed.gtf
等文件,在進(jìn)行去冗余的時候,閾值設(shè)置的高一些,因為三代就是對應(yīng)的基因組的物種,所以設(shè)置-c 0.95
以及-i 0.99
2 gffcompare合并
使用gffcompare軟件將基因組注釋和三代注釋合并起來
gffcompare ref.gtf thrid_trans.gtf -D -o test
這樣就得到了一個新的基因組注釋文件,基因名稱進(jìn)行了合并,原來的基因名稱可以查看生成的對照文件test.loci
3 TransDecoder預(yù)測結(jié)構(gòu),參考 使用TransDecoder尋找轉(zhuǎn)錄本中的編碼區(qū)
第一步: 從GTF文件中提取FASTA序列
GTF文件使用上一步合并的文件
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl test.combined.gtf genome.fasta > transcripts.fasta
第二步: 將GTF文件轉(zhuǎn)成GFF3格式
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl test.combined.gtf > test.combined.gff3
第三步: 預(yù)測轉(zhuǎn)錄本中長的開放閱讀框
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta
第四步: 使用DIAMOND對上一步輸出的transcripts.fasta.transdecoder.pep
在蛋白數(shù)據(jù)庫中進(jìn)行搜索,尋找同源證據(jù)支持
# 建立索引
diamond makedb --in swissprot --db swissprot
# BLASTP比對
diamond blastp -d ~/hychao/Function_anno/swissprot/swissprot -q transcripts.fasta.transdecoder_dir/longest_orfs.pep --evalue 1e-5 --max-target-seqs 1 > blastp.outfmt6
第五步: 預(yù)測可能的編碼區(qū)
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --retain_blastp_hits blastp.outfmt6
第六步: 生成基于參考基因組的編碼區(qū)注釋文件
~/hychao/biosoftTransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 test.combined.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
這樣就得到了標(biāo)準(zhǔn)的gff3文件
看一下結(jié)構(gòu)還是比較準(zhǔn)確的,后面再用CD-hit
再進(jìn)行一步去冗余,等出來結(jié)果再更新