讀文章重復結果系列第二篇,依舊和葉綠體基因組相關 RNA editing sites prediction
題目 Identification and analysis of RNA editing sites in the chloroplast transcripts of Aegilops tauschii L
期刊 genes IF 3.600 生物3區 出版國家 Switzerland(瑞士)
文章中材料和方法包含五部分內容
1、利用 http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序預測 Aegilops tauschii 葉綠體基因組76個蛋白編碼基因的RNA編輯位點
2、利用轉錄組數據檢測RNA編輯位點
3、RNA編輯前后的蛋白質結構比較
4、禾本科植物之間葉綠體基因RNA編輯的比較
5、PCR驗證
本次主要重復第一項內容,其中主要包括1、利用grep命令和excel提取蛋白編碼基因的基因名稱(試了一下用grep命令結合cut命令也可以達到同樣的效果,而且相對簡單一點);2、根據上一步提取的蛋白編碼基因名稱利用python腳本從At葉綠體基因組genbank文件中提取蛋白編碼基因的CDS序列;3、因為葉綠體基因組典型的四部分結構(1個大的單拷貝區LSC,1個小的單拷貝區SSC,2個反向重復區IRS)上一步提取的CDS序列包含重復的基因,利用python腳本去除fasta文件中名稱重復的序列;4、利用python 腳本將輸入文件處理成http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序所需要的格式。
1.1根據文章中提供的序列號KJ614412.1直接在NCBI網站檢索,然后分別下載genbank和gff3格式文件
1.2使用grep和cut命令組合提取蛋白編碼基因的ID
grep 提取文件中包含有 protein_coding 字段的行,豎線 | 是把前一步的結果輸出給后面的命令, cut 命令提取列? -d 參數指定分號分隔符, -f 指定提取第二列,接下來cut -d 指定等號為分隔符 -f提取第二列, 大于號> 重定向符號將結果輸出到文件中,然后利用excel刪除重復行(uniq命令也能實現刪除重復行,但是自己試了一下和excel的輸出結果不一致,暫時還沒有發現問題在哪里)最終得到76個蛋白編碼基因的id。
1.3利用python腳本從genbank文件中提取蛋白編碼基因的CDS序列(python腳本來源于組學講堂一期微信推送)用到python2。用法
需要將genbank文件與腳本放到同一個文件夾 -i參數指定蛋白編碼基因id文件 -o指定輸出文件夾(文件夾得存在)
結果輸出四個文件,我們用到的是sequence.gb.cds.fa,用grep命令查看一下序列的條數,有82條,里面包含一些重復
然后用簡單的python腳本去除id重復的序列
1.4使用python腳本處理fasta文件為http://prep.unl.edu/cgi-bin/cp-input.pl在線程序所需要的格式
然后直接將結果文件上傳即可,最終結果與原文一致
in total, 34 editing sites present in 15 chloroplast protein-coding genes were predicted by the PREP-cp program
PS:下一步結合轉錄組數據預測RNA編輯位點需要仔細看一下啦?。。。?/p>