讀文章重復結果之葉綠體基因RNA editing sites prediction

讀文章重復結果系列第二篇,依舊和葉綠體基因組相關 RNA editing sites prediction

題目 Identification and analysis of RNA editing sites in the chloroplast transcripts of Aegilops tauschii L

期刊 genes IF 3.600 生物3區 出版國家 Switzerland(瑞士)

文章中材料和方法包含五部分內容

1、利用 http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序預測 Aegilops tauschii 葉綠體基因組76個蛋白編碼基因的RNA編輯位點

2、利用轉錄組數據檢測RNA編輯位點

3、RNA編輯前后的蛋白質結構比較

4、禾本科植物之間葉綠體基因RNA編輯的比較

5、PCR驗證

本次主要重復第一項內容,其中主要包括1、利用grep命令和excel提取蛋白編碼基因的基因名稱(試了一下用grep命令結合cut命令也可以達到同樣的效果,而且相對簡單一點);2、根據上一步提取的蛋白編碼基因名稱利用python腳本從At葉綠體基因組genbank文件中提取蛋白編碼基因的CDS序列;3、因為葉綠體基因組典型的四部分結構(1個大的單拷貝區LSC,1個小的單拷貝區SSC,2個反向重復區IRS)上一步提取的CDS序列包含重復的基因,利用python腳本去除fasta文件中名稱重復的序列;4、利用python 腳本將輸入文件處理成http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序所需要的格式。

1.1根據文章中提供的序列號KJ614412.1直接在NCBI網站檢索,然后分別下載genbank和gff3格式文件

1.2使用grep和cut命令組合提取蛋白編碼基因的ID

grep 提取文件中包含有 protein_coding 字段的行,豎線 | 是把前一步的結果輸出給后面的命令, cut 命令提取列? -d 參數指定分號分隔符, -f 指定提取第二列,接下來cut -d 指定等號為分隔符 -f提取第二列, 大于號> 重定向符號將結果輸出到文件中,然后利用excel刪除重復行(uniq命令也能實現刪除重復行,但是自己試了一下和excel的輸出結果不一致,暫時還沒有發現問題在哪里)最終得到76個蛋白編碼基因的id。

1.3利用python腳本從genbank文件中提取蛋白編碼基因的CDS序列(python腳本來源于組學講堂一期微信推送)用到python2。用法

需要將genbank文件與腳本放到同一個文件夾 -i參數指定蛋白編碼基因id文件 -o指定輸出文件夾(文件夾得存在)

結果輸出四個文件,我們用到的是sequence.gb.cds.fa,用grep命令查看一下序列的條數,有82條,里面包含一些重復

然后用簡單的python腳本去除id重復的序列

將fasta文件寫入字典這段代碼還是看不太明白

1.4使用python腳本處理fasta文件為http://prep.unl.edu/cgi-bin/cp-input.pl在線程序所需要的格式

然后直接將結果文件上傳即可,最終結果與原文一致

in total, 34 editing sites present in 15 chloroplast protein-coding genes were predicted by the PREP-cp program

PS:下一步結合轉錄組數據預測RNA編輯位點需要仔細看一下啦?。。。?/p>

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容