日本无遮挡色又黄的免费观看,精品无码国产自产在线观看水浒传,玖玖资源站无码专区

讀文章重復結果系列第二篇，依舊和葉綠體基因組相關 RNA editing sites prediction

題目 Identification and analysis of RNA editing sites in the chloroplast transcripts of Aegilops tauschii L

期刊 genes IF 3.600 生物3區出版國家 Switzerland（瑞士）

文章中材料和方法包含五部分內容

1、利用 http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序預測 Aegilops tauschii 葉綠體基因組76個蛋白編碼基因的RNA編輯位點

2、利用轉錄組數據檢測RNA編輯位點

3、RNA編輯前后的蛋白質結構比較

4、禾本科植物之間葉綠體基因RNA編輯的比較

5、PCR驗證

本次主要重復第一項內容，其中主要包括1、利用grep命令和excel提取蛋白編碼基因的基因名稱（試了一下用grep命令結合cut命令也可以達到同樣的效果，而且相對簡單一點）；2、根據上一步提取的蛋白編碼基因名稱利用python腳本從At葉綠體基因組genbank文件中提取蛋白編碼基因的CDS序列；3、因為葉綠體基因組典型的四部分結構（1個大的單拷貝區LSC,1個小的單拷貝區SSC,2個反向重復區IRS）上一步提取的CDS序列包含重復的基因，利用python腳本去除fasta文件中名稱重復的序列；4、利用python 腳本將輸入文件處理成http://prep.unl.edu/cgi-bin/cp-input.pl 在線程序所需要的格式。

1.1根據文章中提供的序列號KJ614412.1直接在NCBI網站檢索，然后分別下載genbank和gff3格式文件

1.2使用grep和cut命令組合提取蛋白編碼基因的ID

grep 提取文件中包含有 protein_coding 字段的行，豎線 | 是把前一步的結果輸出給后面的命令， cut 命令提取列? -d 參數指定分號分隔符， -f 指定提取第二列，接下來cut -d 指定等號為分隔符 -f提取第二列，大于號> 重定向符號將結果輸出到文件中，然后利用excel刪除重復行（uniq命令也能實現刪除重復行，但是自己試了一下和excel的輸出結果不一致，暫時還沒有發現問題在哪里）最終得到76個蛋白編碼基因的id。

1.3利用python腳本從genbank文件中提取蛋白編碼基因的CDS序列（python腳本來源于組學講堂一期微信推送）用到python2。用法