更新:20190108
瀏覽GetOrganelle軟件的作者Kinggerm的github主頁,發現了很多有用的python腳本,非常好的學習素材,有時間多看https://github.com/Kinggerm/PersonalUtilities
更新20181213
昨天晚上班級組織了學術沙龍,班上的同學介紹了自己的三篇文章,第一篇是基因家族類的,發在frontiers in plant science;第二篇好像是和小RNA有關的,發在了the plant journal;第三篇是葉綠體基因組類的;好像是BMC genomics;現在班級里的牛人真的很多。這位同學在介紹葉綠體基因組的文章的時候提到了mVISTA這款軟件,自己才發現原來這款軟件是可以本地化的,需要填寫自己的基本信息和郵箱,第二天就收到了軟件的下載鏈接,初步瀏覽感覺安裝稍顯繁瑣,還沒有嘗試,找個時間試一下本地操作。
讀研讀博班級的概念可能僅限于一起上課吧,自己因為是碩博連讀,比現在班上的同學早上一年課,連一起上課這層聯系都沒有了;
更新20181108
之前有想法可以通過SeqIO解析genbank文件得到mVISTA的注釋結果,由于對于解析后的結果不太理解一直沒有成功,最近又大體看了一下biopython的教程,對于SeqIO解析genbank文件又有了一點新的理解,又再次嘗試了一下,終于成功了,貼出自己的代碼(這篇文章自己最開始寫的時候還不知道markdown的基本語法,所以只能通過截圖的方式來展示自己的代碼了):
需要腳本的可以給我留言郵箱地址~
需要安裝python,然后安裝Biopython模塊
使用方法:將腳本和genbank文件放到同一個文件夾下,然后通過dos界面進入這個文件夾執行 python?get_mVISTA_annotation_file_from_genbank_1.py -i genbankfilename
最近一直在看葉綠體基因組的相關論文,基本上每篇文章都會有一幅identity plot, 用來比較不同葉綠體基因組之間的相似性,使用到的是網頁版的工具mVISTA mVISTA Input,下面簡單記錄自己的學習過程:
mVISTA 需要準備fasta文件和 注釋文件,mVISTA官網給出的注釋文件的格式
幫助文檔中提到注釋文件可以通過基因組瀏覽器導出結果,但是自己還沒有學會怎么用
通過修改相應的gff3文件也可以得到這個注釋文件,自己的做法是先刪除葉綠體基因組注釋gff3文件的前三行,然后通過Excel提取3,4,5,7列,調整列的順序為7,3,4,5,然后用python腳本簡單處理得到的輸出結果
python腳本
PS:問題一:python如何通過參數指定輸入和輸出文件???暫時還沒有找到辦法;找到了一個運用R語言批量下載benBank文件的教程,之前試過一次有一些問題,找時間再試一次
已將序列文件和注釋文件提交到mVISTA,暫時還沒有運行出來結果,明早起來看結果如何,結果如果理想 明天記錄完整的流程:葉綠體基因組的序列下載,處理得到注釋文件,然后利用mVISTA繪圖
看到了結果,搞懂輸出的結果還需要一段時間,發現一個問題是:注釋文件得把基因改成對應的名字,最原始的輸出結果
好多細節需要修改!
代碼雖然很笨,但成功處理出來了mVISTA需要的注釋文件;又遇到了 list index out of range 的報錯,目前還沒有找到原因,擔心的問題是因為有報錯會不會造成處理出來的文件有問題???
python腳本用到了簡單的正則表達式和for if 循環 目前也只能寫一寫簡單的腳本,沒有找到增加一點難度的學習資料