在做生信下游基因分析的時候,我們通常需要下載興趣基因的序列信息構建進化書什么的,如果興趣基因比較少,那么可以直接在NCBI上搜索這個基因下載序列。但如果興趣基因很多,如果逐個下載就會很麻煩了。這時候我們會很渴望一個可以批量下載基因序列的方法,那么,在不涉及到編程的情況下,這里推薦用NCBI自帶的Batch entrez進行序列的批量下載。
舉個栗子??:師姐讓幫忙下載擬南芥PP2C家族的全部蛋白序列,可以通過以下步驟實現:
→獲取擬南芥PP2C家族的全部基因信息
這一步驟可以在Tair上實現,首先打開Tair網站,通過Browse選項找到gene family,找到PP2C基因家族,點進去發現PP2C家族有76個基因,Tair上還貼心地列出了參考文獻和基因分組。
初步了解PP2C家族的信息后,如果關注某一個基因可以直接點進去看。舉例點開AHG1這個基因,可以看到這個基因的詳細信息。如果要下載這個基因的蛋白序列可以通過點擊protein選項獲取基因序列,點擊Send to Blast按扭,在彈出的頁面中可以直接復制該序列粘貼到文本文件中去。這樣就獲得了AHG1基因的序列信息。
上面這個方法是針對單個基因序列的。但如果想要下載全部PP2C基因家族的信息那就很繁瑣了,而且很容易出錯,網絡不好的時候還容易氣到自己。所以下面給大家推薦一個NCBI自帶的批量下載基因序列的軟件Batchentrez。
Tair上提供了下載全集擬南芥基因家族信息的選項,我們先去把PP2C家族基因的accession numbers下載下來便于后續Batchentrez的分析。
首先點開Tair上的Download-Gene選項,點進去發現可以直接下載擬南芥全部基因家族信息,右鍵點擊下載后會得到一個txt文件,用Excel打開后,通過篩選就可以看到全部PP2C家族的基因信息了。同樣的這個表格中給出了每個基因的accession numbers(表格中給的名字是Refseq_ID),復制PP2C家族基因的全部accession numbers,保存在一個txt文件里。
→Batchentrez進行序列批量下載
下面的步驟都轉移到NCBI網站上進行。打開Batchentrez頁面,點擊Choose File選項上傳我們剛剛創建的txt格式的文件,然后因為我們要下載的是蛋白序列,所以Database選項選protein,然后點擊Retrieve選項。
batchentrez會檢查文件中序列ID信息,并且會去除重復,返回檢索結果,如果有檢索不到的序列會reject,在這里我們的序列都被檢索到了,點擊最下方的鏈接選項。
可以看到我們檢索的所有76個PP2C家族基因信息都列出來了。點擊上方的Send to選項,選擇file,fasta格式,然后點擊Creat File選項就大功告成啦~
點擊后網站會提醒你下載文件,點擊下載后會得到一個txt文件,這里就是我們全部基因的蛋白序列信息啦~
參考資源:
- 生物信息神奇網站系列(九):批量下載序列
鏈接:https://zhuanlan.zhihu.com/p/35850918
來源:知乎