以下內容來之知乎 :https://zhuanlan.zhihu.com/p/62914954,感謝作者分享,我只是Mark下來給自己看,再次申明,不是原創(chuàng):
自己補充概括三點:1. 下載Accession List? ?;? 2.下載RunInfo Table,里面記錄了樣品信息、建庫信息、測序信息、數(shù)據(jù)信息?;? ? 3. 將SRA數(shù)據(jù)變成 fastq數(shù)據(jù),fastq-dump 命令,注意是單端還是雙端測序。
fastq-dump -I --split-files SRR390728? ????????????Produces two fastq files (--split-files) containing ".1" and ".2" read suffices (-I) for paired-end data.
--split-spot????????????????????????????????????????????????????????Split spots into individual reads.
一.SRA數(shù)據(jù)庫:
NCBI網(wǎng)站儲存二代測序原始數(shù)據(jù)的數(shù)據(jù)庫.
(一)SRA數(shù)據(jù)類型:
1.Studies:研究課題
2.Experiments:實驗設計
3.Samples:樣品信息
4.Runs:測序結果
(二)對應序列前綴:
1.SRP/ERP:對應studies
2.SRX:對應Experiments
3.SRS:對應Samples
4.SRR:對應Runs
二.Protocol for analysis:
1.登入NCBI-SRA數(shù)據(jù)庫并下載SRAToolkit使用:
下載地址:
Main : Sequence Read Archive : NCBI/NLM/NIH?trace.ncbi.nlm.nih.gov
選擇相應操作系統(tǒng)版本下載,本文以 MS Windows 64 bit architecture為例,解壓至相關目錄(自己指定位置吧(? ̄? ??  ̄??))
2.選擇SRA數(shù)據(jù)庫,輸入關鍵詞或序列號檢索,并點擊進入結果鏈接
3.點擊詳細信息界面中的研究課題編碼SRP
4.點擊右方“Related SRA data”中的測序結果Runs的數(shù)字
5.在下方列表中選擇需要的原始數(shù)據(jù)序列號下載,點擊“Download”欄Accession List
6.下載二代測序數(shù)據(jù):
(1)使用“運行”輸入CMD打開命令行界面,輸入以下內容并運行:
prefetch.exe的路徑\prefetch.exe?—option-file?下載的序列號文件的路徑\?序列文件
例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\prefetch.exe —option-file C:\Users\asus\Desktop\SRA_Acc_List.txt
(2)下載完成,二次測序原始數(shù)據(jù)位于用戶家目錄ncbi文件夾中
例:C:\Users\asus\ncbi\public\sra\SRR4289741.sra
7.sra格式轉化為fastq格式:
(1)使用“運行”輸入CMD打開命令行界面,輸入以下內容并運行:
fastq-dump.exe的路徑\fastq-dump.exe?—split-3?sra文件的路徑\?sra文件
例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\fastq-dump.exe?—split-3 C:\Users\asus\ncbi\public\sra\SRR4289741.sra
(2)轉換完成,fastq格式數(shù)據(jù)存在于原數(shù)據(jù)相同目錄下
“—split-3”中“-3”表示雙端測序,輸出轉換結果為兩個fastq文件(如果樣品為單端測序只返回一個fastq文件)
例:C:\Users\asus\ncbi\public\sra\
編者的話:萌新第一次用知乎,不足之處還請海涵,之所以要做這些是因為自己在學生信,發(fā)現(xiàn)網(wǎng)上很多都零散不全,希望對每一次的小操作都系統(tǒng)涵蓋一下,以后還會不斷更新,大家一起學習進步吧!(? ̄? ??  ̄??)