之前在twitter上看見一個老哥開發了一個網站 sra-explorer,大致意思就是能夠解析你輸入的SRA號,比如說GSEXXX,SRPXXX,SRRXXX等(就是文章最后面附上的數據地址),但只是收藏了一直沒當回事,畢竟我一直用 prefetch
+ fasterq-dump
,而且我下別人的數據也不太多。但今天突然需要下載一些別人的數據,但我又懶得再去翻我的關于NCBI數據下載和解壓縮的cheatsheet :),于是我就想起了這個網站。用了下發現特別香。
這個網站的基本組成就是這樣的,你只需要輸入SRA號,其就會自動解析對應的數據集,然后你只要勾選加入到購物欄,然后再換一批數據,再勾選,再加入。到你完全挑選完你的數據之后,點下右上方的購物欄,就可以轉到另一個界面
這個界面就自動幫你列出了你的下載代碼,我這里是用了現成的Bash script,然后在curl -L
的每行代碼后面加了個 &
來并行下載所有的fq.gz文件。
至于這個速度,我感覺1G的數據差不多10分鐘之內就搞定了。雖然這個看起來不是很快,但是這是直接得到fq.gz文件,非常的方便。而不是像prefetch
+ fasterq-dump
,你得先得到SRR文件,然后再用fasterq-dump來拆解。
順便吐槽下,我永遠記不住 prefetch和fasterq-dump 的命令。而且prefetch這貨還會把文件下載到一個特定位置,哪怕你已經設置了下載路徑。
當然,prefetch + fast(er)q-dump 只要你會配置,還是很方便的。但人類的本質不就是懶么……
順便提下這個網站的原理,因為實際上,你除了用prefetch SRR下載數據之外,NCBI還允許你直接去 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ 這里面直接下載fastq文件,這個網站就是利用你輸入的數據庫ID,貼心地幫我們找到了對應的fq地址。
參考文章