原始數(shù)據(jù)來源于這篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
1.下載原始數(shù)據(jù)
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
https://www.ncbi.nlm.nih.gov/sra?term=SRX339951
點擊697.2Mb,然后進入下個頁面:
點擊SRR957677,這里插一句,下圖layout指的是單端或者雙端測序。single是單端,paired是雙端。
在下一個頁面里點擊“Data access”,可以看到有一個NCBI的下載地址,copy地址,用wget下載。
wget https://sra-download.ncbi.nlm.nih.gov/traces/sra11/SRR/000935/SRR957678
現(xiàn)在下載的就是sra文件。
2 用sratoolkit從sra文件里提取fastq文件
(在sra文件所在的文件夾里提取,沒有加目的文件夾)。--gzip是為了生成壓縮的gz格式fastq文件。split-files是把提取的文件分成兩份,unpaired的直接去掉。
fastq-dump --gzip --split-files SRR957677 #這是從單個sra文件里提取fastq文件
如果想從好幾個sra文件里同時提取fastq文件,可以寫一個小腳本運行:
vim fastqdump.sh
#!/bin/bash
for i in SRR* #for循環(huán)會遍歷你指定的list里的每一個文件,并執(zhí)行下面的命令
do
echo $i #顯示文件名
fastq-dump --gzip --split-files $i #用fastqdump提取fastq文件
done
yanfang@YF-Lenovo:~/Documents$ ./fastqdump.sh#這里我嘗試同時提取2個fastq文件,實際也不是同時,是一個一個來的
SRR957679
2019-08-28T17:27:31 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 19909740 spots for SRR957679
Written 19909740 spots for SRR957679
SRR957680
2019-08-28T17:34:48 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 24231941 spots for SRR957680
Written 24231941 spots for SRR957680
3.用安裝好的fastqc查看(安裝過程略)
直接在終端里調(diào)用fastqc
fastqc
點擊file,open,選擇要查看的fastq文件,然后fastqc會自動分析文件,最后生成一個報告。下面是報告的各項結(jié)果:
Basic Statistics:報告整體瀏覽
Measure | Value |
---|---|
Filename | SRR957678_1.fastq.gz |
File type | Conventional base calls |
Encoding | Sanger / Illumina 1.9 |
Total Sequences | 8828013 |
Sequences flagged as poor quality | 0 |
Sequence length | 50 |
%GC | 46 |
Filename:文件名
File type: 文件類型
Encoding:測序平臺的版本和相應(yīng)的編碼版本號,用于計算Phred反推error P時用。
Total Sequences: 輸入文本的reads的數(shù)量
Sequence length: 測序長度
%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。
Per base sequence quality:某一位置上所有讀段的測序質(zhì)量評分
(最主要看得數(shù)據(jù)信息)quality就是Fred值,一條reads某個位置上出錯概率為0.01時,quality值就是20,即常說的Q20。就是一個箱線圖boxplot,黃色箱子(25%和75%的分數(shù)線),紅色線(中位數(shù)),藍線是平均數(shù),下面和上面的觸須分別表示 10%和 90%的點橫坐標reads的堿基位置,最大值即為讀長,縱坐標代表質(zhì)量的好壞(判斷的準確性)。如果任何一個位置的下四分位數(shù)小于10或者中位數(shù)小于25,會顯示“警告”;如果任何一個位置的下四分位數(shù)小于5或者中位數(shù)小于20,會顯示“不合格”。這個結(jié)果相對來說還是比較好的。
Per tile sequence quality:
圖中橫軸代表堿基位置,縱軸代表 tile 編號。圖中的顏色是從冷色調(diào)到暖色調(diào)的漸變,冷色調(diào)表示這個 tile 在這個位置上的質(zhì)量值高于所有 tile 在這個位置上的平均質(zhì)量值,暖色調(diào)表示這個 tile 的在這個位置上的質(zhì)量值比其它 tiles 要差;一個很好的結(jié)果,整張圖都應(yīng)該是藍色,簡單來說,就是看圖內(nèi)有無除藍色外的亮點,有亮點代表低于平均值。當某些tail出現(xiàn)暖色,在后續(xù)的分析種把該tail測序結(jié)果全部去除。
Per sequence quality scores每條序列平均堿基質(zhì)量分數(shù)
圖中橫軸為測序質(zhì)量值,縱軸為 reads 數(shù)。紅線上的每一個點表示quality值所對應(yīng)的reads的數(shù)量,其面積就是總的reads數(shù)。如果最高峰所對應(yīng)的橫坐標質(zhì)量值小于 27 (錯誤率 0.2 %) 則會顯示“警告”,如果最高峰的質(zhì)量值小于 20 (錯誤率 1 %) 則會顯示“不合格”。如圖所示紅線單峰,分值在38左右,所以reads很可靠。
Per base sequence content每個位置的4種堿基組成比例
一個完全隨機的文庫內(nèi)每個位置上 4 種堿基的比例應(yīng)該大致相同,因此圖中的四條線應(yīng)該相互平行且接近25的位置左右。在 reads 開頭出現(xiàn)堿基組成偏離往往是建庫操作造成的,在reads上加接頭的堿基組成不是均一的。會造成明顯的堿基組成偏離。如果任何一個位置上的A和T之間或者G和C之間的比例相差10%以上則報“警告”,任何一個位置上的A和T之間或者G和C之間的比例相差 20%以上則報“不合格”。此結(jié)果總體上處于25%左右,且A和T比例相等,G和C比例相等,說明質(zhì)量可以,但在前15個bp位置上嚴重分離,說明有堿基偏向性。可能有接頭的污染。也有可能由于測序平臺及測序長度不同,以及測序儀開始狀態(tài)不穩(wěn)定經(jīng)常出現(xiàn)前后波動情況。
Per sequence GC contentGC含量:
橫軸表示GC含量,縱軸表示不同GC含量對應(yīng)的read數(shù),藍色為理論值,紅色是真實值。在一個正常的隨機文庫中,GC 含量的分布應(yīng)接近正態(tài)分布,且中心的峰值和所測基因組的 GC 含量一致。如果出現(xiàn)不正常的尖峰分布,則說明文庫可能有污染, (如果是接頭的污染,那么在 overrepresented sequences 那部分結(jié)果還會得到提示),或者存在其它形式的偏選;總體上就是看紅色的線與藍色線正態(tài)分布趨勢是否接近。此圖可知道紅色線與藍色線較為接近,質(zhì)量較好。
Per base N content每個堿基上N的比例
當出現(xiàn)測序儀不能分辨的堿基時會產(chǎn)生N,橫軸為堿基分布,縱軸為N比率。如果任何一個位置 N 的比例大于5%則報“警告”,大于20%則報“失敗”。此圖可知基本無N,皆已測得為ATGC的堿基。測序質(zhì)量較好。
Sequence Length Distribution Reads的長度分布
測序儀出來的原始 reads 通常是均一長度的,但經(jīng)過質(zhì)控軟件等處理過的數(shù)據(jù)則不然;經(jīng)過質(zhì)控軟件處理過的reads長度則不一樣。當 reads 長度不一致時報“警告”,當有長度為 0 的 reads 時則報“不合格”。此圖可知為測序儀產(chǎn)出的reads,長度皆為50bp。
Sequence Duplication Levels序列重復(fù)的水平
圖中橫軸代表 reads 的重復(fù)次數(shù) ( 1 表示 unique 的序列,2 表示有 2 條完全相同的 reads ...),大于 10 次重復(fù)后則按不同的重復(fù)次數(shù)合并顯示。 縱坐標表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比。藍線展示所有 reads 的重復(fù)情況,紅線表示在去掉重復(fù)以后,原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比。如果非 unique 的 reads 占總 reads 數(shù)的 20 % 以上則報 ”警告“,占總 read 數(shù)的 50 % 以上則報 ”不合格“。不合格報錯對于此項是正常現(xiàn)象,不需要太過關(guān)注。一般測序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列。
Overrepresented sequences大量重復(fù)出現(xiàn)的序列
這個樣品的此項結(jié)果為No overrepresented sequences。
我在網(wǎng)上搜到了一個例子:
顯示同一條 read 出現(xiàn)次數(shù)超過總測序 reads 數(shù)的0.1%的統(tǒng)計情況。正常文庫內(nèi)序列的多樣性水平很高,不會有同一條 read 大量出現(xiàn)的情況,這部分結(jié)果會把大量出現(xiàn)的 reads 列出來,并給出可能來源。如果有任何 read 出現(xiàn)的比例超過總 reads 數(shù)的0.1%則報警告,超過總 reads 數(shù)的1%則報不合格。如果檢測出一條多重復(fù)序列,重復(fù)次數(shù)較多,推測可能是TrueSeq接頭序列。
Adapter Content接頭含量
顯示 reads 中的接頭含量,并顯示可能的來源。圖中橫軸為堿基位置,縱軸為含有接頭序列的比例。正常的情況下接頭的含量應(yīng)該接近0,如果 reads 中的接頭含量過高,說明文庫內(nèi)小片段比例偏高 (這個可以從文庫質(zhì)檢報告中看出來),這可能是由于片段選擇時選取的長度偏短或者使用切膠的方式回收片段時上樣過多致使小片段不能很好的分離等原因造成的;如果接頭的含量隨著堿基的位置增大而逐漸升高,則表示 reads 中含有接頭 (如圖所示),這部分接頭會影響后續(xù)的分析,我們需要截掉 reads 中的接頭序列或者將含有接頭的 reads 完全刪除。如果任何重復(fù) read 超過總 reads 數(shù)的5%則報 '警告', 超過總 reads 數(shù)的10% 則報 '不合格,由圖可知測序是沒有接頭污染的。如果有接頭污染,在序列尾端會出現(xiàn)一個上揚的曲線。
**以上fastqc質(zhì)控的圖是SRR957678的結(jié)果。圖解摘自兩篇文章:
http://www.lxweimin.com/p/bacb86c78b43
http://www.lxweimin.com/p/f510dce0ab8c
還有一個英文版的fastqc質(zhì)量報告解讀:https://dnacore.missouri.edu/PDF/FastQC_Manual.pdf