轉自 https://blog.csdn.net/gateswell/article/details/78858579
使用的是raw date數據,數據質量還是比較好的,不過要進一步用還是需要過濾。
拿到原始數據后我們采用fastqC程序進行質控,看原始數據質量情況,fastqC會生成一個html結果報告,根據圖形化界面,我們可以判斷下機數據情況是否符合分析要求,fastqC總結如下:
FastqC有3種結果:綠色代表PASS;黃色代表WARN;紅色代表FAIL。
當出現黃色時說明需要查看結果。
Basic statistics是該fastq一些基本信息,主要有
Filename:文件名
File type: 文件類型
Encoding:測序平臺的版本和相應的編碼版本號,用于計算Phred反推error P時用
Total Sequences: 輸入文本的reads的數量
Sequence length: 測序長度
%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。
(最主要看得數據信息)
橫軸為read長度,縱軸為質量得分,Q = -10*log10(error P)。
柱狀表示該位置所有序列的測序質量的統計,柱狀是25%~75%區間質量分布,error bar是10%~90%區間質量分布,藍線表示平均數。一般要求所有位置的10%分位數大于20,即大于最多允許該位置10%的序列低于Q20。當任何堿基質量低于10,或者任何中位數低于25報WARN,需注意;當任何堿基質量低于5或者任何中位數低于20報FAIL。這個結果相對來說還是比較好的。
每個tail測序情況,橫軸表示堿基位置,縱軸表示tail的index編號,這個圖主要是為了防止在測序過程中某些tail受到不可控因素的影響而出現測序質量偏低,藍色表示測序質量很高,暖色表示測序質量不高。
當某些tail出現暖色,在后續的分析種把該tail測序結果全部去除。
橫軸表示Q值,縱軸表示每個值對應的read數目,當測序結果主要集中在高分中,證明測序質量良好。
橫軸為堿基長度分布,縱軸表示百分比,圖中4條線分別代表A,C,T,G在每個位置上的平均含量。由于測序平臺及測序長度不同,以及測序儀開始狀態不穩定經常出現前后波動情況。
橫軸表示GC含量,縱軸表示不同GC含量對應的read數,藍色為程序根據經驗分布給出的理論值,紅色是真實值,當紅色出現雙峰是表示混入了其他DNA序列。
當出現測序儀不能分辨的堿基時會產生N,橫軸為堿基分布,縱軸為N比率,當任一位置N的比率超過5%報WARN,超過20%報FAIL。
理論上每次測序儀測出的read長度時一致的,但是由于建庫等因素通常會導致一些小片段,如果報FAIL,表明此次測序過程中產生的數據不可信。
統計序列完全一致的reads的頻率,橫軸表示重復的次數,縱軸表示重復的reads的數目。一般測序深度越高,越容易產生一定程度的重復序列。
當有某個序列大量出現時,超過總reads數的0.1%時報WARN,超過1%時報FAIL。
橫軸表示堿基位置,縱軸表示百分比。當fastqc分析時沒有選擇參數-a adapter list時,默認使用圖例中的4種通用adapter序列進行統計。若有adapter殘留,后續必須去接頭。
重復短序列出現的次數,這個是沒有經過clean的數據。
具體可像原文所說,查看具體信息:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/