fastq文件在經過fastqc文件質檢后,一般都會生成一個網頁版的文件,我們可以根據文件來分析我們的測序結果的好壞,前提是我們能夠讀懂這個文件中顯示的內容,接下來我們主要解讀一下每一張圖所代表的信息。
1 首先我們看一下左邊的summary:綠色代表PASS;黃色代表WARN;紅色代表FAIL。當出現黃色時說明需要查看結果。
2?Basic Statistics
Basic statistics是該fastq一些基本信息,主要?
Filename:文件名
File type: 文件類型
Encoding:測序平臺的版本和相應的編碼版本號,用于計算Phred反推error P時用
Total Sequences: 輸入文本的reads的數量
Sequence length: 測序長度
%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。
3.Per base sequence quality
橫軸為read長度,縱軸為質量得分,Q = -10*log10(error P)。柱狀表示該位置所有序列的測序質量的統計,柱狀是25%~75%區間質量分布,error bar是10%~90%區間質量分布,藍線表示平均數。一般要求所有位置的10%分位數大于20,即大于最多允許該位置10%的序列低于Q20。當任何堿基質量低于10,或者任何中位數低于25報WARN,需注意;當任何堿基質量低于5或者任何中位數低于20報FAIL。
4.Per base sequence content
統計在序列中的每一個位置,四種不同堿基占總堿基數的比例,檢測有無AT、GC分離的現象。橫軸為位置,縱軸為百分比。正常情況下四種堿基出現的頻率應是接近的,且沒有位置差異,因此好的樣品中四條線應該是平行且接近的,由于剛開始測序儀狀態不穩定,造成前幾個堿基有波動。在reads 開頭出現堿基組成偏離往往是我們的建庫操作造成的,比如建 GBS 文庫時在 reads 開頭加了 barcode;barcode的堿基組成不是均一的,酶切位點的堿基組成是固定不變的,這樣會造成明顯的堿基組成偏離;在 reads結尾出現的堿基組成偏離,往往是測序接頭的污染造成的。當所有位置的堿基比例一致現出偏差時,即四條線平行且分開,代表文庫有偏差,或測序中的系統誤差;當部分位置堿基的比例出現偏差時,即四條線在某些位置紛亂交織,則有overrepresented?sequence的污染。當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL",我這里的數據就不是很好。
5.Per sequence GC content
橫軸表示GC含量,縱軸表示不同GC含量對應的read數,藍線是理論分布(正態分布,通過從所測數據計算并構建理論分布),紅色是實際情況,兩個比較接近判為好的。曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresentedreads);形狀接近正態分布但偏離理論分布的情況提示我們可能有系統偏差;如果出現兩個或多個峰值,表明測序數據里可能有其他來源的DNA序列污染,或者有接頭序列的二聚體污染。偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。
6.Per base N content
當出現測序儀不能分辨的堿基時會產生N,橫軸為堿基分布,縱軸為N比率,當任一位置N的比率超過5%報WARN,超過20%報FAIL。我這里幾乎沒有。
7.Sequence Length Distribution
理論上每次測序儀測出的read長度是一致的,但是由于建庫等因素通常會導致一些小片段,如果報FAIL,表明此次測序過程中產生的數據不可信。
8.Sequence Duplication Levels
統計序列完全一致的reads的頻率,橫軸表示重復的次數,縱軸表示重復的reads的數目。一般測序深度越高,越容易產生一定程度的重復序列。
9.Overrepresented sequences
當有某個序列大量出現時,超過總reads數的0.1%時報WARN,超過1%時報FAIL。
10.Adapter Content
橫軸表示堿基位置,縱軸表示百分比。當fastqc分析時沒有選擇參數-a adapter list時,默認使用圖例中的4種通用adapter序列進行統計。若有adapter殘留,后續必須去接頭。