FastQC - A high throughput sequence QC analysis tool
fastqc安裝
1. 下載fastqc安裝包(http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc)
wget [http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip](http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip)
2. 解壓
unzip fastqc_v0.11.7.zip
3. 賦予執行權限:
chmod 755 fastqc
./fastqc -v
fastqc使用
1. FastQC參數:
-o --outdir:輸出路徑
--extract:結果文件解壓縮
--noextract:結果文件壓縮
-f --format:輸入文件格式.支持bam,sam,fastq文件格式
-t --threads:線程數
-c --contaminants:制定污染序列。文件格式 name[tab]sequence
-a --adapters:指定接頭序列。文件格式name[tab]sequence
-k --kmers:指定kmers長度(2-10bp,默認7bp)
-q --quiet: 安靜模式
2. 運行命令
fastqc -t 8 -o path/fastqc sample1_R1.fq sample1_R2.fq
fastqc結果查看
1. 產生兩個結果文件:
html:網頁版結果
zip:本地結果壓縮文件
2.需要重點關注的結果:
- Basic Statistics:**對數據量的概覽
- Per base sequence quality:reads每個位置測序質量最直接的展示
- Per sequence quality scores:總體reads測序質量趨勢
- Per base sequence content:ATGC含量估計測序是否存在偏差
- Sequence Duplication Levels]:影響測序的因素太多,查看是否存在污染,數據處理時是否需要去冗余;現在數據量都可以滿足需求,因此前期數據處理時,盡量高標準,嚴格質控;。
3. 查看網頁版結果
網頁版結果頁面左上角是一個summary:
各種顏色是各項標準分析結果:綠色代表"PASS";
黃色代表"WARN";紅色代表"FAIL"。
reads上每個位置堿基質量
質量分數使用Fred quality,Q=-10*log10(p),p為堿基測序錯誤概率。
橫軸堿基的位置,縱軸是質量分數。紅色表示中位數,黃色是25%-75%區間,觸須是10%-90%區間,藍線是平均數。
平均每個堿基的測序質量boxplot下四分位線在30分以上,則認為測序質量非常好;一般情況下,reads首尾質量較差。
若任一位置的下四分位數低于10或中位數低于25,報"WARN";
若任一位置的下四分位數低于5或中位數低于20,報"FAIL"。
檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色表示低于平均偏離度,偏離度小,質量好;越紅表示偏離平均質量越多,質量也越差。如果出現質量問題可能是短暫的,如有氣泡產生,也可能是長期的,如在某一小孔中存在殘骸,問題不大。
每條序列的測序質量分布
橫軸為序列測序質量,縱軸是reads數目。一般認為90%的reads測序質量在35分以上,則認為該測序質量非常好。
當測序質量峰值小于27(錯誤率0.2%)時報"WARN";
當峰值小于20(錯誤率1%)時報"FAIL"。
統計reads每個位置ATCG四種堿基的分布:
橫軸為堿基位置,縱軸為百分比。因為隨機的文庫中,正常情況下所有位置出現某種堿基的概率是相近的,因此好的測序結果中四條線應該平行且接近。當部分位置堿基的比例出現bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當所有位置的堿基比例一致的表現出bias時,即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點),或者是測序中的系統誤差。
當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";
當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。
統計reads的平均GC含量分布
紅線是實際情況,藍線是理論分布(正態分布,均值不一定在50%,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresented reads)。形狀接近正態但偏離理論分布的情況提示我們可能有系統偏差。
偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。
統計reads每個位置N的比率
reads某個位置無法確定是何種堿基時,使用N代替;
正常情況下,N的比例是很小的,所以圖上常常看到一條直線,但放大Y軸之后會發現還是有N的存在,這不算問題。當Y軸在0%-100%的范圍內也能看到“鼓包”時,說明測序系統出了問題。
當任意位置的N的比例超過5%,報"WARN";
當任意位置的N的比例超過20%,報"FAIL"。
reads長度分布
為了防止建庫或者測序時有一些不規則長度的序列也被進行測序而進行的一個對長度的統計,當所有序列的長度不一樣,fastqc就會警告。
當reads長度不一致時報"WARN";
當有長度為0的read時報“FAIL”。
統計reads重復水平
測序本身就會產生重復reads,測序深度越高,reads重復數越大;如果重復出現峰值,就提示可能b存在偏差(如建庫過程中的PCR duplication)。
橫坐標是重復的次數,縱坐標是duplicated reads占unique reads種數百分比。
fastqc抽取reads文件前200,000條reads統計其重復情況。重復數目大于等于10的reads被合并統計,這也是為什么我們看到上圖的最右側略有上揚。大于75bp的reads只取50bp進行比較。由于reads越長錯誤率越高,所以其重復程度仍有可能被低估。
當非unique的reads占總數的比例大于20%時,報"WARN";
當非unique的reads占總數的比例大于50%時,報"FAIL“。
過度重復出現的序列的統計信息(此次沒有)
Adapter序列在reads中出現概率
接頭序列統計,>5%時是Warning,>10%時是Failure。
過度重復的短序列統計
Kmer意為連指定長度為K的序列,默認K=7,取值范圍2-10bp。
取前2%的序列進行統計,序列長度超過500bp的截取500bp來計算。