質量檢測:FastQC

拿到測序數據后我們首先要進行質量評估(Quality Control),常用的工具就是FastQC。FastQC的詳細使用說明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

該如何認識一個原始的測序數據(fastq data)呢?
一般我們可以從如下幾個方面來分析:

  • read各個位置的堿基質量值分布
  • 堿基的總體質量值分布
  • read各個位置上堿基分布比例,目的是為了分析堿基的分離程度
  • GC含量分布
  • read各位置的N含量
  • read是否還包含測序的接頭序列
  • read重復率,這個是實驗的擴增過程所引入的

FastQC支持的格式:

  • FastQ (all quality encoding variants)
  • Casava FastQ files
  • Colorspace FastQ
  • GZip compressed FastQ
  • SAM
  • BAM
  • SAM/BAM Mapped only (normally used for colorspace data)

幫助文檔:

# 基本格式# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

# 主要是包括前面的各種選項和最后面的可以加入N個文件
# -o --outdir FastQC生成的報告文件的儲存路徑,生成的報告的文件名是根據輸入來定的,注意是不能自動新建目錄的。輸出的結果是.zip文件,默認自動解壓縮,命令里加上--noextract則不解壓縮
# --extract 生成的報告默認會打包成1個壓縮文件,使用這個參數是讓程序不打包
# -t --threads 選擇程序運行的線程數,每個線程會占用250MB內存,越多越快咯
# -c --contaminants 污染物選項,輸入的是一個文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有這個選項,FastQC會在計算時候評估污染的情況,并在統計的時候進行分析,一般用不到
# -a --adapters 也是輸入一個文件,文件的格式Name [Tab] Sequence,儲存的是測序的adpater序列信息,如果不輸入,目前版本的FastQC就按照通用引物來評估序列時候有adapter的殘留
# -q --quiet 安靜運行模式,一般不選這個選項的時候,程序會實時報告運行的狀況。

如果不加-q則會顯示:

Started analysis of target.fq
Approx 5% complete for target.fq
Approx 10% complete for target.fq
......

如果輸入的fastq文件名是test.fastq,fastqc的輸出的壓縮文件將是test.fastq_fastqc.zip。解壓后,查看html格式的結果報告。

結果文件解壓縮

結果分析

查看html格式的結果報告。結果分為如下幾項:


結果分析

結果分為綠色的"PASS",黃色的"WARN"和紅色的"FAIL"。

Basic Statistics

Per base sequence quality

橫軸為read長度,縱軸為質量得分,Q = -10*log10(error P)。

柱狀表示該位置所有序列的測序質量的統計,柱狀是25%~75%區間質量分布,error bar是10%~90%區間質量分布,藍線表示平均數。一般要求所有位置的10%分位數大于20,即大于最多允許該位置10%的序列低于Q20。當任何堿基質量低于10,或者任何中位數低于25報WARN,需注意;當任何堿基質量低于5或者任何中位數低于20報FAIL。
Per base sequence quality

Per tile sequence quality

每個tail測序情況,橫軸表示堿基位置,縱軸表示tail的index編號,這個圖主要是為了防止在測序過程中某些tail受到不可控因素的影響而出現測序質量偏低,藍色表示測序質量很高,暖色表示測序質量不高。當某些tail出現暖色,在后續的分析種把該tail測序結果全部去除


Per tile sequence quality

Per sequence quality scores

橫軸表示Q值,縱軸表示每個值對應的read數目,當測序結果主要集中在高分中,證明測序質量良好。

Per sequence quality scores

Per base sequence content

橫軸為堿基長度分布,縱軸表示百分比,圖中4條線分別代表A,C,T,G在每個位置上的平均含量。由于測序平臺及測序長度不同,以及測序儀開始狀態不穩定經常出現前后波動情況。


Per base sequence content

Per sequence GC content

Per sequence GC content

紅線是實際情況,藍線是理論分布(正態分布,均值不一定在50%,而是由平均GC含量推斷的),當紅色出現雙峰是表示混入了其他DNA序列。 曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresented reads)。形狀接近正態但偏離理論分布的情況提示我們可能有系統偏差。
橫軸表示GC含量,縱軸表示不同GC含量對應的read數
偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。

Per base N content

當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產生“N”。對所有reads的每個位置,統計N的比率:


Per base N content

正常情況下N的比例是很小的,所以圖上常常看到一條直線,但放大Y軸之后會發現還是有N的存在,這不算問題。當Y軸在0%-100%的范圍內也能看到“鼓包”時,說明測序系統出了問題。當任意位置的N的比例超過5%,報"WARN";當任意位置的N的比例超過20%,報"FAIL"。

Sequence Length Distribution

reads長度的分布,當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”。


Sequence Length Distribution

Sequence Duplication Levels

統計序列完全一樣的reads的頻率。測序深度越高,越容易產生一定程度的duplication,這是正常的現象,但如果duplication的程度很高,就提示我們可能有bias的存在(如建庫過程中的PCR duplication)

Sequence Duplication Levels

橫坐標是duplication的次數,縱坐標是duplicated reads的數目,以unique reads的總數作為100%。
當非unique的reads占總數的比例大于20%時,報"WARN";當非unique的reads占總數的比例大于50%時,報"FAIL“。

Overrepresented sequences

如果有某個序列大量出現,就叫做over-represented。fastqc的標準是占全部reads的0.1%以上。當發現超過總reads數0.1%的reads時報”WARN“,當發現超過總reads數1%的reads時報”FAIL“


Overrepresented sequences

Adapter Content

橫軸表示堿基位置,縱軸表示百分比。當fastqc分析時沒有選擇參數-a adapter list時,默認使用圖例中的4種通用adapter序列進行統計。若有adapter殘留,后續必須去接頭。

Adapter Content

在構建測序文庫時,會加上測序接頭,其目的一方面是為了能夠結合到flowcell上,另一方面是當有多個樣本同時測序的時候能夠利用接頭信息進行區分。當測序read的長度大于被測序的DNA片段時,就會在read的末尾測到這些接頭序列。一般的WGS測序是不會測到這些接頭序列的,因為構建WGS測序的文庫序列(插入片段)都比較長,約幾百bp,而read的測序長度都在100bp-150bp這個范圍。不過在進行一些RNA測序的時候,由于它們的序列本來就比較短,很多只有幾十bp長(特別是miRNA),那么就很容易會出現read測通的現象,這個時候就會在read的末尾測到這些接頭序列。

Kmer Content

重復短序列出現的次數


Kmer Content

注意事項:

1、數據質控是一個綜合的評價標準,其中主要指標為堿基質量與含量分布,如果這兩個指標合格了,后面大部分指標都可以通過。如果這兩項不合格,其余都會受到影響。
2、其中一些指標并不適合所有數據,例如DNA數據與RNA測序數據之間的差異等,要根據具體數據類型,具體分析。

以上就是一個完整的fastqC結果報告的簡單說明

轉載請注明出處
簡書作者:oddxix
微信公眾號:oddxix

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,084評論 2 375

推薦閱讀更多精彩內容