利用fastqc檢測原始序列的質量

FastQC是一款基于Java的軟件,一般都是在linux環境下使用命令行運行,它可以快速多線程地對測序數據進行質量評估(Quality Control),其官網地址為:Babraham Bioinformatics
FastQC的下載和安裝,和一般的Java軟件沒有什么區別,我們在這里就不做介紹了,在成功安裝好以后,我們就在命令行模式下,輸入fastqc就可以調用這個程序,這時候我們可以選擇 --help選項查看幫助文檔:

# 基本格式# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
# 主要是包括前面的各種選項和最后面的可以加入N個文件
# -o --outdir FastQC生成的報告文件的儲存路徑,生成的報告的文件名是根據輸入來定的
# --extract 生成的報告默認會打包成1個壓縮文件,使用這個參數是讓程序不打包
# -t --threads 選擇程序運行的線程數,每個線程會占用250MB內存,越多越快咯
# -c --contaminants 污染物選項,輸入的是一個文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有這個選項,FastQC會在計算時候評估污染的情況,并在統計的時候進行分析,一般用不到
# -a --adapters 也是輸入一個文件,文件的格式Name [Tab] Sequence,儲存的是測序的adpater序列信息,如果不輸入,目前版本的FastQC就按照通用引物來評估序列時候有adapter的殘留
# -q --quiet 安靜運行模式,一般不選這個選項的時候,程序會實時報告運行的狀況。

簡單使用:
fastqc -o qc -t 10 KPGP-00001_L1_R1.fq.gz
運行一段時間以后,就會在qc文件夾中出現以下報告文件:
KPGP-00001_L1_R1_fastqc.html KPGP-00001_L1_R1_fastqc.zip

使用瀏覽器打開后綴是html的文件,就是圖表化的fastqc報告。

1、Summary

統攬全局

從頁面左側的的summary中可以看出有哪些選項沒有通過,上圖可以看出此數據的測序質量很好,沒有問題。

2、Basic Statics

基本統計信息

在這里我們可以看出數據的序列數量,測序平臺以及GC含量等相關信息。

3、Per base sequence quality

每個位置的堿基的質量情況

在這個圖我們可以看到每個位置的堿基質量情況。

# 此圖中的橫軸是測序序列第1個堿基到第101個堿基# 縱軸是質量得分,Q = -10*log10(error P)即20表示1%的錯誤率,30表示0.1%
# 圖中每1個boxplot,都是該位置的所有序列的測序質量的一個統計,上面的bar是90%分位數,下面的bar是10%分位數,箱子的中間的橫線是50%分位數,箱子的上邊是75%分位數,下邊是25%分位數
# 圖中藍色的細線是各個位置的平均值的連線# 一般要求此圖中,所有位置的10%分位數大于20,也就是我們常說的Q20過濾
# 所以上面的這個測序結果,需要把后面的87bp以后的序列切除,從而保證后續分析的正確性
# Warning 報警 如果任何堿基質量低于10,或者是任何中位數低于25# Failure 報錯 如果任何堿基質量低于5,或者是任何中位數低于20

4、Per tile sequence quality

每個tile測序的情況

這個圖顯示了各個tile的序列質量情況

# 橫軸和之前一樣,代表101個堿基的每個不同位置# 縱軸是tail的Index編號
# 這個圖主要是為了防止,在測序過程中,某些tile受到不可控因素的影響而出現測序質量偏低
# 藍色代表測序質量很高,暖色代表測序質量不高,如果某些tail出現暖色,可以在后續分析中把該tail測序的結果全部都去除

5、Per sequence quality scores

每條序列的測序質量統計

這個圖可以看出各個序列質量的分布情況,上圖可以看出絕大部分序列質量都在30以上,質量可以說是很好了。

# 假如我測的1條序列長度為101bp,那么這101個位置每個位置Q之的平均值就是這條reads的質量值
# 該圖橫軸是0-40,表示Q值# 縱軸是每個值對應的reads數目# 我們的數據中,測序結果主要集中在高分中,證明測序質量良好!

6、Per base sequence content

每個位置上的堿基的比例分布

這個圖可以看出每條序列中各個位置的平均堿基比例,如出現AT或GC分離的情況說明這個數據有問題,需要處理。

# 橫軸是1 - 101 bp;縱軸是百分比
# 圖中四條線代表A T C G在每個位置平均含量# 理論上來說,A和T應該相等,G和C應該相等,但是一般測序的時候,剛開始測序儀狀態不穩定,很可能出現嚴重分離的情況。像這種情況,即使測序的得分很高,也需要cut開始部分的序列信息,一般像這種情況,會cut前面5-10bp

7、Per sequence GC content

read的GC含量的頻率分布圖

序列平均GC含量分布圖,可以看出在這個fq文件中序列平均GC含量在39%左右。

# 橫軸是0 - 100%; 縱軸是每條序列GC含量對應的數量
# 藍色的線是程序根據經驗分布給出的理論值,紅色是真實值,兩個應該比較接近才比較好
# 當紅色的線出現雙峰,基本肯定是混入了其他物種的DNA序列
# 這張圖中的信息良好

8、Per base N content

per_base_n_content.png

序列中各個位點的N含量,越小越好。

9、Sequence Length Distribution

sequence_length_distribution.png

序列測序長度統計,從圖中可以看出序列的平均長度為90。

# 每次測序儀測出來的長度在理論上應該是完全相等的,但是總會有一些偏差# 比如此圖中,101bp是主要的,但是還是有少量的100和102bp的長度,不過數量比較少,不影響后續分析# 當測序的長度不同時,如果很嚴重,則表明測序儀在此次測序過程中產生的數據不可信

10、Sequence Duplication Levels

read重復的頻率分布

sequences duplication是指在測序前建庫PCR過程中導致的一些序列擴增次數過多導致的。若重復較高則需要進行處理這些dup。

11、Overrepresented sequences

如果有某個序列大量出現,就叫做over-represented。fastqc的標準是占全部reads的0.1%以上。為了計算方便,只取了fq數據的前200,000條reads進行統計,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。

當發現超過總reads數0.1%的reads時報"黃色!",當發現超過總reads數1%的reads時報"紅色×"。

12、Adapter Content

adapter_content.png

序列Adapter

# 此圖衡量的是序列中兩端adapter的情況# 如果在當時fastqc分析的時候-a選項沒有內容,則默認使用圖例中的四種通用adapter序列進行統計
# 本例中adapter都已經去除,如果有adapter序列沒有去除干凈的情況,在后續分析的時候需要先使用cutadapt軟件進行去接頭,也可以用 trimmomatic來去除接頭

13、Kmer Content

kmer_profiles.png

如果某k個bp的短序列在reads中大量出現,其頻率高于統計期望的話,fastqc將其記為over-represented k-mer。默認的k = 5,可以用-k --kmers選項來調節,范圍是2-10。出現頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer被認為是over-represented。fastqc除了列出所有over-represented k-mers,還會把前6個的per base distribution畫出來。

當有出現頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer時,報"黃色!";當有出現頻率在某位置上10倍于期望的k-mer時報"紅色×"。本圖所顯示的結果來自于表格中前六個序列。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,362評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,013評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,346評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,421評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,146評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,534評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,585評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,767評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,318評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,074評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,258評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,828評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,486評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,916評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,156評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,993評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,234評論 2 375

推薦閱讀更多精彩內容