一文讀懂FastQC Report

前言:從今天開始就開始為拼裝轉錄組做準備啦,今天聽了技能樹組織的生信人論壇,感覺很有意思。特此聲明:本文所有代碼及文件經通過本人親自實踐!絕對沒有副作用!當然希望大家多提出寶貴意見,這樣可以方便我更好的學習和進步。

特別注意:本文所用數據已經經過Trimmomatic清洗!

Basic Statistics

總覽,來判斷測序質量

圖1 Basic Statistics

Encoding:測序平臺信息,我也不知道這個樣本的測序信息對不對,所以這里就沒有辦法深入解釋了。

Total Sequences:測序獲得的reads數目,測序質量的重要評價手段。

Sequences flagged as poor quality:標記為差的堿基序列,這個貌似沒有神馬用處

Sequence length:測序獲得長度

%GC:整個測序中堿基GC所占比例,一般有物種特異性。

注意:Sequence length GC

Per base sequence quality

圖2 Per base sequence quality

橫坐標:堿基所在的測序位置,這個一般根據不同測序平臺會有不同。

縱坐標:測序質量。20%代表錯誤為1%的錯誤讀取率,30%代表0.1%的錯誤讀取率。

圖例:箱線圖,25-50-75%代表數據所處位置。

注意:理論來說好的測序結果應該都在綠色和黃色區域,紅色區域代表測序質量較差。

Per tile sequence quality

圖 3 Per tile sequence quality

橫坐標:堿基所在的測序位置,這個一般根據不同測序平臺會有不同。

縱坐標:tile的index編號(tile應該是flow cell - lane - tile中的單位。

注意:也是判定測序質量好和不好的依據,整張圖應該以冷色調為主,如果出現大量暖色,則證明某些tail測序有些問題,在后期的處理過程中可以刪掉那些暖色的tail。

Per sequence quality scores

1563507204317.png

從read的總體質量判定這次測序的質量,是質量分析的重要標準之一。

橫坐標:測序質量。20%代表錯誤為1%的錯誤讀取率,30%代表0.1%的錯誤讀取率。

縱坐標:在該質量值下的read數目。

注意:峰應該集中在高質量區間,即圖像起始點最好大于20。

Per base sequence content

圖4 Per base sequence content

橫坐標:還是堿基的數目

縱坐標:堿基的百分比

注意:ATCG堿基分布應該差異不大。兩條緊挨著的線:AT、CG誤差應小于10%,若大于該比值則認為測序風險大。由于測序儀調整造成前幾個測序結果略有誤差,同時也有同學指出可能是含有接頭序列所導致的堿基偏好,可以通過后期工作將前幾個堿基刪掉。在本案例中由于測序質量很好,就沒有進行刪除操作(ps 查了幾個資料,大家爭議比較大,建議還是根據自身情況進行確定,至于刪除與否建議參考biostar相關的帖子)。

Per sequence GC content

圖5 Per sequence GC content

橫坐標:每個read的平均GC比

縱坐標:該GC比下,read的數量

注意:藍色是理論值,測序結果趨向藍色越好。如果有其它污染會導致雙峰圖樣。

Per base N content

圖6 Per base N content

橫坐標:又是堿基數目。

縱坐標:N(未知堿基)所占比例。

注意:未知堿基數目越少越好。

Sequence Length Distribution

[圖片上傳失敗...(image-ee9921-1564222758518)]

橫坐標:read的長度,本文中應該是125。

縱坐標:代表在該長度下read數目的多少。

Sequence Duplication Levels

圖7 Sequence Duplication Levels

橫坐標:序列重復等級

縱坐標:重復數量

注意:在測序建庫PCR過程中,由一些基因擴增次數過多導致。重復次數為一次的比例越高越好。但由于本文中使用的是轉錄組數據,偏高正常,一旦移除會對后面定量分析計算帶來困擾。

Overrepresented sequences

圖8 Overrepresented sequences

大量重復序列:FastQC檢測出的大量重復序列。

Adapter Content

圖9 Adapter Content

橫坐標:又又又是堿基所在位置。

縱坐標:接頭所占比例。

注意:當FastQC參數中 -a中沒有參數時,默認使用四種lillmina接頭進行匹配。

Kmer Content

圖10 Kmer Content

橫坐標:又又又又是相同的內容。

縱坐標:觀測值和預測值的比值。

注意:啥是K-mer啊?具體可以看參考資料5。其實就是一段短小的重復序列。

圖11 K-mer統計圖

這是前面k-mer=5時(軟件默認)生成的表格,主要用于檢查數量情況。

參考資料:

  1. (3)轉錄組之數據質控 http://www.lxweimin.com/p/2ed3622ed4a8

  2. 【轉錄組入門】3:了解fastq測序數據 https://www.cnblogs.com/chenpeng1024/p/9166988.html

  3. 利用fastqc檢測原始序列的質量 http://www.lxweimin.com/p/a1eb03d63083

  4. Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/

  5. Kmer content http://seqanswers.com/forums/showthread.php?t=16262

  6. FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646

  7. Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,656評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,697評論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,098評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,855評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,254評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,473評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,014評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,833評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,016評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,273評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,680評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,946評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,730評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,006評論 2 374

推薦閱讀更多精彩內容