前言:從今天開始就開始為拼裝轉錄組做準備啦,今天聽了技能樹組織的生信人論壇,感覺很有意思。特此聲明:本文所有代碼及文件經通過本人親自實踐!絕對沒有副作用!當然希望大家多提出寶貴意見,這樣可以方便我更好的學習和進步。
特別注意:本文所用數據已經經過Trimmomatic清洗!
Basic Statistics
總覽,來判斷測序質量
Encoding:測序平臺信息,我也不知道這個樣本的測序信息對不對,所以這里就沒有辦法深入解釋了。
Total Sequences:測序獲得的reads數目,測序質量的重要評價手段。
Sequences flagged as poor quality:標記為差的堿基序列,這個貌似沒有神馬用處
Sequence length:測序獲得長度
%GC:整個測序中堿基GC所占比例,一般有物種特異性。
注意:Sequence length GC
Per base sequence quality
橫坐標:堿基所在的測序位置,這個一般根據不同測序平臺會有不同。
縱坐標:測序質量。20%代表錯誤為1%的錯誤讀取率,30%代表0.1%的錯誤讀取率。
圖例:箱線圖,25-50-75%代表數據所處位置。
注意:理論來說好的測序結果應該都在綠色和黃色區域,紅色區域代表測序質量較差。
Per tile sequence quality
橫坐標:堿基所在的測序位置,這個一般根據不同測序平臺會有不同。
縱坐標:tile的index編號(tile應該是flow cell - lane - tile中的單位。
注意:也是判定測序質量好和不好的依據,整張圖應該以冷色調為主,如果出現大量暖色,則證明某些tail測序有些問題,在后期的處理過程中可以刪掉那些暖色的tail。
Per sequence quality scores
從read的總體質量判定這次測序的質量,是質量分析的重要標準之一。
橫坐標:測序質量。20%代表錯誤為1%的錯誤讀取率,30%代表0.1%的錯誤讀取率。
縱坐標:在該質量值下的read數目。
注意:峰應該集中在高質量區間,即圖像起始點最好大于20。
Per base sequence content
橫坐標:還是堿基的數目
縱坐標:堿基的百分比
注意:ATCG堿基分布應該差異不大。兩條緊挨著的線:AT、CG誤差應小于10%,若大于該比值則認為測序風險大。由于測序儀調整造成前幾個測序結果略有誤差,同時也有同學指出可能是含有接頭序列所導致的堿基偏好,可以通過后期工作將前幾個堿基刪掉。在本案例中由于測序質量很好,就沒有進行刪除操作(ps 查了幾個資料,大家爭議比較大,建議還是根據自身情況進行確定,至于刪除與否建議參考biostar相關的帖子)。
Per sequence GC content
橫坐標:每個read的平均GC比
縱坐標:該GC比下,read的數量
注意:藍色是理論值,測序結果趨向藍色越好。如果有其它污染會導致雙峰圖樣。
Per base N content
橫坐標:又是堿基數目。
縱坐標:N(未知堿基)所占比例。
注意:未知堿基數目越少越好。
Sequence Length Distribution
[圖片上傳失敗...(image-ee9921-1564222758518)]
橫坐標:read的長度,本文中應該是125。
縱坐標:代表在該長度下read數目的多少。
Sequence Duplication Levels
橫坐標:序列重復等級
縱坐標:重復數量
注意:在測序建庫PCR過程中,由一些基因擴增次數過多導致。重復次數為一次的比例越高越好。但由于本文中使用的是轉錄組數據,偏高正常,一旦移除會對后面定量分析計算帶來困擾。
Overrepresented sequences
大量重復序列:FastQC檢測出的大量重復序列。
Adapter Content
橫坐標:又又又是堿基所在位置。
縱坐標:接頭所占比例。
注意:當FastQC參數中 -a中沒有參數時,默認使用四種lillmina接頭進行匹配。
Kmer Content
橫坐標:又又又又是相同的內容。
縱坐標:觀測值和預測值的比值。
注意:啥是K-mer啊?具體可以看參考資料5。其實就是一段短小的重復序列。
這是前面k-mer=5時(軟件默認)生成的表格,主要用于檢查數量情況。
參考資料:
(3)轉錄組之數據質控 http://www.lxweimin.com/p/2ed3622ed4a8
【轉錄組入門】3:了解fastq測序數據 https://www.cnblogs.com/chenpeng1024/p/9166988.html
利用fastqc檢測原始序列的質量 http://www.lxweimin.com/p/a1eb03d63083
Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/
Kmer content http://seqanswers.com/forums/showthread.php?t=16262
FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646
Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/