轉錄組入門(3):了解fastq測序數據

作業要求

需要用安裝好的sratoolkit把sra文件轉換為fastq格式的測序文件,并且用fastqc軟件測試測序文件的質量!
作業,理解測序reads,GC含量,質量值,接頭,index,fastqc的全部報告,搜索中文教程,并發在論壇上面。
來源于生信技能樹:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost


實驗過程

1.fastq-dump將sra數據轉換成fastq格式

# 需要將作業2(http://www.lxweimin.com/p/da377252ee96)中下載的測序數據用工具sratoolkit轉換成fastq的格式。
$ for ((i=56;i<=62;i++));do fastq-dump --gzip --split-3 -A ~/disk2/sra/SRR35899$i.sra -O ~/disk2/data/rna-seq;done

fastq-dump 用法:

--gzip 使得輸出的結果是.gz 的格式
--split-3 對于PE測序,輸出的結果是兩個
_1.fastq.gz
-A| --accession 輸入你的sra文件可以是絕對路徑,我的數據來源是~disk2/sra/SRR35899$i.sra ( 如果你直接寫accession,那么fastq-dump 會默認重新下載數據,并且會放在~/ncbi/public/sra目錄下
-O 是設置輸出的目錄

fastq格式:

Fastq格式是一種基于文本的存儲生物序列和對應堿基(或氨基酸)質量的文件格式。最初由桑格研究所(Wellcome Trust Sanger Institute)開發出來,現已成為存儲高通量測序數據的事實標準。

fastq數據格式

每條read由4行字符構成:
第一行:必須以@開頭,后面跟著序列的唯一ID以及相關說明內容。
第二行:核酸序列,是有ATCGN字符組成。
第三行:“+”開頭,內容和第一行@后面的一樣。
第四行:每個測序堿基質量,是用ASCII碼來表示的,與第二行的字符數一致。
堿基質量得分與錯誤率的換算關系:
Q = -10log10p(p表示測序的錯誤率,Q表示堿基質量分數)
ASCII值與堿基質量得分之間的關系:
Phred64 Q=ASCII轉換后的數值-64
Phred33 Q=ASCII轉換后的數值-33

如何判斷是Phred64 還是 Phred33 ?
ASCII值小于等于58(相應的質量得分小于等于25)對應的字符只有在Phred+33的編碼中被使用,所有Phred+64所使用的字符的ASCII值都大于等于59。在通常情況下,ASCII值大于等于74的字符只出現在Phred+64中。如果是最近兩年的測序數據,一般都是Phred33形式的。參考文章:http://blog.csdn.net/huyongfeijoe/article/details/51613827

2.Fastqc 進行測序結果的質控

用法
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
參數
-o 輸出目錄,需自己創建目錄
--(no)extract 是否解壓輸出文件,默認是自動解壓縮zip文件。加上--noextract不解壓文件。
-f 指定輸入文件的類型,支持fastq|bam|sam三種格式的文件,默認自動識別。
-t 同時處理的文件數目。
-c 是contaminant 文件,會從中搜索overpresent 序列。

$ mkdir -p ~/disk2/data/QC
$ cd ~/disk2/data/rna-seq
# 將所有的數據進行質控,得到zip的壓縮文件和html文件
$ fastqc -o ~/disk2/data/QC *.fastq.gz
質控結果文件

3.質控結果查看

質控結果有14個html文件,你可以選擇用瀏覽器打開查看最終的QC reports。

  • 首先來大概看一下QC結果報告。


    QC可視化結果——雙擊html文件,在瀏覽器中直接打開
  • 左邊是目錄概要,可以點擊想要看的結果,右邊會跳轉到特定詳細的可視化結果。綠色代表“通過”,黃色代表“警告”,紅色代表“不通過,失敗”。


    Summary
  • Basic Statistics,基本的數據統計包括文件名,文件類型,編碼形式,總的序列數,質量差的序列,序列平均長度,GC含量。


    基本數據統計
  • Per base sequence quality,每個read各位置堿基的測序質量。橫軸堿基的位置,縱軸是質量分數,Quality score=-10log10p(p代表錯誤率),所以當質量分數為40的時候,p就是0.0001,質量算高了。紅色線代表中位數,藍色代表平均數,黃色是25%-75%區間,觸須是10%-90%區間(黃色和觸須我不是特別明白)。若任一位置的下四分位數低于10或者中位數低于25,出現“警告”;若任一位置的下四分位數低于5或者中位數低于20,出現“失敗,Fail”
    各位置堿基質量
  • Per tile sequence quality,檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色代表偏離度小,質量好,越紅代表偏離度越大,質量越差。


    偏離度
  • Per sequence quality scores,reads質量的分布,當峰值小于27時,警告;當峰值小于20時,fail。我的報告峰值在38。
    reads質量分布
  • Per base sequence content,對所有reads的每一個位置,統計ATCG四種堿基的分布,橫軸為位置,縱軸為堿基含量,正常情況下每個位置每種堿基出現的概率是相近的,四條線應該平行且相近。當部分位置堿基的比例出現bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。本結果前10個位置,每種堿基頻率有明顯的差別,說明有污染。當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。
    堿基分布
  • Per Sequence GC Content,統計reads的平均GC含量的分布。紅線是實際情況,藍線是理論分布(正態分布,均值不一定在50%,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresented reads)。形狀接近正態但偏離理論分布的情況提示我們可能有系統偏差。偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。
    reads 平均GC含量分布
  • Per base N content,當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產生“N”,統計N的比率。正常情況下,N值非常小。當任意位置的N的比例超過5%,報"WARN";當任意位置的N的比例超過20%,報"FAIL"。
    各位置N的reads比率
  • Sequence Length Distribution,reads長度分布,當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”。
    reads 長度分布
  • Sequence Duplication Levels,統計不同拷貝數的reads的頻率。測序深度越高,越容易產生一定程度的duplication,這是正常的現象,但如果duplication的程度很高,就提示我們可能有bias的存在。橫坐標是duplication的次數,縱坐標是duplicated reads的數目,以unique reads的總數作為100%。下圖中,大于10個重復的reads占總序列的20%以上,其他依次類推。當非unique的reads占總數的比例大于20%時,報"WARN";當非unique的reads占總數的比例大于50%時,報"FAIL“。
    統計不同拷貝數的reads的頻率
  • Overrepresented sequences,一條序列的重復數,因為一個轉錄組中有非常多的轉錄本,一條序列再怎么多也不太會占整個轉錄組的一小部分(比如1%),如果出現這種情況,不是這種轉錄本巨量表達,就是樣品被污染。這個模塊列出來大于全部轉錄組1%的reads序列,但是因為用的是前200,000條,所以其實參考意義不大,完全可以忽略。


    一條序列的重復數
  • Adapter content,接頭含量


    接頭含量
  • Kmer content


    Kmer含量

參考資料:https://www.plob.org/article/5987.htmlhttp://blog.sina.com.cn/s/blog_1319a10ee0102vfbx.html

4.質控結果批量查看神器——MultiQC

知乎青山屋主寫的為知筆記介紹了multiQC軟件--批量顯示QC結果。

# 利用Anaconda來安裝MultiQC非常方便,首先得安裝Anaconda,用清華源下載,特別快,而官網實則難以接受。
# 清華源地址:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
# 官網:https://www.continuum.io/downloads/
$ cd ~/src
$ wget  https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
# 下載到的是shell腳本文件,直接運行,安裝完成
$ bash Anaconda2-4.4.0-Linux-x86_64.sh
# 添加 Anaconda Python 免費倉庫
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
$ conda config --set show_channel_urls yes
# 然后直接安裝MultiQC
$ conda install -c bioconda multiqc
# 測試
$ multiqc --help
# 進入存放QC結果的文件夾,并執行multiqc
$ cd ~/disk2/data/QC
# 掃描結果文件,忽略html文件
$ multiqc /data/*fastqc.zip --ignore *.html
# 最后會默認生成一個名為multiqc_report.html文件,用瀏覽器查看,具體看青山屋主的介紹。

參考資料:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
https://www.continuum.io/downloads/
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1iRTvV2GwkwL2AaxYi2fXHP7

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容