作業要求

需要用安裝好的sratoolkit把sra文件轉換為fastq格式的測序文件，并且用fastqc軟件測試測序文件的質量！
作業，理解測序reads，GC含量，質量值，接頭，index，fastqc的全部報告，搜索中文教程，并發在論壇上面。
來源于生信技能樹：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

實驗過程

1.fastq-dump將sra數據轉換成fastq格式

# 需要將作業2（http://www.lxweimin.com/p/da377252ee96）中下載的測序數據用工具sratoolkit轉換成fastq的格式。
$ for ((i=56;i<=62;i++));do fastq-dump --gzip --split-3 -A ~/disk2/sra/SRR35899$i.sra -O ~/disk2/data/rna-seq;done

fastq-dump 用法：

--gzip 使得輸出的結果是.gz 的格式
--split-3 對于PE測序，輸出的結果是兩個_1.fastq.gz
-A| --accession 輸入你的sra文件可以是絕對路徑，我的數據來源是~disk2/sra/SRR35899$i.sra （ 如果你直接寫accession，那么fastq-dump 會默認重新下載數據，并且會放在~/ncbi/public/sra目錄下）
-O 是設置輸出的目錄

fastq格式：

Fastq格式是一種基于文本的存儲生物序列和對應堿基（或氨基酸）質量的文件格式。最初由桑格研究所（Wellcome Trust Sanger Institute）開發出來，現已成為存儲高通量測序數據的事實標準。

fastq數據格式

每條read由4行字符構成：
第一行：必須以@開頭，后面跟著序列的唯一ID以及相關說明內容。
第二行：核酸序列，是有ATCGN字符組成。
第三行：“+”開頭，內容和第一行@后面的一樣。
第四行：每個測序堿基質量，是用ASCII碼來表示的，與第二行的字符數一致。
堿基質量得分與錯誤率的換算關系：
Q = -10log10p（p表示測序的錯誤率，Q表示堿基質量分數）
ASCII值與堿基質量得分之間的關系：
Phred64 Q=ASCII轉換后的數值-64
Phred33 Q=ASCII轉換后的數值-33

如何判斷是Phred64 還是 Phred33 ？
ASCII值小于等于58（相應的質量得分小于等于25）對應的字符只有在Phred+33的編碼中被使用，所有Phred+64所使用的字符的ASCII值都大于等于59。在通常情況下，ASCII值大于等于74的字符只出現在Phred+64中。如果是最近兩年的測序數據，一般都是Phred33形式的。參考文章：http://blog.csdn.net/huyongfeijoe/article/details/51613827

2.Fastqc 進行測序結果的質控

用法：
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
參數：
-o 輸出目錄，需自己創建目錄
--(no)extract 是否解壓輸出文件，默認是自動解壓縮zip文件。加上--noextract不解壓文件。
-f 指定輸入文件的類型，支持fastq|bam|sam三種格式的文件，默認自動識別。
-t 同時處理的文件數目。
-c 是contaminant 文件，會從中搜索overpresent 序列。

$ mkdir -p ~/disk2/data/QC
$ cd ~/disk2/data/rna-seq
# 將所有的數據進行質控，得到zip的壓縮文件和html文件
$ fastqc -o ~/disk2/data/QC *.fastq.gz

質控結果文件

3.質控結果查看

質控結果有14個html文件，你可以選擇用瀏覽器打開查看最終的QC reports。

首先來大概看一下QC結果報告。

QC可視化結果——雙擊html文件，在瀏覽器中直接打開
左邊是目錄概要，可以點擊想要看的結果，右邊會跳轉到特定詳細的可視化結果。綠色代表“通過”，黃色代表“警告”，紅色代表“不通過，失敗”。

Summary
Basic Statistics，基本的數據統計包括文件名，文件類型，編碼形式，總的序列數，質量差的序列，序列平均長度，GC含量。

基本數據統計
Per base sequence quality，每個read各位置堿基的測序質量。橫軸堿基的位置，縱軸是質量分數，Quality score=-10log10p（p代表錯誤率），所以當質量分數為40的時候，p就是0.0001，質量算高了。紅色線代表中位數，藍色代表平均數，黃色是25%-75%區間，觸須是10%-90%區間（黃色和觸須我不是特別明白）。若任一位置的下四分位數低于10或者中位數低于25，出現“警告”；若任一位置的下四分位數低于5或者中位數低于20，出現“失敗，Fail”。

各位置堿基質量
Per tile sequence quality，檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度，藍色代表偏離度小，質量好，越紅代表偏離度越大，質量越差。

偏離度
Per sequence quality scores，reads質量的分布，當峰值小于27時，警告；當峰值小于20時，fail。我的報告峰值在38。

reads質量分布
Per base sequence content，對所有reads的每一個位置，統計ATCG四種堿基的分布，橫軸為位置，縱軸為堿基含量，正常情況下每個位置每種堿基出現的概率是相近的，四條線應該平行且相近。當部分位置堿基的比例出現bias時，即四條線在某些位置紛亂交織，往往提示我們有overrepresented sequence的污染。本結果前10個位置，每種堿基頻率有明顯的差別，說明有污染。當任一位置的A/T比例與G/C比例相差超過10%，報"WARN"；當任一位置的A/T比例與G/C比例相差超過20%，報"FAIL"。

堿基分布
Per Sequence GC Content，統計reads的平均GC含量的分布。紅線是實際情況，藍線是理論分布（正態分布，均值不一定在50%，而是由平均GC含量推斷的）。曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差（overrepresented reads）。形狀接近正態但偏離理論分布的情況提示我們可能有系統偏差。偏離理論分布的reads超過15%時，報"WARN"；偏離理論分布的reads超過30%時，報"FAIL"。

reads 平均GC含量分布
Per base N content，當測序儀器不能辨別某條reads的某個位置到底是什么堿基時，就會產生“N”，統計N的比率。正常情況下，N值非常小。當任意位置的N的比例超過5%，報"WARN"；當任意位置的N的比例超過20%，報"FAIL"。

各位置N的reads比率
Sequence Length Distribution，reads長度分布，當reads長度不一致時報"WARN"；當有長度為0的read時報“FAIL”。

reads 長度分布
Sequence Duplication Levels，統計不同拷貝數的reads的頻率。測序深度越高，越容易產生一定程度的duplication，這是正常的現象，但如果duplication的程度很高，就提示我們可能有bias的存在。橫坐標是duplication的次數，縱坐標是duplicated reads的數目，以unique reads的總數作為100%。下圖中，大于10個重復的reads占總序列的20%以上，其他依次類推。當非unique的reads占總數的比例大于20%時，報"WARN"；當非unique的reads占總數的比例大于50%時，報"FAIL“。

統計不同拷貝數的reads的頻率
Overrepresented sequences，一條序列的重復數，因為一個轉錄組中有非常多的轉錄本，一條序列再怎么多也不太會占整個轉錄組的一小部分（比如1%），如果出現這種情況，不是這種轉錄本巨量表達，就是樣品被污染。這個模塊列出來大于全部轉錄組1%的reads序列，但是因為用的是前200,000條，所以其實參考意義不大，完全可以忽略。

一條序列的重復數
Adapter content，接頭含量

接頭含量
Kmer content

Kmer含量

參考資料：https://www.plob.org/article/5987.html；http://blog.sina.com.cn/s/blog_1319a10ee0102vfbx.html。

4.質控結果批量查看神器——MultiQC

知乎青山屋主寫的為知筆記介紹了multiQC軟件--批量顯示QC結果。

# 利用Anaconda來安裝MultiQC非常方便，首先得安裝Anaconda，用清華源下載，特別快，而官網實則難以接受。
# 清華源地址：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
# 官網：https://www.continuum.io/downloads/
$ cd ~/src
$ wget  https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
# 下載到的是shell腳本文件，直接運行，安裝完成
$ bash Anaconda2-4.4.0-Linux-x86_64.sh
# 添加 Anaconda Python 免費倉庫
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
$ conda config --set show_channel_urls yes
# 然后直接安裝MultiQC
$ conda install -c bioconda multiqc
# 測試
$ multiqc --help
# 進入存放QC結果的文件夾，并執行multiqc
$ cd ~/disk2/data/QC
# 掃描結果文件，忽略html文件
$ multiqc /data/*fastqc.zip --ignore *.html
# 最后會默認生成一個名為multiqc_report.html文件，用瀏覽器查看，具體看青山屋主的介紹。

參考資料：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
https://www.continuum.io/downloads/
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1iRTvV2GwkwL2AaxYi2fXHP7

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

轉錄組入門（3）：了解fastq測序數據

轉錄組入門（3）：了解fastq測序數據

作業要求

實驗過程

1.fastq-dump將sra數據轉換成fastq格式

fastq-dump 用法：

fastq格式：

2.Fastqc 進行測序結果的質控

3.質控結果查看

4.質控結果批量查看神器——MultiQC

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

轉錄組入門（3）：了解fastq測序數據

作業要求

實驗過程

1.fastq-dump將sra數據轉換成fastq格式

fastq-dump 用法：

fastq格式：

2.Fastqc 進行測序結果的質控

3.質控結果查看

4.質控結果批量查看神器——MultiQC

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频