三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<sup id="c9lhm"><rt id="c9lhm"></rt></sup>

<cite id="c9lhm"></cite>

^{<blockquote id="c9lhm"></blockquote>}

登錄注冊寫文章

2020-01-12 FASTQ文件可視化和質控（QC）

王子威PtaYoth

2020-01-12 FASTQ文件可視化和質控（QC）

XII部分講數據的質控，因為已經拿到數據了，就先從這一步開始做吧：

換算成第三張圖的error values就可以可視化了。
但是error value非常不可靠，將error values作為一種建議而非精確的測量值（“treat them as an advisory rather than accurate measurements”）

FastQC工具

FastQC并不進行質控，只是可視化數據的質量。也是目前最好的FASTQ質量可視化工具。

即使它是事實上的可視化標準，其結果也不總是最容易解釋的。

優點：
該工具易于運行（僅需要Java），并且可以繪制出美觀的圖表。
缺點：
已針對Illumina平臺進行了調試，在其他類型的數據上可能不穩定。
某些精美圖表并未提供足夠信息或導致困惑。例如K-MER圖和Overrepresented Sequences圖，并沒有給出多數人希望給出的內容。
可視化結果需要一個一個點開，不太方便。

FastQC如何工作

FastQC通過評估一小部分數據并將這些結果外推到整個數據集來生成報告。許多指標只在最初的200000個測量值上計算，然后通過其余數據進行跟蹤。

FastQC工具的幫助文檔：
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help

如何運行FastQC執行可視化

下載示例數據

wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
# 包含了illumina.fq, iontorrent.fq, pacbio.fq, minion.fq四個平臺的.fq文件

head -10一下fastq文件

運行FastQC工具

fastqc illumina.fq

命令生成一個HTML文件，包含運行結果

感言：

對fq.gz使用tar沒用
gunzip不知是否是沒有指定目標文件的緣故，原壓縮文件在解壓后消失了。。7G的壓縮文件變成了33G
隨后執行fastqc QFPG_2.fq
生成的html在服務器上，使用Xftp 6軟件進行傳輸

FastQC可視化結果
參考博文：《FastQC數據質控報告的詳細解讀》
http://www.lxweimin.com/p/dc6820eb342e

基本信息，序列長度150bp，GC含量52%，總共測了90million的序列
Conventional base calls什么意思..

每個序列reads的質量，前幾個read是質量慢慢升高，穩定，最后下降

每個tile的序列質量，tile應該指chip-lane-swath-tile

序列平均質量的分布

每個序列的堿基含量，為什么前15個reads堿基比例波動這么大！

序列GC含量的分布，有3個峰，理論分布為正態分布？

N堿基的含量，第1個堿基N的百分比較高

讀長150bp，很穩

序列重復水平，非unique reads占總數比例60%左右。橫軸為序列重復水平，藍線unique reads總數（藍線）作為100%，重復2次序列占10%，重復>10次序列占10%，重復>10k序列占15%

大量表達的序列

接頭含量

重復短序列含量 這個圖不怎懂

序列的質量控制

質量控制（QC）通過去除數據中可識別的錯誤來改善數據。通常是數據采集后執行的第一步。
由于這是更改數據的過程，因此我們必須非常謹慎，理想情況下，我們只希望相同的 (same)，更準確 (more accurate)的數據。由于QC不能把不好的數據變成有用的數據，不能對QC抱有不合理的期望。

一些觀念上的錯誤

進行簡單的QC后數據就可以使用了，不要浪費時間摳細節
不要反復調整QC，以似乎“改善”最終結果。這樣做的危險是過擬合——使數據與期望的結果匹配。

執行QC的時機

序列比對前：這時所有數據的QC protocol都是一樣的
序列比對后：這時根據分析的不同執行不同的protocol

執行QC的具體步驟

可視化數據
當數據質量不錯時，直接進行分析
若質量不可靠，執行QC，回到第1步

QC工具有多可靠

沒多可靠。這是現實。
對于什么是“好數據”，充斥著各種主觀的判斷

QC同樣會產生新的錯誤

每個QC步驟都會引入新的錯誤。
終極哲學問題：你是愿意處理儀器引起的錯誤，還是愿意處理校正儀器錯誤時引入的新的錯誤？
因此如果數據沒問題，那就不要QC了。

QC工具列表

作者推薦Trimmomatic, BBDuk, flexbar, cutadapt
每個工具都包括了基本的QC方法和一些獨特方法

列表

read質量修剪是

最后編輯于：2020.01.12 21:32:24

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

2018-06-25
專業考題類型管理運行工作負責人一般作業考題內容選項A選項B選項C選項D選項E選項F正確答案變電單選GYSZ本規程...
小白兔去釣魚閱讀 9,051評論 0贊 13
biostar handbook(五)|序列從何而來和質量控制
測序儀 2017年一篇發表在Nature的綜述"DNA sequencing at 40: past, prese...
xuzhougeng閱讀 2,055評論 0贊 6
轉錄組學習三（數據質控）
轉錄組學習一（軟件安裝）轉錄組學習二（數據下載）轉錄組學習三（數據質控）轉錄組學習四（參考基因組及gt...
Dawn_WangTP閱讀 20,697評論 3贊 34
2018年9月份29號，星期一，天氣晴
今天天氣晴朗，孩子作業很晚完成，起床很早，進步很快，姑且今天心情好!
劉獻謙的爸爸閱讀 250評論 0贊 1
投射001
投射過年老公給我發個大大的紅包，投射老公用心好好愛我，所有的事情主動告訴我。投射邵桐主動學習認真完成作業，做一...
幸福女人敏閱讀 232評論 0贊 0

2贊3贊

贊賞

手機看全文

主站蜘蛛池模板：琼结县| 金阳县| 荆州市| 中阳县| 体育| 平邑县| 平顺县| 瑞金市| 镇宁| 南昌市| 灵山县| 丽江市| 沁水县| 静乐县| 尚志市| 浦城县| 淮滨县| 廉江市| 马尔康县| 临潭县| 吐鲁番市| 木里| 通渭县| 江川县| 蓬溪县| 甘泉县| 临江市| 秦皇岛市| 晋城| 营山县| 诸暨市| 鹿泉市| 康马县| 宜章县| 永泰县| 东海县| 普洱| 莱芜市| 崇明县| 沙田区| 玉林市|

<dfn id="eclpp"><cite id="eclpp"></cite></dfn>

<li id="eclpp"><dl id="eclpp"></dl></li><li id="eclpp"><rt id="eclpp"></rt></li>

<rt id="eclpp"></rt>

<abbr id="eclpp"><abbr id="eclpp"></abbr></abbr>