fastQC對RNA-seq質控

FastQC - A high throughput sequence QC analysis tool

fastqc安裝

1. 下載fastqc安裝包http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

wget [http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip](http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip)

2. 解壓
unzip fastqc_v0.11.7.zip

3. 賦予執行權限:

chmod 755 fastqc
./fastqc -v

fastqc使用

1. FastQC參數:
-o --outdir:輸出路徑
--extract:結果文件解壓縮
--noextract:結果文件壓縮
-f --format:輸入文件格式.支持bam,sam,fastq文件格式
-t --threads:線程數
-c --contaminants:制定污染序列。文件格式 name[tab]sequence
-a --adapters:指定接頭序列。文件格式name[tab]sequence
-k --kmers:指定kmers長度(2-10bp,默認7bp)
-q --quiet: 安靜模式

2. 運行命令

fastqc -t 8 -o path/fastqc sample1_R1.fq sample1_R2.fq

fastqc結果查看

1. 產生兩個結果文件:
html:網頁版結果
zip:本地結果壓縮文件

2.需要重點關注的結果:

  • Basic Statistics:**對數據量的概覽
  • Per base sequence quality:reads每個位置測序質量最直接的展示
  • Per sequence quality scores:總體reads測序質量趨勢
  • Per base sequence content:ATGC含量估計測序是否存在偏差
  • Sequence Duplication Levels]:影響測序的因素太多,查看是否存在污染,數據處理時是否需要去冗余;現在數據量都可以滿足需求,因此前期數據處理時,盡量高標準,嚴格質控;。

3. 查看網頁版結果
網頁版結果頁面左上角是一個summary:

Summary

各種顏色是各項標準分析結果:綠色代表"PASS";
黃色代表"WARN";紅色代表"FAIL"。

Basic Statistics
Per base sequence quality

reads上每個位置堿基質量
質量分數使用Fred quality,Q=-10*log10(p),p為堿基測序錯誤概率。
橫軸堿基的位置,縱軸是質量分數。紅色表示中位數,黃色是25%-75%區間,觸須是10%-90%區間,藍線是平均數。
平均每個堿基的測序質量boxplot下四分位線在30分以上,則認為測序質量非常好;一般情況下,reads首尾質量較差。
若任一位置的下四分位數低于10或中位數低于25,報"WARN";
若任一位置的下四分位數低于5或中位數低于20,報"FAIL"。

Per tile sequence quality

檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色表示低于平均偏離度,偏離度小,質量好;越紅表示偏離平均質量越多,質量也越差。如果出現質量問題可能是短暫的,如有氣泡產生,也可能是長期的,如在某一小孔中存在殘骸,問題不大。

Per sequence quality scores

每條序列的測序質量分布
橫軸為序列測序質量,縱軸是reads數目。一般認為90%的reads測序質量在35分以上,則認為該測序質量非常好。
當測序質量峰值小于27(錯誤率0.2%)時報"WARN";
當峰值小于20(錯誤率1%)時報"FAIL"。

Per base sequence content

統計reads每個位置ATCG四種堿基的分布:
橫軸為堿基位置,縱軸為百分比。因為隨機的文庫中,正常情況下所有位置出現某種堿基的概率是相近的,因此好的測序結果中四條線應該平行且接近。當部分位置堿基的比例出現bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當所有位置的堿基比例一致的表現出bias時,即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點),或者是測序中的系統誤差。
當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";
當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。

Per sequence GC content

統計reads的平均GC含量分布
紅線是實際情況,藍線是理論分布(正態分布,均值不一定在50%,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresented reads)。形狀接近正態但偏離理論分布的情況提示我們可能有系統偏差。

偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。

Per base N content

統計reads每個位置N的比率
reads某個位置無法確定是何種堿基時,使用N代替;
正常情況下,N的比例是很小的,所以圖上常常看到一條直線,但放大Y軸之后會發現還是有N的存在,這不算問題。當Y軸在0%-100%的范圍內也能看到“鼓包”時,說明測序系統出了問題。
當任意位置的N的比例超過5%,報"WARN";
當任意位置的N的比例超過20%,報"FAIL"。

Sequence length Distribution

reads長度分布
為了防止建庫或者測序時有一些不規則長度的序列也被進行測序而進行的一個對長度的統計,當所有序列的長度不一樣,fastqc就會警告。
當reads長度不一致時報"WARN";
當有長度為0的read時報“FAIL”。

統計reads重復水平
測序本身就會產生重復reads,測序深度越高,reads重復數越大;如果重復出現峰值,就提示可能b存在偏差(如建庫過程中的PCR duplication)。
橫坐標是重復的次數,縱坐標是duplicated reads占unique reads種數百分比。

fastqc抽取reads文件前200,000條reads統計其重復情況。重復數目大于等于10的reads被合并統計,這也是為什么我們看到上圖的最右側略有上揚。大于75bp的reads只取50bp進行比較。由于reads越長錯誤率越高,所以其重復程度仍有可能被低估。
當非unique的reads占總數的比例大于20%時,報"WARN";
當非unique的reads占總數的比例大于50%時,報"FAIL“。

過度重復出現的序列的統計信息(此次沒有)

Adapter序列在reads中出現概率
接頭序列統計,>5%時是Warning,>10%時是Failure。

過度重復的短序列統計
Kmer意為連指定長度為K的序列,默認K=7,取值范圍2-10bp。
取前2%的序列進行統計,序列長度超過500bp的截取500bp來計算。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容