RNA-seq練習 第一部分(原始數(shù)據(jù)下載,提取fastq文件,fastqc質(zhì)控)

原始數(shù)據(jù)來源于這篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

1.下載原始數(shù)據(jù)
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
https://www.ncbi.nlm.nih.gov/sra?term=SRX339951

image.png

點擊697.2Mb,然后進入下個頁面:


image.png

點擊SRR957677,這里插一句,下圖layout指的是單端或者雙端測序。single是單端,paired是雙端。

image.png

在下一個頁面里點擊“Data access”,可以看到有一個NCBI的下載地址,copy地址,用wget下載。

wget https://sra-download.ncbi.nlm.nih.gov/traces/sra11/SRR/000935/SRR957678

現(xiàn)在下載的就是sra文件。

2 用sratoolkit從sra文件里提取fastq文件
(在sra文件所在的文件夾里提取,沒有加目的文件夾)。--gzip是為了生成壓縮的gz格式fastq文件。split-files是把提取的文件分成兩份,unpaired的直接去掉。

fastq-dump --gzip --split-files SRR957677 #這是從單個sra文件里提取fastq文件

如果想從好幾個sra文件里同時提取fastq文件,可以寫一個小腳本運行:

vim fastqdump.sh
#!/bin/bash
for i in SRR* #for循環(huán)會遍歷你指定的list里的每一個文件,并執(zhí)行下面的命令
do
        echo $i #顯示文件名
        fastq-dump --gzip --split-files $i #用fastqdump提取fastq文件
done
yanfang@YF-Lenovo:~/Documents$ ./fastqdump.sh#這里我嘗試同時提取2個fastq文件,實際也不是同時,是一個一個來的
SRR957679
2019-08-28T17:27:31 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 19909740 spots for SRR957679
Written 19909740 spots for SRR957679
SRR957680
2019-08-28T17:34:48 fastq-dump.2.8.2 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )
Read 24231941 spots for SRR957680
Written 24231941 spots for SRR957680

3.用安裝好的fastqc查看(安裝過程略)
直接在終端里調(diào)用fastqc

fastqc

點擊file,open,選擇要查看的fastq文件,然后fastqc會自動分析文件,最后生成一個報告。下面是報告的各項結(jié)果:
Basic Statistics:報告整體瀏覽

Measure Value
Filename SRR957678_1.fastq.gz
File type Conventional base calls
Encoding Sanger / Illumina 1.9
Total Sequences 8828013
Sequences flagged as poor quality 0
Sequence length 50
%GC 46

Filename:文件名
File type: 文件類型
Encoding:測序平臺的版本和相應(yīng)的編碼版本號,用于計算Phred反推error P時用。
Total Sequences: 輸入文本的reads的數(shù)量
Sequence length: 測序長度
%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。

Per base sequence quality:某一位置上所有讀段的測序質(zhì)量評分

image.png

(最主要看得數(shù)據(jù)信息)quality就是Fred值,一條reads某個位置上出錯概率為0.01時,quality值就是20,即常說的Q20。就是一個箱線圖boxplot,黃色箱子(25%和75%的分數(shù)線),紅色線(中位數(shù)),藍線是平均數(shù),下面和上面的觸須分別表示 10%和 90%的點橫坐標reads的堿基位置,最大值即為讀長,縱坐標代表質(zhì)量的好壞(判斷的準確性)。如果任何一個位置的下四分位數(shù)小于10或者中位數(shù)小于25,會顯示“警告”;如果任何一個位置的下四分位數(shù)小于5或者中位數(shù)小于20,會顯示“不合格”。這個結(jié)果相對來說還是比較好的。
Per tile sequence quality:

image.png

圖中橫軸代表堿基位置,縱軸代表 tile 編號。圖中的顏色是從冷色調(diào)到暖色調(diào)的漸變,冷色調(diào)表示這個 tile 在這個位置上的質(zhì)量值高于所有 tile 在這個位置上的平均質(zhì)量值,暖色調(diào)表示這個 tile 的在這個位置上的質(zhì)量值比其它 tiles 要差;一個很好的結(jié)果,整張圖都應(yīng)該是藍色,簡單來說,就是看圖內(nèi)有無除藍色外的亮點,有亮點代表低于平均值。當某些tail出現(xiàn)暖色,在后續(xù)的分析種把該tail測序結(jié)果全部去除。

Per sequence quality scores每條序列平均堿基質(zhì)量分數(shù)

image.png

圖中橫軸為測序質(zhì)量值,縱軸為 reads 數(shù)。紅線上的每一個點表示quality值所對應(yīng)的reads的數(shù)量,其面積就是總的reads數(shù)。如果最高峰所對應(yīng)的橫坐標質(zhì)量值小于 27 (錯誤率 0.2 %) 則會顯示“警告”,如果最高峰的質(zhì)量值小于 20 (錯誤率 1 %) 則會顯示“不合格”。如圖所示紅線單峰,分值在38左右,所以reads很可靠。

Per base sequence content每個位置的4種堿基組成比例

image.png

一個完全隨機的文庫內(nèi)每個位置上 4 種堿基的比例應(yīng)該大致相同,因此圖中的四條線應(yīng)該相互平行且接近25的位置左右。在 reads 開頭出現(xiàn)堿基組成偏離往往是建庫操作造成的,在reads上加接頭的堿基組成不是均一的。會造成明顯的堿基組成偏離。如果任何一個位置上的A和T之間或者G和C之間的比例相差10%以上則報“警告”,任何一個位置上的A和T之間或者G和C之間的比例相差 20%以上則報“不合格”。此結(jié)果總體上處于25%左右,且A和T比例相等,G和C比例相等,說明質(zhì)量可以,但在前15個bp位置上嚴重分離,說明有堿基偏向性。可能有接頭的污染。也有可能由于測序平臺及測序長度不同,以及測序儀開始狀態(tài)不穩(wěn)定經(jīng)常出現(xiàn)前后波動情況。

Per sequence GC contentGC含量:

image.png

橫軸表示GC含量,縱軸表示不同GC含量對應(yīng)的read數(shù),藍色為理論值,紅色是真實值。在一個正常的隨機文庫中,GC 含量的分布應(yīng)接近正態(tài)分布,且中心的峰值和所測基因組的 GC 含量一致。如果出現(xiàn)不正常的尖峰分布,則說明文庫可能有污染, (如果是接頭的污染,那么在 overrepresented sequences 那部分結(jié)果還會得到提示),或者存在其它形式的偏選;總體上就是看紅色的線與藍色線正態(tài)分布趨勢是否接近。此圖可知道紅色線與藍色線較為接近,質(zhì)量較好。

Per base N content每個堿基上N的比例

image.png

當出現(xiàn)測序儀不能分辨的堿基時會產(chǎn)生N,橫軸為堿基分布,縱軸為N比率。如果任何一個位置 N 的比例大于5%則報“警告”,大于20%則報“失敗”。此圖可知基本無N,皆已測得為ATGC的堿基。測序質(zhì)量較好。

Sequence Length Distribution Reads的長度分布

image.png

測序儀出來的原始 reads 通常是均一長度的,但經(jīng)過質(zhì)控軟件等處理過的數(shù)據(jù)則不然;經(jīng)過質(zhì)控軟件處理過的reads長度則不一樣。當 reads 長度不一致時報“警告”,當有長度為 0 的 reads 時則報“不合格”。此圖可知為測序儀產(chǎn)出的reads,長度皆為50bp。

Sequence Duplication Levels序列重復(fù)的水平

image.png

圖中橫軸代表 reads 的重復(fù)次數(shù) ( 1 表示 unique 的序列,2 表示有 2 條完全相同的 reads ...),大于 10 次重復(fù)后則按不同的重復(fù)次數(shù)合并顯示。 縱坐標表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比。藍線展示所有 reads 的重復(fù)情況,紅線表示在去掉重復(fù)以后,原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比。如果非 unique 的 reads 占總 reads 數(shù)的 20 % 以上則報 ”警告“,占總 read 數(shù)的 50 % 以上則報 ”不合格“。不合格報錯對于此項是正常現(xiàn)象,不需要太過關(guān)注。一般測序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列。

Overrepresented sequences大量重復(fù)出現(xiàn)的序列
這個樣品的此項結(jié)果為No overrepresented sequences。
我在網(wǎng)上搜到了一個例子:

image.png

顯示同一條 read 出現(xiàn)次數(shù)超過總測序 reads 數(shù)的0.1%的統(tǒng)計情況。正常文庫內(nèi)序列的多樣性水平很高,不會有同一條 read 大量出現(xiàn)的情況,這部分結(jié)果會把大量出現(xiàn)的 reads 列出來,并給出可能來源。如果有任何 read 出現(xiàn)的比例超過總 reads 數(shù)的0.1%則報警告,超過總 reads 數(shù)的1%則報不合格。如果檢測出一條多重復(fù)序列,重復(fù)次數(shù)較多,推測可能是TrueSeq接頭序列。

Adapter Content接頭含量

image.png

顯示 reads 中的接頭含量,并顯示可能的來源。圖中橫軸為堿基位置,縱軸為含有接頭序列的比例。正常的情況下接頭的含量應(yīng)該接近0,如果 reads 中的接頭含量過高,說明文庫內(nèi)小片段比例偏高 (這個可以從文庫質(zhì)檢報告中看出來),這可能是由于片段選擇時選取的長度偏短或者使用切膠的方式回收片段時上樣過多致使小片段不能很好的分離等原因造成的;如果接頭的含量隨著堿基的位置增大而逐漸升高,則表示 reads 中含有接頭 (如圖所示),這部分接頭會影響后續(xù)的分析,我們需要截掉 reads 中的接頭序列或者將含有接頭的 reads 完全刪除。如果任何重復(fù) read 超過總 reads 數(shù)的5%則報 '警告', 超過總 reads 數(shù)的10% 則報 '不合格,由圖可知測序是沒有接頭污染的。如果有接頭污染,在序列尾端會出現(xiàn)一個上揚的曲線。
**以上fastqc質(zhì)控的圖是SRR957678的結(jié)果。圖解摘自兩篇文章:
http://www.lxweimin.com/p/bacb86c78b43
http://www.lxweimin.com/p/f510dce0ab8c
還有一個英文版的fastqc質(zhì)量報告解讀:https://dnacore.missouri.edu/PDF/FastQC_Manual.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內(nèi)容