測(cè)序數(shù)據(jù)的格式轉(zhuǎn)換與質(zhì)控

一、測(cè)序數(shù)據(jù)的格式轉(zhuǎn)換

sra文件下載好后,使用fastq-dump轉(zhuǎn)換數(shù)據(jù)格式

fastq-dump --split-files SRR6232298.sra

fastq-dump --gzip --split-files SRR6232298.sra

#轉(zhuǎn)換格式的同時(shí)解壓為gz文件,節(jié)省空間

當(dāng)有多個(gè)sra文件時(shí),可通過(guò)腳本進(jìn)行批量解壓:

vi fastq-dump.sh? ? #創(chuàng)建一個(gè)腳本文件,內(nèi)容如下:

#!/bin/bash

for i in ~ncbi/public/sra/sra*

do

echo $i

fastq-dump --gzip --split-files $i

done

echo OK

二、測(cè)序數(shù)據(jù)的質(zhì)控

FastQC---測(cè)序數(shù)據(jù)質(zhì)控的軟件?

是一個(gè)java軟件,下載后可以直接使用(免安裝編譯),但是需要自行配置好java環(huán)境

首先我們配置java環(huán)境(已下好java文件,為下述的jdk-8u172-linux-x64.tar.gz):

sudo mkdir /usr/java

sudo tar -zvxf /home/noodles/Biosofts/jdk-8u172-linux-x64.tar.gz -C /usr/java/

sudo cd /usr/java

sudo ln -s jdk1.8.0_172 latest

sudo ln -s /usr/java/latest default

sudo vi /etc/profile

末尾加上如下三行:?

export JAVA_HOME=/usr/java/latest

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

source /etc/profile

java -version

配置好java環(huán)境后,接著可以開(kāi)始下載安裝FastQC軟件了

1. wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip?

2. unzip /home/noodles/Biosofts/fastQC/fastqc_v0.11.7.zip -d ~/Biosofts/fastQC

3. ~/Biosofts/fastQC/FastQC/fastqc -h

當(dāng)我運(yùn)行這步后,系統(tǒng)提示fastqc還未安裝,通過(guò)apt install fastqc來(lái)安裝,當(dāng)進(jìn)行安裝后報(bào)錯(cuò):

當(dāng)按照提示apt-get update后再進(jìn)行安裝即可。此命令的兩個(gè)作用:1、apt-get?update是同步 /etc/apt/sources.list 和 /etc/apt/sources.list.d 中列出的源的索引,這樣才能獲取到最新的軟件包。2、apt-get?update只是更新了apt的資源列表,沒(méi)有真正的對(duì)系統(tǒng)執(zhí)行更新。如果需要,要使用apt-get?upgrade來(lái)更新。

呈上:

4. 將fastqc加入環(huán)境變量:

echo 'export PATH=~/Biosofts/fastQC/FastQC:$PATH' >>~/.bashrc

source ~/.bashrc

fastqc -h

至此,已裝好了fastQC軟件,fastQC的使用方法如下:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

各參數(shù)的含義:

-o --outdir 生成的報(bào)告文件的儲(chǔ)存路徑,生成的報(bào)告的文件 名是根據(jù)輸入來(lái)定的

--extract 生成的報(bào)告默認(rèn)會(huì)打包成1個(gè)壓縮文件,使用這個(gè) 參數(shù)是讓程序不打包?

-t --threads 選擇程序運(yùn)行的線程數(shù)?

-c --contaminants 污染序列選項(xiàng),輸入的是一個(gè)文件,格式 是Name [Tab] Sequence,里面是可能的污染序列

-a --adapters 也是輸入一個(gè)文件,文件的格式Name [Tab] Sequence,儲(chǔ)存的是測(cè)序的adpater序列信息;默認(rèn)已有一些?

-q --quiet 安靜運(yùn)行模式,一般不選這個(gè)選項(xiàng)的時(shí)候,程序 會(huì)實(shí)時(shí)報(bào)告運(yùn)行的狀況。?

接下來(lái)以用fastqc處理之前下載的seq為例,當(dāng)我處理SRR6232298_1.fastq.gz時(shí)報(bào)錯(cuò):

經(jīng)過(guò)檢查后原來(lái)是fastqc的權(quán)限問(wèn)題,增加權(quán)限即可:

fastqc可一條命令對(duì)多個(gè)序列進(jìn)行指控,也可以通過(guò)腳本進(jìn)行批量處理

三、測(cè)序數(shù)據(jù)過(guò)濾

數(shù)據(jù)過(guò)濾軟件用來(lái)切除接頭序列和低質(zhì)量堿基,目前也已有很多工具:Trimmomatic、seqtk、 cutadapt、 bbduk(BBmap). 下面以Trimmomatic為例介紹:

Trimmomatic 是一個(gè)廣受歡迎的 Illumina 平臺(tái)數(shù)據(jù)過(guò)濾工具。 Trimmomatic 支持多線程,處理數(shù)據(jù)速度快,主要用來(lái)去除 Illumina 平臺(tái)的 Fastq 序列中的接頭,并根據(jù)堿基質(zhì)量值對(duì) Fastq 進(jìn)行修剪。軟件有兩種過(guò)濾模式,分別對(duì)應(yīng) SE 和 PE 測(cè)序數(shù)據(jù),同時(shí)支持 gzip 和 bzip2 壓縮文件。另外也支持 phred-33 和 phred-64 格式互相轉(zhuǎn)化,不過(guò)現(xiàn)在 絕大部分 Illumina 平臺(tái)的產(chǎn)出數(shù)據(jù)也都轉(zhuǎn)為使用 phred-33 格式了 。

下載:

wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip

安裝:?

unzip Trimmomatic-0.38.zip -d ~/Biosofts/trimmomatic/Trimmomatic038/?

運(yùn)行:?

java -jar ~/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar?

添加環(huán)境變量:

echo 'export PATH=~/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar:$PATH' >>~/.bashrc

source ~/.bashrc

然后以之前下載的SRR6232298_1.fastq.gz數(shù)據(jù)為例進(jìn)行操作:

java -jar ~/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33?SRR6232298_1.fastq.gz?./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz?ILLUMINACLIP:/home/noodles/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10?SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

(上述命令中,output_forward_paired.fq.gz、output_forward_unpaired.fq.gz、output_reverse_paired.fq.gz、output_reverse_unpaired.fq.gz四個(gè)文件由自己命名,軟件自行生成。)結(jié)果報(bào)錯(cuò):

但是確認(rèn)多次adapter文件路徑后,仍然報(bào)這個(gè)錯(cuò)。

經(jīng)仔細(xì)檢查后,發(fā)現(xiàn)問(wèn)題出在下面的點(diǎn):

trimmomatic有兩種模式即SE模式和PE模式,分別對(duì)應(yīng)單末端測(cè)序模式和雙末端測(cè)序模式,在 SE 模式下,只有一個(gè)輸入文件和一個(gè)過(guò)濾之后的輸出文件;在 PE 模式下,有兩個(gè)輸入文件,正向測(cè)序序列和反向測(cè)序序列,但是過(guò)濾之后輸出文件有四個(gè),過(guò)濾之后雙端序列都保留的就是 paired,反之如果其中一端序列過(guò)濾之后被丟棄了另一端序列保留下來(lái)了就是 unpaired 。上述的問(wèn)題就在于選用的是PE模式,但只輸入了一個(gè)文件,所以報(bào)錯(cuò)。(SRR6232298.sra為雙末端測(cè)序的數(shù)據(jù),SRR6232298_1.fastq.gz和SRR6232298_2.fastq.gz為使用fastq-dump對(duì)SRR6232298.sra處理后所得,分別為正向測(cè)序序列和反向測(cè)序序列)因此當(dāng)我將SRR6232298_1.fastq.gz和SRR6232298_2.fastq.gz都輸入時(shí),軟件可正常運(yùn)行:

java -jar ~/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR6232298_1.fastq.gz SRR6232298_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/noodles/Biosofts/trimmomatic/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75?

Trimmomatic 過(guò)濾數(shù)據(jù)的步驟與命令行中過(guò)濾參數(shù)的順序有關(guān),通常的過(guò)濾步驟如下:

1.?ILLUMINACLIP: 過(guò)濾 reads 中的 Illumina 測(cè)序接頭和引物序列,并決定是否去除反向互補(bǔ)的 R1/R2 中的 R2。

2.?SLIDINGWINDOW: 從 reads 的 5' 端開(kāi)始,進(jìn)行滑窗質(zhì)量過(guò)濾,切掉堿基質(zhì)量平均值低于閾值的滑窗。

3.?MAXINFO: 一個(gè)自動(dòng)調(diào)整的過(guò)濾選項(xiàng),在保證 reads 長(zhǎng)度的情況下盡量降低測(cè)序錯(cuò)誤率,最大化 reads 的使用價(jià)值。

4.?LEADING: 從 reads 的開(kāi)頭切除質(zhì)量值低于閾值的堿基。

5.?TRAILING: 從 reads 的末尾開(kāi)始切除質(zhì)量值低于閾值的堿基。

6.?CROP: 從 reads 的末尾切掉部分堿基使得 reads 達(dá)到指定長(zhǎng)度。

7.?HEADCROP: 從 reads 的開(kāi)頭切掉指定數(shù)量的堿基。

8.?MINLEN: 如果經(jīng)過(guò)剪切后 reads 的長(zhǎng)度低于閾值則丟棄這條 reads。

9. AVGQUAL: 如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads。

10.?TOPHRED33: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33。

11.?TOPHRED64: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-64。

參考:NGS 數(shù)據(jù)過(guò)濾之 Trimmomatic 詳細(xì)說(shuō)明

下面兩張圖分別為未經(jīng)Trimmomatic過(guò)濾和經(jīng)過(guò)Trimmomatic過(guò)濾的SRR6232298_1.fastq.gz,經(jīng)過(guò)fastQC質(zhì)控后的結(jié)果:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,963評(píng)論 6 542
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,348評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,083評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,706評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,442評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,802評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,795評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,983評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,542評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,287評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,486評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,030評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,710評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,116評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,412評(píng)論 1 294
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,224評(píng)論 3 398
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,462評(píng)論 2 378

推薦閱讀更多精彩內(nèi)容