二代宏基因組測序數據的質控和過濾。
- 測序數據質量過濾,包括測序質量、adapter 等過濾
- 去除污染數據,一般是宿主數據。該步驟對于水體、土壤等樣品可以跳過
數據質控
原始測序數據下機后,可能會包含低質量、接頭等,我們可以使用 fastqc對數據質量進行檢查。
fastqc --outdir ./ \ # 輸出目錄
--threads 4 \ # 線程數
./A1_1.fq.gz ./A1_2.fq.gz # 輸入文件
結果:
- 網頁版質控報告 fastqc.html
- 報告對應數據 fastqc.zip
質量過濾
使用 fastp 進行低質量數據過濾
fastp --thread 4 -i ./FQ/A1_1.fq.gz -I ./A1_2.fq.gz \
-o ./A1_1.clean.fq.gz -O ./A1_2.clean.fq.gz \
-h A1.html
輸出結果:
過濾后 fq數據 clean data
可以使用 muiltQC 對 fastp 日志進行匯總
去除宿主
對于宿主來源的宏基因組測序數據,需要對其中的宿主序列進行去除
# 構建宿主基因組index
bowtie2-build genome.fa genome.db
# bowtie2比對
bowtie2 --threads 4 \ #線程數
-x ./genome.db \ # 基因組index名稱
-1 ./A1_1.clean.fq.gz \ # 輸入,fq1
-2 .//A1_2.clean.fq.gz \ # 輸入,fq2
-S A1.sam \ # 輸出,sam格式比對結果
2>A1.map.log
# 去除宿主數據
view -f 12 \ # 去除比對上的reads
A1.sam \ # 輸入,sam文件
>A1.unmap.bam # 輸出bam格式文件
# bam轉換回fq格式
samtools fastq \
-1 A1_1.clean.fq.gz \ # 輸出,fq1
-2 A1_2.clean.fq.gz \ # 輸出,fq2
A1.unmap.bam # 輸入,bam文件