===============建立索引===========================
bismark_genome_preparation --bowtie2 / --verbose? index/
================比對=============================
bismark --bowtie2 -N 0 -L 20 --quiet --un --ambiguous --sam --nucleotide_coverage --genome index/ --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ -o SRR10401142 -1 ../fastq/SRR10401142.1_1.fastq.gz -2 ../fastq/SRR10401142.1_2.fastq.gz
================去重===============================
deduplicate_bismark --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ -p SRR10401142.1_1_bismark_bt2_pe.sam --output_dir dedup
=====================提取甲基化信息==================
bismark_methylation_extractor -p --comprehensive --no_overlap --bedGraph --counts --buffer_size 200G --report --cytosine_report --samtools_path /gpfs03/home/jingjing/software/samtools-1.9/ --genome_folder index/ dedup/SRR10401142.1_1_bismark_bt2_pe.deduplicated.bam -o SRR10401142/
生成處理報告:
bismark2report
它包括了比對信息,甲基化信息,M-bias等,可以對數據有一個大概的認知。
結果合并正反鏈的數據后會輸出CpG/CHG/CHH三種類型的甲基化文件,包含了胞嘧啶所有的組合形式,但實際上我們自然最關注的是CpG位點的甲基化。其中
CpG_context_SRR10401142.1_1_bismark_bt2_pe.deduplicated.txt即CpG甲基化位點的文件。
# 第一列為測序信息
# 第二列為甲基化狀態 + 代表甲基化 -代表未甲基化
# 第三列代表chromosome
# 第四列代表location
# 第五列代表methylation call,簡單來說大寫的就是甲基化的(因為還有CHG,CHH的數據,分別對應x, X , h, H)
SRR10401142.1_1_bismark_bt2_pe.deduplicated.bismark.cov.gz文件則給了每個位點的甲基化比例,為下一步確定CpG島提供了基礎,其數據形式如下:
其中:# 第一列代表chromosome? # 第二,三列代表location? # 第四列代表甲基化百分比
# 第五列代表甲基化數目? # 第六列代表未甲基化數目