在bismark
中,根據甲基化的C
所處的上下文環境,分成以下3類;
CpG
CHG
CHH
p
代表磷酸二酯鍵,CpG
指的是甲基化的C的下游是1個G
堿基。H
代表除了G
堿基之外的其他堿基,即A, C, T
中的任意一種,CHG
代表甲基化的C下游的2個堿基是H
和G
, CHH
表示甲基化的C下游的兩個堿基都是H
。
bismark
比對完之后,會生成1個bam 文件。使用bismark_methylation_extractor
命令可以從bam 文件中識別到甲基化的C,命令如下
bismark_methylation_extractor —comprehensive test/test_data_bismark_bt2.bam
只有1個參數,這個bam 文件是bimark
比對生成的bam文件,每個樣本一個bam文件。
默認情況下,軟件會自動根據兩個因素生成結果文件
甲基化的C的類型
就是前面提到的CpG
,CHG
,CHH
3種類型比對情況
包括比對到四條鏈上OT
,OB
,CTOT
,CTOB
4種情況
所以會生成 3 X 4 = 12 個文件,對于鏈特異性文庫來說,會生成3 X 2 = 6 個文件,這6個文件內容是類似的,都是記錄了甲基化的C的染色體位置。
comprehensive
選項的作用就是在生成最終文件時,只考慮3種甲基化類型,將所有的比對情況進行合并,這樣最終只會生成3個文件.
CpG_context_test_data_bismark_bt2.txt
CHG_context_test_data_bismark_bt2.txt
CHH_context_test_data_bismark_bt2.txt
以CpG_context_test_data_bismark_bt2.txt
為例,內容如下:
Bismark methylation extractor version v0.19.0
SRR15024317_length=86 ? - ? ? ? 1 ? ? ? 57798691 ? ? ? ?z
SRR15024319_length=86 ? ?+ ? ? ? 2 ? ? ? 10166600 ? ? ? ?Z
SRR15024331_length=86 ?+ ? ? ? 11 ? ? ?77736289 ? ? ? ?Z
SRR15024338_length=86 ?+ ? ? ? 3 ? ? ? 197272186 ? ? ? Z
共5列,第一列為比對上的序列ID,第二列為基因組的正負鏈信息,第三列為染色體編號,第四列染色體上的位置,第5列為甲基化的C的狀態。
不同字母表示不同的甲基化C:
X 代表CHG中甲基化的C
x ?代筆CHG中非甲基化的C
H 代表CHH中甲基化的C
h ?代表CHH中非甲基化的C
Z ?代表CpG中甲基化的C
z ?代表CpG中非甲基化的C
U 代表其他情況的甲基化C(CN或者CHN)
u ?代表其他情況的非甲基化C (CN或者CHN)
對于CpG
, 采用字母X
的大小寫來表征甲基化狀態;對于CHG
, 采用字母H
的大小寫來表征甲基化狀態;對于CHH
, 采用字母Z
的大小寫來表征甲基化狀態。
上面的文件是methylation calling 最直接的證據,但是對于甲基化水平的定量來說,缺少了相關信息。運行bismark_methylation_extractor
時,除了生成上述文件之外,還會有下列3個文件
test_data_bismark_bt2_splitting_report.txt
test_data_bismark_bt2.M-bias.txt
test_data_bismark_bt2.M-bias_R1.png
test_data_bismark_bt2_splitting_report.txt
記錄了該樣本甲基化的匯總信息
Final Cytosine Methylation Report
Total number of C’s analysed: ? ?40348
Total methylated C’s in CpG context: ? ?1365
Total methylated C’s in CHG context: ? ?21
Total methylated C’s in CHH context: ? ?103
Total C to T conversions in CpG context: ? ?678
Total C to T conversions in CHG context: ? ?10076
Total C to T conversions in CHH context: ? ?28105
C methylated in CpG context: ? ?66.8%
C methylated in CHG context: ? ?0.2%
C methylated in CHH context: ? ?0.4%
test_data_bismark_bt2.M-bias.txt
定義了每一個甲基化位點的詳細信息,%methylation
就是我們定量常用的beta 值
部分文件內容如下
CpG context
position ? ? ? ?count methylated ? ? ? ?count unmethylated ? ? ?% methylation ? coverage
1 ? ? ? 42 ? ? ?13 ? ? ?76.36 ? 55
2 ? ? ? 31 ? ? ?9 ? ? ? 77.50 ? 40
test_data_bismark_bt2.M-bias_R1.png
雙坐標軸圖,左側的縱軸代表甲基化比例,右側的縱軸代表甲基化的數目,橫坐標代表測序讀長。