bismark 識別甲基化位點

bismark中,根據甲基化的C所處的上下文環境,分成以下3類;

  1. CpG

  2. CHG

  3. CHH

p代表磷酸二酯鍵,CpG指的是甲基化的C的下游是1個G堿基。H代表除了G堿基之外的其他堿基,即A, C, T中的任意一種,CHG代表甲基化的C下游的2個堿基是HG, CHH表示甲基化的C下游的兩個堿基都是H

bismark 比對完之后,會生成1個bam 文件。使用bismark_methylation_extractor命令可以從bam 文件中識別到甲基化的C,命令如下

bismark_methylation_extractor —comprehensive test/test_data_bismark_bt2.bam

只有1個參數,這個bam 文件是bimark比對生成的bam文件,每個樣本一個bam文件。

默認情況下,軟件會自動根據兩個因素生成結果文件

  1. 甲基化的C的類型
    就是前面提到的CpG, CHG, CHH 3種類型

  2. 比對情況
    包括比對到四條鏈上OT, OB, CTOT, CTOB 4種情況
    所以會生成 3 X 4 = 12 個文件,對于鏈特異性文庫來說,會生成3 X 2 = 6 個文件,這6個文件內容是類似的,都是記錄了甲基化的C的染色體位置。

comprehensive選項的作用就是在生成最終文件時,只考慮3種甲基化類型,將所有的比對情況進行合并,這樣最終只會生成3個文件.

CpG_context_test_data_bismark_bt2.txt
CHG_context_test_data_bismark_bt2.txt
CHH_context_test_data_bismark_bt2.txt

CpG_context_test_data_bismark_bt2.txt為例,內容如下:

Bismark methylation extractor version v0.19.0
SRR15024317_length=86 ? - ? ? ? 1 ? ? ? 57798691 ? ? ? ?z
SRR15024319_length=86 ? ?+ ? ? ? 2 ? ? ? 10166600 ? ? ? ?Z
SRR15024331_length=86 ?+ ? ? ? 11 ? ? ?77736289 ? ? ? ?Z
SRR15024338_length=86 ?+ ? ? ? 3 ? ? ? 197272186 ? ? ? Z

共5列,第一列為比對上的序列ID,第二列為基因組的正負鏈信息,第三列為染色體編號,第四列染色體上的位置,第5列為甲基化的C的狀態。

不同字母表示不同的甲基化C:

X 代表CHG中甲基化的C
x ?代筆CHG中非甲基化的C
H 代表CHH中甲基化的C
h ?代表CHH中非甲基化的C
Z ?代表CpG中甲基化的C
z ?代表CpG中非甲基化的C
U 代表其他情況的甲基化C(CN或者CHN)
u ?代表其他情況的非甲基化C (CN或者CHN)

對于CpG, 采用字母X的大小寫來表征甲基化狀態;對于CHG, 采用字母H的大小寫來表征甲基化狀態;對于CHH, 采用字母Z 的大小寫來表征甲基化狀態。

上面的文件是methylation calling 最直接的證據,但是對于甲基化水平的定量來說,缺少了相關信息。運行bismark_methylation_extractor時,除了生成上述文件之外,還會有下列3個文件

test_data_bismark_bt2_splitting_report.txt
test_data_bismark_bt2.M-bias.txt
test_data_bismark_bt2.M-bias_R1.png

test_data_bismark_bt2_splitting_report.txt

記錄了該樣本甲基化的匯總信息

Final Cytosine Methylation Report
Total number of C’s analysed: ? ?40348
Total methylated C’s in CpG context: ? ?1365
Total methylated C’s in CHG context: ? ?21
Total methylated C’s in CHH context: ? ?103
Total C to T conversions in CpG context: ? ?678
Total C to T conversions in CHG context: ? ?10076
Total C to T conversions in CHH context: ? ?28105
C methylated in CpG context: ? ?66.8%
C methylated in CHG context: ? ?0.2%
C methylated in CHH context: ? ?0.4%

test_data_bismark_bt2.M-bias.txt

定義了每一個甲基化位點的詳細信息,%methylation就是我們定量常用的beta 值
部分文件內容如下

CpG context
position ? ? ? ?count methylated ? ? ? ?count unmethylated ? ? ?% methylation ? coverage
1 ? ? ? 42 ? ? ?13 ? ? ?76.36 ? 55
2 ? ? ? 31 ? ? ?9 ? ? ? 77.50 ? 40

test_data_bismark_bt2.M-bias_R1.png


雙坐標軸圖,左側的縱軸代表甲基化比例,右側的縱軸代表甲基化的數目,橫坐標代表測序讀長。


?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容