1. 表觀遺傳學--是什么?
表觀遺傳(Epigenetics):是指DNA序列未發生變化,但基因表達卻發生了可遺傳改變。這種改變的特點: 可遺傳性、可逆性、沒有DNA序列的變化。"可逆性"表現為,表觀遺傳的修飾方式可以在某些因素的條件下被去除,這使得生物體可以通過調控表觀遺傳來影響生物性狀。
表觀遺傳改變主要從四個層面調控基因表達:DNA甲基化;組蛋白修飾,染色質重塑,非編碼RNA的調控(后面兩種本文不做介紹)
1.1 組蛋白修飾
組蛋白修飾(histone modification)是指組蛋白在相關酶的作用下發生甲基化,乙酰化,磷酸化,腺苷酸化,泛素化,ADP核糖基化等修飾的過程。通過對結合DNA的組蛋白進行不同的化學修飾,可以實現對基因表達的調控。組蛋白修飾酶包括組蛋白乙酰化酶(HAT),去乙酰化酶(HDAC),甲基轉移酶,去甲基化酶等。其原理是通過影響組蛋白與DNA雙鏈的親和性,從而改變核小體結構以及染色質的疏松或凝集狀態。
如下圖所示,乙酰化酶(HAT)可以通過促進組蛋白的乙酰化,使得染色質達到疏松狀態可實現基因轉錄;去乙酰化酶(HADC)可以通過組蛋白的去乙酰化,使得染色質稱為凝集狀態而使得基因表達沉默。
組蛋白修飾不能單獨發生作用。組蛋白修飾常常和DNA甲基化共同發生作用。
1.2 DNA甲基化
DNA甲基化:主要針對胞嘧啶堿基,由DNA甲基化酶輔助將甲基從SAM分子上轉移到胞嘧啶C5位置,得到5-甲基胞嘧啶。
CpG島(Cytosine-phosphate-Guanine island):指富含CpG二核苷酸的一些區域(要求:長度超過200個C-G堿基對;GC含量超過50%),基因組中滿足這些條件的區域便稱為CpG島。
60%的哺乳動物啟動子中含有CpG島(大多數是未甲基化的),啟動子外的區域很少發現,主要是由于CG抑制(減少突變:CG二核苷酸中的C甲基化后易突變為T)。
CpG島的功能(CpG島的甲基化堿基實現): 調節細胞特異性表達,特異性基因的抑制,控制imprinted gene,X染色體失活
bilibili視頻:理解DNA甲基化和CpG島
左側:核小體相對比較分散(組蛋白乙酰化,DNA序列中少有甲基化)
右側:在DNA甲基化轉移酶及組蛋白去乙酰酶的作用下,DNA發生甲基化同時組蛋白去乙酰化,核小體結構變擁擠,基因表達沉默
轉錄組 在本質上其實是高度協調的基因表達程序的副產物。無論組蛋白修飾和DNA甲基化如何調控,其最終結果都會導致染色質可及性的變化。
2. 染色質可及性
染色質可及性: 又稱染色質開放程度,反映了染色質的轉錄活性狀態,是研究基因表達調控的重要方向,在表觀遺傳圖譜繪制、細胞分化和發育及各類疾病的發生發展研究中具有重要的作用。
2.1 需要理解的幾個概念
轉錄因子(Transcription Factors, TFs):指能夠以序列特異性方式結合DNA并且調節轉錄的蛋白質。其調控方法通常為:調控和招募RNA聚合酶與DNA模板的結合。
基序(motif):轉錄因子與特異性DNA結合的序列通常概括為“基序”。
啟動子(promoter):DNA分子上能與RNA聚合酶結合并形成轉錄起始復合體的區域(本質上為DNA序列)。常規啟動子以二型為主,核心序列包含TATA box和CAAT box,這兩部分組成的序列含有基礎轉錄活性,也就是具備啟動子特征,但是表達水平很低,此序列緊挨著轉錄起始位點TSS,一般位于編碼基因5UTR上游的300bp之內。
2.1.1 “轉錄因子-啟動子-RNA聚合酶” 的關系
真核生物中:轉錄因子通過識別TATA box首先結合到啟動子區域,然后招募RNA聚合酶結合到對應啟動子DNA序列
2.1.2 “增強子-轉錄因子-啟動子-RNA聚合酶” 的關系
增強子(Enhancer):又稱為強化子,是DNA上一段可與蛋白質結合的區域,與蛋白質結合之后,基因的轉錄作用將會增強。增強子是轉錄因子結合位點的密集簇,可能位于基因上游,也可能位于下游。且不一定接近所要作用的基因,甚至不一定與基因位于同一染色體。基于looping的模型在增強子-啟動子遠端連接的鑒定得到大多數實驗支持。
Peak:即開放染色質區域,reads覆蓋區域,peak的峰值越高,代表在某個位置染色質的開放程度越高。ATAC-seq中的peak,往往是啟動子、增強子序列(轉錄因子可以結合 啟動子或增強子)
2.2 染色質可及性-研究方法
目前研究染色質可及性的方法主要有以下四種:MNase-seq、DNase-seq、FAIRE-seq、ATAC-seq。
從下圖可以看到,2013年ATAC-seq方法出現后便成為了染色質可及性分析的主流方法。
2.2.1 MNase-seq
微球菌核酸酶(MNase)是來源于金黃色葡萄球菌分泌的一種核酸酶,同時具備核酸外切酶和內切酶活性。
剪切原理:MNase優先對裸露的DNA或核小體之間起連接作用的DNA進行切割和消化,在對核小體兩側DNA鏈依次進行內切后(形成雙鏈末端),并從末端向片段的中心位置逐個切下堿基對,直到遇到核小體或DNA結合蛋白等阻滯物。最終獲得單個核小體組蛋白上查繞的DNA,最后進行二代測序分析。
2.2.2 DNase-seq
脫氧核糖核酸酶I(DNase I)是一種核酸內切酶,可以特異性得對雙鏈DNA進行切割。DNase I敏感的位點在基因組學和染色質的研究中被認為具有開放且可接近染色質的特性。低濃度的DNase I可以切割基因組上非核小體占據的開放區域,這些區域被稱為是DNase I敏感位點。
2.2.3 FARIE-seq
FARIE-seq為甲醛輔助的調控元件的分離,是一種直接檢測無核小體占據的DNA序列的方法。其原理是,纏繞有DNA的核小體和無核小體結合的DNA,在苯酚和氯仿中的濃度不同:纏繞有DNA的核小體分布于兩相交界處,而無核小體的DNA分布于親水相。總的來說,FAIRE-seq直接富集了活化染色質的區域,可直接用于任何類型的細胞或組織。
2.2.4 ATAC-seq
ATAC-seq是2013年由美國斯坦福大學的William Greenleaf開發的檢測開放染色質的方法,主要依賴于Tn5轉座酶對片段化DNA和整合入活化的調控區域的高敏感性。
在ATAC-seq中,500~50,000個未固定的細胞核被Tn5轉座酶標記上測序接頭。由于核小體的空間位阻效應,Tn5轉座酶攜帶已知序列主要插入整合到染色質的開放區域,經PCR擴增后,進行PE150測序。
研究方法 | 適用細胞類型 | 細胞數量 | 目標序列 | 優點 | 缺點 |
---|---|---|---|---|---|
MNase-seq | 任何細胞 | 1x107 | 被核小體/轉錄因子保護的DNA片段 | 直接定位核小體/轉錄因子 | 酶的用量需要準確控制 |
DNase-seq | 任何細胞 | 1x107 | 兩個開放位點之間的DNA片段 | 直接獲取開放區域信息 | 樣本制備過程復雜,酶的用量要準確控制 |
FAIRE-seq | 任何細胞 | 1x105~1x107 | 兩個開放位點之間的DNA片段 | 直接獲取開放區域的信息,靈敏度高 | 信噪比低,數據解讀困難 |
ATAC-seq | 新鮮或凍存細胞 | 5x102~5x104 | 兩個開放位點之間的DNA片段 | 直接獲取開放區域的信息,細胞需求量少,靈敏度高,重復性好 | 容易引入線粒體污染 |