文獻鏈接:Single-nucleus chromatin accessibility and transcriptomic characterization of Alzheimer’s disease
發表期刊:Nature Genetics
影響因子:41.33
發表時間:2021年7月
文章亮點:作者整合晚期阿爾茨海默病 snRNA-seq 和 snATAC-seq 數據,搭建了一個完善的分析框架用于揭示 “與疾病相關的細胞特異性” 1. 順式調節元件-靶基因對、2. 轉錄因子及調控靶點、3. AD風險SNPs位點的順式調節關系、4. 單細胞共表達網絡,為單細胞多組學數據發現復雜性狀提供了藍圖。
1. 研究背景 與 方案設計
阿爾茨海默癥(AD)等神經退行性疾病以 大量神經元丟失 為特征并伴有 膠質增生,但特定神經元和膠質細胞群在阿爾茨海默癥病理生理學中的作用尚不清楚。對AD等復雜疾病的GWAS表明,很大一部分遺傳風險來源于常見遠端調控元件,這些調控元件通常是疾病相關組織中的細胞類型特異性區域。
樣本類型:人前額葉皮層(年齡:74-90+)
實驗類型:
- snATAC-seq(晚期AD 12人;健康同齡對照 8人;10x Genomics)
- snRNA-seq(晚期AD 11人;健康同齡對照 7人;10x Genomics v3)
snATAC-seq and snRNA-seq in the same samples only (not in the same nucleus)
2. 基礎分析
可以說是snATAC-seq & snRNA-seq 聯合分析的套路模板
2.1 細胞大類分群
snATAC-seq細胞分群:主要細胞類型數量 EX-24,076; INH-9644; ASC- 15399; MG-12232; ODC- 62253; OPC-4869(圖1b),基于已知染色質可及性的啟動子區域marker基因注釋(圖1d),作者通過chrom VAR鑒別到星形膠質細胞、興奮性神經元和小膠質細胞存在幾個TF基序在疾病組中顯著富集;通過TF footprint 分析進一步發現SOX9 轉錄因子顯著作用在少突膠質細胞
snRNA-seq細胞分群:主要細胞類型數量 EX-6,369; INH-5,962; ASC- 4,756; MG-4,126; ODC- 37,052; OPC-2,740(圖1c),基于細胞類型marker gene注釋(圖1e)
多組學數據整合分群:由于表觀基因組圖譜與下游基因表達特征緊密交織在一起,作者使用Seurat的integration platform整合了snATAC-seq和snRNA-seq數據集(圖1f),轉錄組數據和染色質開放數據都能夠分別聚類到整合的UMAP圖中(圖1g)
2.2 細胞亞群組成差異分析
亞群細分與細胞注釋:作者在snATAC-seq和snRNA-seq中發現了多個神經元和膠質細胞亞群,基于之前確定的marker基因進行了亞群注釋,少突膠質細胞亞群細分依據如圖2a-c
snATAC-seq細胞亞群比例差異分析:snATAC-seq疾病組MG.a和MG.b的細胞比例顯著增加(圖2f),兩者均定位于snRNA-seq 圖2g MG1(SPP1高/CD163+)
snRNA-seq細胞亞群比例差異分析:如圖2g,疾病組ASC3 (GFAP high/CHI3L+)的細胞比例顯著增加,ASC4(GFAP low/WIF1 +/ADAMTS17 +)顯著降低,免疫少突膠質細胞ODC13比例顯著增加
作者鑒定了每個cluster中晚期AD的差異可達染色質區域(DARs)和差異表達基因(DEGs),并發現遠端和近端DARs的GO富集以及DEGs具有較高的cluster特異性,這可能是神經退行性變中不同細胞亞群中不同生物通路失調的基礎
2.3 候選順式調節元件分析(cCREs)
順式調節元件(cis-regulatory element, CRE):是一類主要調節臨近基因表達的非編碼DNA區域,常常分布在緊鄰基因的上下游或是基因的內含子區,有時也會遠離基因區甚至跨越不同染色體。順式作用元件包括啟動子、增強子、沉默子等,它們的作用是參與基因表達的調控。
反式作用因子:一些蛋白質因子可通過結合順式作用元件而調節基因轉錄活性,這些蛋白質因子稱為反式作用因子。反式作用因子是相對于順式作用元件而給定的概念,反映的是蛋白與核酸序列結合的特殊對應關系;轉錄因子是在基因表達層面,作用于轉錄過程而言,兩者說的東西基本上是一樣的。
基于同一例樣本同時進行 snATAC-seq 和 snRNA-seq 的實驗設計,作者期望識別出細胞類型特異性的cCREs的靶基因。然后,試圖通過分別構建不同細胞類型中疾病組和對照組的順式共可及網絡(CCANs)來闡明AD晚期PFC的順式調控結構。
2.3.1 篩選與驗證:候選順式調節元件(cCREs)
(1)尋找gl-cCREs:為了識別靶基因的cCREs,作者重點研究存在共可及性的 peak 子集(尤其那些落于啟動子元件區域的peak),由此找到一系列的cCREs和候選靶基因
(2)驗證gl-cCREs:將候選靶基因的表達與cCRE的染色質可及性進行關聯分析,進一步驗證其潛在的調控關系
(3)聚類gl-cCREs:通過NMF算法(類似PCA)來聚類gl-cCREs數據集成為一個個功能模塊,用于疾病組和對照組的比較
2.3.2 晚期AD細胞類型特異性分析:候選順式調節元件(cCREs)
作者鑒定了56,552個基因連接的候選順式調節元件(gl-cCREs)和11,440個候選順式調節元件(cCRE)連接的基因,絕大多數靶基因受到多于4個順式調節元件的調控(圖3a)
gl-cCREs的細胞類型特異性分析:除細胞類型特異性的gl-cCREs,大量的gl-cCRE在多種細胞類型中共享(圖3b)
gl-cCREs與 snRNA-seq DEGs的重疊性分析:對于幾種細胞類型,gl-cCREs與該細胞類型的marker基因集、AD疾病特異性基因集顯著重疊,突出了cCREs在疾病相關基因表達變化中的關鍵作用(圖3c)
gl-cCREs的NMF功能模塊分析:可以看到不同的NMF功能模塊特異性得定位于不同細胞類型(圖3d),58.35%的gl-cCREs定位于內含子區域(圖3e),通過檢查NMF系數矩陣識別出AD疾病組與對照組存在顯著差異的NMF功能模塊(圖3f-g)
2.4 轉錄因子分析
轉錄因子在神經發育中緊密控制著細胞的命運,與神經退行性過程有關
轉錄因子染色質可及性與靶基因RNA表達共分析:SPI1基序多樣性僅在 MG.a 和 MG.b 顯著上調,但是SPI1的靶基因卻在MG1中顯著下調,說明SPI1在AD晚期作為一種轉錄抑制因子為SPI1如何參與AD的病理生理提供了新的見解(圖4a-c);NRF1 先前被認為與線粒體功能相關,而由NRF1介導的線粒體功能受損可能通過髓鞘形成的破壞導致晚期AD的神經元功能障礙,NRFI在選定的少突膠質細胞cluster中發生了失調(圖4d-f)。
構建細胞類型特異性轉錄因子調控網絡:為了進一步了解TF介導的AD晚期的基因調控,作者構建了細胞類型特異性的TF調控網絡。在小膠質細胞特異性和少突膠質細胞特異性TF調節網絡中,除了位于已知AD GWAS位點的基因外,發現了多個AD DEGs,由小膠質細胞中的SPI1和少突膠質細胞中的NRF1調節。
3. 疾病相關細胞亞群分析
為了進一步揭示驅動AD疾病組膠質細胞異質性的分子機制,作者進一步分析3種膠質細胞(少突膠質細胞,小膠質細胞,星形膠質細胞),將其snATAC-seq 和 snRNA-seq 數據整合,通過monocle3進行擬時序分析(便于在整個細胞過渡狀態中觀察基因表達、染色質可及性和TF基序多樣性的動態變化)。
3.1 少突膠質細胞
構建擬時序軌跡:snATAC-seq 和 snRNA-seq 數據整合(圖5a)
AD樣本比例分析(沿軌跡):來自晚期AD樣本的細胞核比例沿軌跡增加(圖5b)
亞群基因表達特征分析(沿軌跡):少突膠質細胞沿軌跡表現出成熟特征。成熟的少突膠質細胞(Mature ODC)基因表達特征在軌跡末端增加; 髓鞘形成的少突膠質細胞(MF-ODC)在軌跡末端降低(圖5c);新形成的少突膠質細胞(NF-ODC)沿軌跡一直降低
RVAE重建的gl-cCREs染色質可及性和t-DEGs基因表達分析(沿軌跡):軌跡末端顯示出大量的染色質重塑和轉錄重編程特征,這可能是少突膠質細胞成熟的基礎(圖5d)
強調2個AD相關的轉錄因子:少突膠質細胞中僅表現于擬時序軌跡尾端的feature(t-DEG 或 gl-cCRE)使用黃色(trajectory end)標記;僅表現于AD樣本組的feature(t-DEG 或 gl-cCRE)用粉色點標記(圖5e)。作者展示少突膠質細胞的2個關鍵轉錄因子, NRF1和固醇調節元件結合轉錄因子1(SREBF1)。晚期AD組的少突膠質細胞中NRF1基序的多樣性上調,而SREBF1基序多樣性隨著疾病的變化下調。靶基因激活或抑制如圖5f,作者發現 NRF1在擬時序軌跡的末端與靶基因呈負相關,而SREBF1在軌跡的開始和結束都與靶基因呈正相關,說明SREBF1在整個軌跡中作為轉錄激活因子
3.2 小膠質細胞
構建擬時序軌跡:snATAC-seq 和 snRNA-seq 小膠質細胞數據整合(圖6a)
AD樣本比例分析(沿軌跡):來自晚期AD樣本的細胞核比例沿軌跡增加(圖6b)
亞群基因表達特征分析(沿軌跡):細胞軌跡顯示穩態信號的減少,TREM2非依賴性階段疾病相關小膠質細胞(DAM)信號的增加和TREM2依賴性階段DAM信號明顯整體耗竭,表明這種小膠質細胞軌跡描述了從穩態向疾病相關細胞狀態轉變過程中的轉錄和表觀遺傳變化(圖6c)
RVAE重建的gl-cCREs染色質可及性和t-DEGs基因表達分析(沿軌跡):使用RVAE分別對9163個小膠質細胞gl-cCREs和2138個小膠質細胞t-DEGs的染色質可及性和基因表達動態進行了建模(圖6d-e)
強調2個AD相關的轉錄因子:SPI1 和 ETV5,它們在AD晚期中均顯示基序多樣性上調(圖6f)。但是SPI1基序軌跡與軌跡末端的基因表達呈負相關,說明SPI1在晚期AD中作為抑制因子存在
3.3 星形膠質細胞
構建擬時序軌跡:snATAC-seq 和 snRNA-seq 星形膠質細胞數據整合(圖6g)
AD樣本比例分析(沿軌跡):來自晚期AD樣本的細胞核比例沿軌跡增加(圖6h)
亞群基因表達特征分析(沿軌跡):軌跡遵循從低GFAP 狀態到高GFAP 狀態和類疾病相關星形膠質細胞(DAA)的趨勢(圖6i)
RVAE重建的gl-cCREs染色質可及性和t-DEGs基因表達分析(沿軌跡):對12487個星形膠質細胞gl-cCREs和1797個星形膠質細胞t-DEGs進行RVAE建模,發現整個軌跡具有豐富的基因調控動態(圖6j-k)
強調2個AD相關的轉錄因子:CCCTC結合因子(CTCF)和FOSL2,它們在AD晚期中分別顯示基序多樣性下調和上調(圖6f)。CTCF Motif多樣性變化軌跡與DAA和高GFAP 信號(軌跡終點)以及軌跡的GFAP 低相位中的t-DEGs正相關(圖6l)。或者,FOSL2的基序變異軌跡與GFAP-high和DAA基因呈正相關,與軌跡末端的基因呈正相關(圖6l)。這些結果表明FOSL2可能是DAA信號的激活劑,而CTCF可能促進更穩定或無疾病的星形膠質細胞狀態。
4. 其他分析
如果想要再深入挖掘,snATAC-seq可以 聯合已經發表的GWAS數據 ;snRNA-seq可以做 scWGNCA的單細胞共表達網絡
4.1 AD遺傳風險位點的細胞類型特異性順式調控
細胞類型特異性連鎖不平衡評分回歸(LDSC)分析:為了進一步了解AD遺傳風險信號,作者對AD和其他相關性狀進行了GWAS匯總統計,對snATAC-seq聚類進行了細胞類型特異性連鎖不平衡評分回歸(LDSC)分析顯示,5個小膠質細胞cluster對多個已發表研究中AD相關GWAS SNPs顯著富集(圖7a)
AD相關SNPs風險信號分析(沿軌跡):沿小膠質細胞擬時間軌跡,觀察到整個小膠質細胞軌跡的遠端峰顯著增加,而基因近端峰分析顯著下降,突出了AD相關SNPs顯著作用于疾病相關小膠質細胞的遠端增強子(圖7b-c)
染色質可及性圖與染色質可及性信號和GWAS統計數據疊加: 作者揭示了GWAS基因中疾病變異破壞的順式調節關系,如BIN1、ADAM10、APOE和SCL24A4(圖7d-i)。作者認為APOE是主要的AD遺傳決定因素,其在疾病組的小膠質細胞和星形膠質細胞中產生順式調節染色質網絡的改變,強調cCREs可以作為候選基因通過基因編輯技術做進一步研究
4.2 scWGNCA的單細胞共表達網絡
scWGCNA定義:加權基因相關網絡分析(WGCNA)可用于查找在表達特性上高度相關基因的聚類(模塊),使用模塊特征基因(egingene)或hub基因將模塊彼此關聯并與樣本性狀相關聯,可以用來鑒定候補生物標記基因或治療靶點。由于單細胞數據具有細胞、亞群、細胞類型、樣本等維度的分類,所以scWGCNA分析僅需要在WGCNA基礎上對單細胞數據預處理,根據細胞相似性進行分群和細胞注釋,然后針對性的對目標亞群或者與研究目的相關的細胞類型進行WGCNA分析。
scWGCNA分析:通過對少突膠質細胞的scWGCNA分析;作者發現了四個與AD診斷顯著相關的共表達模塊——OM1、OM2、OM4和OM5(圖8a-b)。其中三個少突膠質細胞模塊顯著富集了SREBF1的靶點,這表明SREBF1在調控這些模塊的基因表達中的重要性(圖8c)
結果驗證:作者發現在早期和晚期AD病例中,SREBF1模塊特征基因表達在蛋白和RNA水平下調(圖8d),同時snATAC-seq數據中SREBF1基序多樣性的下調也對此再次驗證。通過RNA原位雜交和免疫組化驗證了SREBF1在晚期AD中的下調,發現在晚期AD中ACSL4表達下降,這是編碼ChIP-seq數據中SCSF4的靶點之一(圖8e-g)。
總的來說,共表達網絡分析方法有助于識別細胞類型特異性疾病生物學,作者強調了少突膠質細胞中的TF SREBF1,這在AD的背景下尚未被研究,以證明其方法用于挖掘的疾病新見解的能力。
5. 內容總結
作者共計獲得晚期阿爾茨海默病191,890個單核scRNA-seq 和 scATAC-seq 數據:
- 揭示了潛在的與疾病相關的細胞特異性順式調節元件與其潛在靶基因,如APOE、CLU與少突細胞的調節模塊有關
- 神經膠質群體的軌跡分析確定了與疾病相關的轉錄因子,如SREBF1及其調控靶點
- 通過全基因組關聯研究(GWAS)描述了不同細胞類型在阿爾茨海默病風險位點的順式調節關系
總之,該研究闡明了阿爾茨海默癥的基因調控前景,強調了膠質細胞在阿爾茨海默癥病理生理學中的作用,并確定了少突膠質細胞中SREBF1 等基因的調控機制,為利用單細胞多組學數據發現復雜性狀提供了藍圖。