結合單細胞測序和功能篩選揭示lncRNA H19對胚胎造血干細胞發育的關鍵作用
日期:2019年1月19日——2019-Week3
分類:「思路」
題目:Combined Single-Cell Profiling of lncRNAs and Functional Screening Reveals that H19 Is Pivotal for Embryonic Hematopoietic Stem Cell Development
DOI: https://doi.org/10.1016/j.stem.2018.11.023
雜志: Cell Stem Cell,February 7, 2019
關鍵詞: single cell lncRNA, H19, HSC
摘要
這篇文章通過對該實驗室16年發表的造血干細胞單細胞(HSC)測序數據的進一步挖掘,篩選出了6個影響造血作用的lncRNA,然后驗證了其中的一個lncRNA H19的功能,發現H19 通過使HSC的轉錄因子(Runx1, Spi1)的啟動子甲基化的機制在內皮細胞向HSC轉化過程中發揮著重要作用。
文章思路如下:
構建造血干細胞發育的單細胞lncRNA整體圖譜
首先是從單細胞RNA-seq數據篩選lncRNA,統計已知的未知的lncRNA以及每個發育時期的lncRNA數量,然后分析lncRNA與鄰近基因的共調控關系,lncRNA-mRNA相關性分析和SOM(self-organizing maps)表達異質性分析。通過生物信息學和功能篩選鑒定到6個影響造血作用的lncRNA
根據差異lncRNA和lncRNA的功能特征,篩選從EC-T1 pre-HSC發育過程中上調的lncRNA,屬于pre-HSC特征的lncRNA,和在物種中保守性強的lncRNA,最后篩選到10個lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后結合敲低實驗,發現10個lncRNA中有6個lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最顯著。lncRNA H19的缺失導致AGM區內皮細胞生成HSC失敗
實驗驗證H19的缺失導致AGM區內皮細胞生成HSC失敗-
H19缺乏導致pre-HSC中的Runx1和Spi1啟動子高甲基化
進一步驗證H19的發揮作用的機制
1. lncRNA單細胞水平整體變化以及與mRNA的相關性分析
128個單細胞lncRNA圖譜,6個細胞類型,ployA+捕獲轉錄本,共鑒定到7312個lncRNA,其中6911個lncRNA是已知的有注釋的,401個lncRNA是未未知的,13786個蛋白編碼基因。每個細胞中的lncRNA基因的平均數量明顯少于mRNA基因,而lncRNA轉錄本在T2譜系最高,mRNA轉錄本在T1時期最高。
然后對lncRNA和其臨近的基因做相關性分析,定義>5kb的為trans,< 5kb的cis作用,并根據lncRNA和mRNA的作用方式分為6種類型,最后對這幾種類型的lncRNA從進化的角度在不同物種間做了保守性分析。
2. HSC發育過程中lncRNA的差異變化和功能特征注釋
分別對lncRNA進行差異分析和PCA分析,可以看出lncRNA在發育的不同時期具有異質性,T1,T2和BM HSC中的lncRNA共有12個overlap,F圖用circos展示了lncRNA與其臨近的5個基因的相互關系。
3. 體外篩選調控造血作用的lncRNA
首先篩選從EC-T1 pre-HSC發育過程中上調的lncRNA,屬于pre-HSC特征的lncRNA,和在物種中保守性強的lncRNA,最后篩選到10個lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后結合敲低實驗,發現10個lncRNA中有6個lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最顯著。
4. lncRNA H19的功能研究
lncRNA H19缺失導致AGM區內皮細胞生成HSC失敗
5. H19發揮作用的機制
H19缺乏導致pre-HSC中的Runx1和Spi1啟動子高甲基化
方法
單細胞數據的處理分析方法:
SMRT-seq測序,TopHat比對,HT-seq定量,scde package做的差異分析,分別對所有基因和top500基因做PCA分析。lncRNA和臨近編碼基因的表達關聯用的是Circle tools(http://www.genome.org/cgi/doi/10.1101/gr.092759.109)。擬時間軌跡分析用的是Monocle,T-SNE用的是tsne package, TF網絡分析用的是Fantom5 mouse TFs, 網絡圖繪制用的是Cytoscape。
相關性分析:
pairwise Pearson相關性分析每個lncRNA和其臨近的5個基因。GO注釋用的 PANTHER (http://www.pantherdb.org/).
Self-Organizing Maps
SOM是人工神經網絡的一種類型,基于無監督學習訓練模型生成輸入的訓練樣本空間的低維(通常是二維)離散表示。這里用于將具有相同表達模式的lncRNA和mRNA聚類,然后可以通過在相同cluster的編碼基因的功能預測lncRNA的功能。
未知的lncRNA的從頭組裝和注釋
cufflinks組裝,CPAT和PhlyoCSF軟件對編碼潛能進行評估。
數據集:
GEO: GSE67120
GEO: GSE108653.
這篇文章篩選候選lncRNA的方法值得學習,如通過lncRNA-mRNA相關性分析構建lncRNA-mRNA pairs,lncRNA的位置分析找出臨近基因和trans作用的基因,以及結合深度學習的方法將具有相同表達模式lncRNA和mRNA聚類到一個cluster,然后由mRNA的功能預測lncRNA的功能,并結合差異lncRNA和功能試驗篩選不斷縮小候選lncRNA,最后選擇一個與表型相關最強的一個lncRNA進行功能和機制的研究。