「文獻03」從lncRNA的角度進一步挖掘發表過的單細胞轉錄組測序數據

結合單細胞測序和功能篩選揭示lncRNA H19對胚胎造血干細胞發育的關鍵作用

日期:2019年1月19日——2019-Week3
分類:「思路」
題目:Combined Single-Cell Profiling of lncRNAs and Functional Screening Reveals that H19 Is Pivotal for Embryonic Hematopoietic Stem Cell Development
DOI: https://doi.org/10.1016/j.stem.2018.11.023
雜志: Cell Stem Cell,February 7, 2019
關鍵詞: single cell lncRNA, H19, HSC

摘要

這篇文章通過對該實驗室16年發表的造血干細胞單細胞(HSC)測序數據的進一步挖掘,篩選出了6個影響造血作用的lncRNA,然后驗證了其中的一個lncRNA H19的功能,發現H19 通過使HSC的轉錄因子(Runx1, Spi1)的啟動子甲基化的機制在內皮細胞向HSC轉化過程中發揮著重要作用。

文章思路如下:

  • 構建造血干細胞發育的單細胞lncRNA整體圖譜
    首先是從單細胞RNA-seq數據篩選lncRNA,統計已知的未知的lncRNA以及每個發育時期的lncRNA數量,然后分析lncRNA與鄰近基因的共調控關系,lncRNA-mRNA相關性分析和SOM(self-organizing maps)表達異質性分析。

  • 通過生物信息學和功能篩選鑒定到6個影響造血作用的lncRNA
    根據差異lncRNA和lncRNA的功能特征,篩選從EC-T1 pre-HSC發育過程中上調的lncRNA,屬于pre-HSC特征的lncRNA,和在物種中保守性強的lncRNA,最后篩選到10個lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后結合敲低實驗,發現10個lncRNA中有6個lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最顯著。

  • lncRNA H19的缺失導致AGM區內皮細胞生成HSC失敗
    實驗驗證H19的缺失導致AGM區內皮細胞生成HSC失敗

  • H19缺乏導致pre-HSC中的Runx1Spi1啟動子高甲基化
    進一步驗證H19的發揮作用的機制


1. lncRNA單細胞水平整體變化以及與mRNA的相關性分析

128個單細胞lncRNA圖譜,6個細胞類型,ployA+捕獲轉錄本,共鑒定到7312個lncRNA,其中6911個lncRNA是已知的有注釋的,401個lncRNA是未未知的,13786個蛋白編碼基因。每個細胞中的lncRNA基因的平均數量明顯少于mRNA基因,而lncRNA轉錄本在T2譜系最高,mRNA轉錄本在T1時期最高。
然后對lncRNA和其臨近的基因做相關性分析,定義>5kb的為trans,< 5kb的cis作用,并根據lncRNA和mRNA的作用方式分為6種類型,最后對這幾種類型的lncRNA從進化的角度在不同物種間做了保守性分析。

2. HSC發育過程中lncRNA的差異變化和功能特征注釋

分別對lncRNA進行差異分析和PCA分析,可以看出lncRNA在發育的不同時期具有異質性,T1,T2和BM HSC中的lncRNA共有12個overlap,F圖用circos展示了lncRNA與其臨近的5個基因的相互關系。

3. 體外篩選調控造血作用的lncRNA

首先篩選從EC-T1 pre-HSC發育過程中上調的lncRNA,屬于pre-HSC特征的lncRNA,和在物種中保守性強的lncRNA,最后篩選到10個lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后結合敲低實驗,發現10個lncRNA中有6個lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最顯著。


4. lncRNA H19的功能研究

lncRNA H19缺失導致AGM區內皮細胞生成HSC失敗


5. H19發揮作用的機制

H19缺乏導致pre-HSC中的Runx1Spi1啟動子高甲基化


方法

單細胞數據的處理分析方法:
SMRT-seq測序,TopHat比對,HT-seq定量,scde package做的差異分析,分別對所有基因和top500基因做PCA分析。lncRNA和臨近編碼基因的表達關聯用的是Circle tools(http://www.genome.org/cgi/doi/10.1101/gr.092759.109)。擬時間軌跡分析用的是Monocle,T-SNE用的是tsne package, TF網絡分析用的是Fantom5 mouse TFs, 網絡圖繪制用的是Cytoscape。

相關性分析:
pairwise Pearson相關性分析每個lncRNA和其臨近的5個基因。GO注釋用的 PANTHER (http://www.pantherdb.org/).

Self-Organizing Maps
SOM是人工神經網絡的一種類型,基于無監督學習訓練模型生成輸入的訓練樣本空間的低維(通常是二維)離散表示。這里用于將具有相同表達模式的lncRNA和mRNA聚類,然后可以通過在相同cluster的編碼基因的功能預測lncRNA的功能。

未知的lncRNA的從頭組裝和注釋
cufflinks組裝,CPAT和PhlyoCSF軟件對編碼潛能進行評估。

數據集:
GEO: GSE67120
GEO: GSE108653.


這篇文章篩選候選lncRNA的方法值得學習,如通過lncRNA-mRNA相關性分析構建lncRNA-mRNA pairs,lncRNA的位置分析找出臨近基因和trans作用的基因,以及結合深度學習的方法將具有相同表達模式lncRNA和mRNA聚類到一個cluster,然后由mRNA的功能預測lncRNA的功能,并結合差異lncRNA和功能試驗篩選不斷縮小候選lncRNA,最后選擇一個與表型相關最強的一個lncRNA進行功能和機制的研究。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容