作者:堯小飛
審稿:童蒙
編輯:angelica
引言
在上一篇文章單細胞轉錄組(Single cell RNA)概述
,我們對單細胞轉錄組進行了簡單的介紹及其分析必備所需矩陣的獲得。
此篇6000字干貨長文,我們介紹常見的亞群分析內容。耐心看完收獲滿滿;或者收藏后慢慢看。
1.單細胞轉錄組亞群常見分析內容
單細胞轉錄組亞群分析的內容根據樣品數目多少,可以分為單個樣品或者多個樣品。單個樣品主要可以進行的分析內容有:細胞亞群的鑒定、亞群之間的差異以及發育軌跡分析。多個樣品分析內容包括所有單個的分析內容,并且在此基礎上還能進行樣品的差異分析。
這里樣品差異分析主要分兩個方面:
1.從宏觀上來說,不同亞群中不同樣品的細胞數目的差異,不同亞群細胞具有不同的功能,因此亞群的差異對于研究異質性具有十分重要的作用。
2.從單個亞群來說,可以研究不同樣品之間的差異,比如同樣是上皮細胞,我們可以研究上皮細胞中不同樣品之間的差異,基因表達或者代謝通路的差異,這是從機理上來解釋生物學問題。
一般使用Seurat工具進行細胞亞群分析。 鏈接:https://github.com/satijalab/seurat
2.數 據 質 控
2.1空載細胞、雙細胞、雙細胞數據質控
如上圖A左圖所示,為每個細胞的基因表達數目小提琴圖。一般對于單細胞轉錄組來說,如果細胞表達的基因數目過少,可能是空載細胞(在細胞分篩的時候,溶液可能含有的游離mRNA);如果細胞基因數目表達過高,可能是雙細胞(2個以上的細胞的基因表達數目一般就會較高)。
圖A右圖為每個細胞中線粒體基因(線粒體基因的名稱一般為mt開頭,不同物種大小寫可能不一樣)的表達UMI占比,除非特別的樣品或者組織(比如卵組織),一般細胞的線粒體基因表達占比較低。不同文獻會有不同的閾值,5-40%都有,因此在做此數據質控的時候需要根據自己的研究樣品設定一個合適的閾值,通常可以設為20-25%。
圖B為雙細胞檢測方法介紹,如果細胞基因的表達數目過高,可能對結果具有較大的影響(比如有時過渡態細胞可能不是過渡態細胞,而是雙細胞),因此一般需要注意雙細胞數目。一般來說,10xGenomics單細胞轉錄組平臺對雙細胞有一定的控制,1000個細胞雙細胞率不超過0.9%,10000個細胞不超過7%。但是有時候由于實驗因素,可能會偏高,需要在分析的時候去掉雙細胞。
過濾雙細胞的方法有很多種,一種比較直接粗暴的方法就是把細胞基因表達數目超過一定閾值的細胞去掉(比如PBMC細胞,閾值為2500),不過不同的樣品閾值不同;另外一種方式就是通過算法來去掉雙細胞,現在去掉雙細胞的工具有很多種,比如DoubletFinder(https://www.cell.com/cell-systems/fulltext/S2405-4712(19)30073-0)、scrublet(https://github.com/AllonKleinLab/scrublet)、DoubletDecon(https://github.com/EDePasquale/DoubletDecon)、DoubletDetection(https://github.com/JonathanShor/DoubletDetection.git) 等等,python和R語言的工具都有,可以根據自己需要進行工具選擇。
對于空載細胞分析,一般cellranger流程已經進行處理過。cellranger在進行call cells的時候,會通過EmptyDrops工具根據其表達量與背景表達量的相似性進行空載細胞的判斷。鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1662-y
當然也會對基因進行質控,一般會過濾掉基因表達細胞數目過低的基因,比如一般要求至少在3多個或者5個細胞表達的基因。
2.2特定細胞質控
特定細胞的質控,這個一般需要通過特定的樣品進行分析,比如PBMC細胞中不能含有血紅蛋白基因高表達的細胞,血紅蛋白基因高表達細胞一般是紅細胞,但是紅細胞對于我們的研究一般來說沒有什么意義,因此一般需要過濾掉此類細胞,這個閾值不同的樣品設定的不一樣,比如可以設定閾值為5%。
其他特定細胞的質控,比如我們經過流式篩選的是T細胞,結果出現高表達B細胞、巨噬細胞等其他細胞類型的marker基因,因此需要去掉此類細胞,一般此類細胞聚類都分離得比較開,與其他細胞不一樣,比如下圖所示。
2.3降維可變基因和PCA數目選擇
如上圖所示,一般會選擇變化度較大的基因進行后續降維聚類分析。一般選擇top1000或者2000基因進行PCA降維。然后聚類時,一般是挑選特定的PCA數目進行聚類,比如圖B所示的碎石圖,一般會選擇在拐點位置的PCA數目進行后續分析。
2.4細胞周期質控
上述圖A為沒有進行細胞周期變異的排除,圖B為進行細胞周期變異的排除,圖C為S.Score-G2M.Score進行變異的排除的結果。目前主要是人的物種有細胞周期基因,如果想對其他物種進行細胞周期分析,可以根據與人的同源基因比對后進行。
另外需要注意的是,不是所有的樣品都適合進行細胞周期分析,如果是干細胞分化研究,這樣的話就可能有點不合適,使用兩者之間的差異進行分析會更合適一些。具體情況需要根據樣品進行分析(這樣會將細胞周期細胞與非周期細胞分隔開)。
3.細 胞 亞 群 差 異
在進行所有質控后,進行降維聚類,得到如上的聚類結果圖。現在降維可視化的方法主要有TSNE和UMAP。
一般來說,TSNE為局部最優的結果,邊界較為清晰;UMAP可視化結果一般為全局最優,但是邊界沒有TSNE清晰。但是聚類的結果與可視化的方法沒有任何關系,比如上圖,雖然圖A和圖B圖形不一樣,但是其聚類結果完全一致。
4.亞 群 細 分 策 略
一般單細胞轉錄組很少能夠一次性得到符合預期的結果,需要對結果需要調整,比如需要對亞群數目進行調整。
如果使用Seurat(https://satijalab.org/seurat/)工具的話,可以通過調整FindClusters函數的resolution參數進行調整,一般可以設0.1-1之間,這個值越高,得到亞群數目越多,但是細胞亞群數目不能太多,不然后續分析比較耗費精力。
另外一種需要進一步或者調整結果的是,對感興趣的細胞亞群進行亞群細分,可以把感興趣的一個亞群或者多個亞群提取出來,然后再進行亞群細分。
亞群細分一般有兩種方式:第一種,通過分辨率,可以使亞群數目增多。比如下圖的1亞群,可以看到1亞群和1亞群的細分的圖形一致;第二種,將此亞群提取出來,然后再整體的按照之前分析的pipeline進行重新分析。因此其亞群細分的結果圖形會發生變化,比如下圖的7亞群細分。
5.亞 群 功 能 分 析
一般進行簡單細胞亞群分析后,會再對亞群進行差異分析。進行差異分析時,一般是選擇該亞群與除了該亞群以外所有的亞群進行分析,一般閾值有pct(亞群中某個基因表達的占比)和差異倍數(平均表達量),對于Seurat工具來說,差異倍數一般設為0.25,pct閾值一般是該亞群和該亞群以外所有亞群至少一個的pct值大于0.1。通過此方法得到的差異基因,也認為是marker基因,即每個亞群特異的基因。
根據上述方法得到的差異基因,進行功能分析,了解每個亞群特異的功能,一般會進行GO和KEGG分析,然后通過氣泡圖展示差異,如下圖所示:
6.細 胞 亞 群 鑒 定
根據上述得到的marker基因,對細胞亞群進行鑒定,這也是單細胞轉錄組分析最重要的一步,也是最關鍵的一步,通常需要花費大量的精力進行細胞亞群鑒定。
通常細胞亞群鑒定的方式有如下四種:傳統經典marker基因、自動化鑒定工具、其他單細胞轉錄組數據映射、與bulk RNA相關性分析。
6.1傳統經典marker基因
根據已知的細胞類型的marker基因進行細胞亞群鑒定。如上圖右上角小提琴圖,可以明顯看出PF4基因在亞群7特異性表達,因此可以根據此基因為某些細胞類型marker基因進行細胞亞群鑒定。
一般亞群鑒定不是單獨一個基因,可能需要多個基因。說到這里,我們需要知道傳統經典的marker基因,這個表格從哪兒來呢?
一般有如下兩個常用數據庫:
CellMarker:http://biocc.hrbmu.edu.cn/CellMarker/
panglaodb:https://panglaodb.se/index.html
不過這兩個數據庫都只是提供了人和小鼠相關的數據,沒有其他物種的,因此其他物種最好通過查詢相應的文獻來確定。
6.2自動化鑒定工具
目前單細胞亞群鑒定的自動化工具有很多種,至少有20-30種,這些工具主要有兩種,一種是自動化鑒定,另外一種是半監督的方式。
自動化鑒定比較常見的singleR,內置了人和小鼠的數據,其基本原理是通過計算單細胞與內置數據庫的相關性來判斷細胞類型,也可以自己建數據庫。地址為:https://github.com/dviraran/SingleR
優點是不用自己提供細胞類型以及相應的marker基因,但是其缺點是只能鑒定出數據庫已有的細胞類型以及不能鑒定特別細的細胞亞群,特別細的細胞亞群比如CD4+T 細胞亞群再細分,就沒法完成了。
另外一種是半監督的方式,需要自己提供細胞類型的marker基因,也就是只能鑒定自己提供的細胞類型,一是限制了細胞類型,另一方面則是可以鑒定任意感興趣的細胞類型,不過這種方式需要老師具有較深厚的生物學背景。
比較常用的軟件有cellassign和Garnett,其中cellassign只要提供細胞類型以及對應的基因,軟件根據TensorFlow機器學習的方法,對每個細胞進行打分。Garnett是擬時間分析工具-monocle工具編寫的團隊開發的一種細胞簡單快速注釋細胞類型的工具。它不僅僅提供了根據基因鑒定細胞亞群,還可以通過設定基因表達量閾值、或者不含某個基因來篩選,而且官方提供了一定數目的細胞類型的marker基因list。
cellassign地址:https://irrationone.github.io/cellassign/index.html
Garnett地址:https://cole-trapnell-lab.github.io/garnett/
6.3不同單細胞數據映射
其實現在很多人都會問,現在已經有那么多單細胞轉錄組數據,為什么不可以利用已知的單細胞數據來鑒定未知單細胞數據?
其實是可以的,而且這種操作的方法和工具還挺多的,比較常用的是Seurat工具中有個TransferData 函數,可以將別的數據標簽映射到未知的數據,從而鑒定細胞類型,測試數據準確性可達90%以上。地址:https://satijalab.org/seurat/v3.1/integration.html
6.4與Bulk RNA數據進行相似性分析
另外一種比較常見細胞亞群鑒定方式就是,用單細胞屬于相應細胞類型的細胞系測序獲得的Bulk RNA數據進行相關性分析,得到相似性熱圖,判斷細胞類型,結果如下圖。
此方法是比較耗費精力,需要收集相應細胞類型的Bulk RNA數據,另外單細胞數據表達的模式可能與Bulk RNA數據不太一致,因此此方法一般用于數據驗證,不作為鑒定結果。
最后說一句,其實也有一些使用marker基因進行細胞亞群鑒定的小工具。比如可以使用Y叔的Clusterprofle工具,通過對輸入的marker基因進行富集,得到可能細胞亞群,不過有個缺點就是,對于一些通過流式得到的單細胞轉錄組數據,比如某個細胞只有CD4+和CD8+細胞,可能CD4+和CD8+基因不是marker基因,不在marker基因list中,因此鑒定會有些問題。
7.單細胞轉錄組樣品差異分析
10xGenomics單細胞轉錄組一次可獲取10000個細胞。在研究的時候,不能一個細胞一個細胞研究,一般通過降維聚類,將表達模式相同的細胞聚類在一起,即得到細胞亞群,隨后的研究是基于細胞亞群進行。
研究不同樣品、不同處理條件、不同組織樣品的時候,一般是在同一個亞群之下進行的研究,畢竟不同類型的細胞其表達模式肯定不一樣,這個可比性不太強。比如在使用某種藥物處理后,想看看CD4+ naive T細胞有什么變化,然后挑取CD4+ naive T細胞亞群,直接比較兩個樣品的細胞基因表達差異,然后對此基因進行功能注釋,了解哪些關鍵基因發生變化,代謝通路發生了變化。
由于10xGenomics單細胞轉錄組的基因表達較smart-seq2的數據較低,因此一般進行差異分析的時候,其閾值不能直接按照smart-seq2的閾值設置,seurat一般設為差異倍數的log值為0.25。
我們也可以根據每個樣品在某個亞群中所有細胞基因的平均表達量作散點圖,這樣能更直觀地展示差異基因,比如下圖展示了top10基因,一般越靠近y軸的基因,就是STIM高表達,越靠近x軸,就是CTRL高表達。下圖使用了不同的差異基因展示方式。
8.基 因 集 富 集 分 析
除了對常規的差異基因或者marker基因的功能分析以外,還有一種就是對某個基因集進行富集分析或者說打分。這種分析方式不需要在不同樣品之間進行比較,關注點是某個基因集在每個細胞、每個細胞亞群中的富集程度,其中這樣分析的內容可就多了。
基因集可以根據需要進行設置,比如關注T細胞激活的話,給定T細胞激活的基因集,就可以看到每個細胞的T細胞激活程度。基因集分析比較常用的工具是GSVA(Gene Set Variation Analysis),鏈接如下:http://www.bioconductor.org/packages/release/bioc/html/GSVA.html
這里需要注意的是該工具盡量不要使用counts表達矩陣作為輸入數據,如果實在需要用counts表達矩陣作為輸入文件的話,需要修改GSVA的參數kcdf,設為Poisson,其默認為Gaussian。但是使用Poisson的時候,其耗時巨大,因此不建議使用counts表達矩陣。
一般建議使用連續性值,比如log-CPMs, log-RPKMs or log-TPMs,這樣分析速度快很多,一般兩三萬細胞的話,30個基因集以內的,24小時內就可以完成。
至于基因集的設置,一般可以使用GO Term、KEGG代謝通路、reactome代謝通路、或者GSEA官方基因集、自己提供的基因集都可以,下圖為GSVA結果展示。
9.單細胞轉錄組發育軌跡分析
發育軌跡分析即擬時間分析,就是根據細胞中基因的表達量,基于特定基因對細胞進行排序的一個過程,其結果主要反映細胞發育的先后。
一般軟件得到的結果是沒法確定發育起始點,需要根據某些基因來判斷發育起始點,這里特定基因可以是軟件自動計算差異的基因,也可以是已知的跟發育相關的基因。其中最常用的發育軌跡的工具是monocle(http://cole-trapnell-lab.github.io/monocle-release/)
當然發育軌跡分析的工具有很多,目前能做此類分析結果的工具至少有60+以上,比如dyno (https://github.com/dynverse/dynmethods)工具搜集了60+,做了一個所有擬時間分析的集合,包括常用的monocle(http://cole-trapnell-lab.github.io/monocle-release/)、PAGA(https://github.com/theislab/paga)、pCreode(https://github.com/KenLauLab/pCreode)等等,不過此軟件是基于docker,因此需要系統有root權限。
不同的單細胞轉錄組數據具有不同的特征,可能某個軟件并不通用的。因此dyno工具通過其前期的表達特征,提供該數據對所有軟件的最優適配的方案,可以選擇最優的方案。
不過此工具也有局限性,比如工具不全、工具的版本更新不及時(monocle現在為版本2)、某些功能的缺失、與其他工具的兼容性有待提升等等。因此沒有任何萬能的工具,只能根據需要進行挑選工具。
這一篇中,介紹了常見的亞群分析的內容和工具,下一篇我們會介紹詳細的單細胞轉錄組其他高級分析過程和原理,請大家繼續關注。
參考文獻
1.Giovanni Iacono, Ramon Massoni-Badosa, Holger Heyn. Single-cell transcriptomics unveils gene regulatory network plasticity[J]. Genome biology, 2019, 20(1).
2.Gioele L M , Ruslan S , Amit Z , et al. RNA velocity of single cells[J]. Nature, 2018.
3.Park J , Shrestha R , Qiu C , et al. Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease[J]. Science, 2018:eaar2131.
4.Zhang X, Lan Y, Xu J, et al. CellMarker: a manually curated resource of cell markers in human and mouse[J]. Nucleic Acids Research, 2019.
5.Aran D, Looney A P, Liu L, et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage[J]. Nature Immunology, 2019, 20(2): 163-172.
6.Aibar S , González-Blas, Carmen Bravo, Moerman T , et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature Methods, 2017.
7.Wouter, Saelens, Robrecht, et al. A comparison of single-cell trajectory inference methods[J]. Nature Biotechnology, 2019.
8.F, Alexander, Wolf, et al. PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.[J]. Genome biology, 2019.
9.Diether L , Els W , Bram B , et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature Medicine, 2018.
10.Zheng C , Zheng L , Yoo J K , et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing[J]. Cell, 2017, 169(7):1342-1356.e16.
該文來源于“生信阿拉丁”,關注公眾號,第一時間查收“新款”生信學習干貨。