單細胞轉錄組亞群分析

作者：堯小飛
審稿：童蒙
編輯：angelica

引言

在上一篇文章單細胞轉錄組(Single cell RNA)概述
，我們對單細胞轉錄組進行了簡單的介紹及其分析必備所需矩陣的獲得。

此篇6000字干貨長文，我們介紹常見的亞群分析內容。耐心看完收獲滿滿；或者收藏后慢慢看。

1.單細胞轉錄組亞群常見分析內容

單細胞轉錄組亞群分析的內容根據樣品數目多少，可以分為單個樣品或者多個樣品。單個樣品主要可以進行的分析內容有：細胞亞群的鑒定、亞群之間的差異以及發育軌跡分析。多個樣品分析內容包括所有單個的分析內容，并且在此基礎上還能進行樣品的差異分析。

這里樣品差異分析主要分兩個方面：
1.從宏觀上來說，不同亞群中不同樣品的細胞數目的差異，不同亞群細胞具有不同的功能，因此亞群的差異對于研究異質性具有十分重要的作用。
2.從單個亞群來說，可以研究不同樣品之間的差異，比如同樣是上皮細胞，我們可以研究上皮細胞中不同樣品之間的差異，基因表達或者代謝通路的差異，這是從機理上來解釋生物學問題。

一般使用Seurat工具進行細胞亞群分析。鏈接：https://github.com/satijalab/seurat

2.數據質控

2.1空載細胞、雙細胞、雙細胞數據質控

如上圖A左圖所示，為每個細胞的基因表達數目小提琴圖。一般對于單細胞轉錄組來說，如果細胞表達的基因數目過少，可能是空載細胞（在細胞分篩的時候，溶液可能含有的游離mRNA）；如果細胞基因數目表達過高，可能是雙細胞（2個以上的細胞的基因表達數目一般就會較高）。

圖A右圖為每個細胞中線粒體基因（線粒體基因的名稱一般為mt開頭，不同物種大小寫可能不一樣）的表達UMI占比，除非特別的樣品或者組織（比如卵組織），一般細胞的線粒體基因表達占比較低。不同文獻會有不同的閾值，5-40%都有，因此在做此數據質控的時候需要根據自己的研究樣品設定一個合適的閾值，通常可以設為20-25%。

圖B為雙細胞檢測方法介紹，如果細胞基因的表達數目過高，可能對結果具有較大的影響（比如有時過渡態細胞可能不是過渡態細胞，而是雙細胞），因此一般需要注意雙細胞數目。一般來說，10xGenomics單細胞轉錄組平臺對雙細胞有一定的控制，1000個細胞雙細胞率不超過0.9%，10000個細胞不超過7%。但是有時候由于實驗因素，可能會偏高，需要在分析的時候去掉雙細胞。

過濾雙細胞的方法有很多種，一種比較直接粗暴的方法就是把細胞基因表達數目超過一定閾值的細胞去掉（比如PBMC細胞，閾值為2500），不過不同的樣品閾值不同；另外一種方式就是通過算法來去掉雙細胞，現在去掉雙細胞的工具有很多種，比如DoubletFinder(https://www.cell.com/cell-systems/fulltext/S2405-4712(19)30073-0)、scrublet(https://github.com/AllonKleinLab/scrublet)、DoubletDecon(https://github.com/EDePasquale/DoubletDecon)、DoubletDetection(https://github.com/JonathanShor/DoubletDetection.git) 等等，python和R語言的工具都有，可以根據自己需要進行工具選擇。

對于空載細胞分析，一般cellranger流程已經進行處理過。cellranger在進行call cells的時候，會通過EmptyDrops工具根據其表達量與背景表達量的相似性進行空載細胞的判斷。鏈接：https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1662-y

當然也會對基因進行質控，一般會過濾掉基因表達細胞數目過低的基因，比如一般要求至少在3多個或者5個細胞表達的基因。

2.2特定細胞質控

特定細胞的質控，這個一般需要通過特定的樣品進行分析，比如PBMC細胞中不能含有血紅蛋白基因高表達的細胞，血紅蛋白基因高表達細胞一般是紅細胞，但是紅細胞對于我們的研究一般來說沒有什么意義，因此一般需要過濾掉此類細胞，這個閾值不同的樣品設定的不一樣，比如可以設定閾值為5%。

其他特定細胞的質控，比如我們經過流式篩選的是T細胞，結果出現高表達B細胞、巨噬細胞等其他細胞類型的marker基因，因此需要去掉此類細胞，一般此類細胞聚類都分離得比較開，與其他細胞不一樣，比如下圖所示。

2.3降維可變基因和PCA數目選擇

如上圖所示，一般會選擇變化度較大的基因進行后續降維聚類分析。一般選擇top1000或者2000基因進行PCA降維。然后聚類時，一般是挑選特定的PCA數目進行聚類，比如圖B所示的碎石圖，一般會選擇在拐點位置的PCA數目進行后續分析。

2.4細胞周期質控

上述圖A為沒有進行細胞周期變異的排除，圖B為進行細胞周期變異的排除，圖C為S.Score-G2M.Score進行變異的排除的結果。目前主要是人的物種有細胞周期基因，如果想對其他物種進行細胞周期分析，可以根據與人的同源基因比對后進行。

另外需要注意的是，不是所有的樣品都適合進行細胞周期分析，如果是干細胞分化研究，這樣的話就可能有點不合適，使用兩者之間的差異進行分析會更合適一些。具體情況需要根據樣品進行分析（這樣會將細胞周期細胞與非周期細胞分隔開）。

3.細胞亞群差異

在進行所有質控后，進行降維聚類，得到如上的聚類結果圖。現在降維可視化的方法主要有TSNE和UMAP。

一般來說，TSNE為局部最優的結果，邊界較為清晰；UMAP可視化結果一般為全局最優，但是邊界沒有TSNE清晰。但是聚類的結果與可視化的方法沒有任何關系，比如上圖，雖然圖A和圖B圖形不一樣，但是其聚類結果完全一致。

4.亞群細分策略

一般單細胞轉錄組很少能夠一次性得到符合預期的結果，需要對結果需要調整，比如需要對亞群數目進行調整。

如果使用Seurat(https://satijalab.org/seurat/)工具的話，可以通過調整FindClusters函數的resolution參數進行調整，一般可以設0.1-1之間，這個值越高，得到亞群數目越多，但是細胞亞群數目不能太多，不然后續分析比較耗費精力。

另外一種需要進一步或者調整結果的是，對感興趣的細胞亞群進行亞群細分，可以把感興趣的一個亞群或者多個亞群提取出來，然后再進行亞群細分。

亞群細分一般有兩種方式：第一種，通過分辨率，可以使亞群數目增多。比如下圖的1亞群，可以看到1亞群和1亞群的細分的圖形一致；第二種，將此亞群提取出來，然后再整體的按照之前分析的pipeline進行重新分析。因此其亞群細分的結果圖形會發生變化，比如下圖的7亞群細分。

5.亞群功能分析

一般進行簡單細胞亞群分析后，會再對亞群進行差異分析。進行差異分析時，一般是選擇該亞群與除了該亞群以外所有的亞群進行分析，一般閾值有pct（亞群中某個基因表達的占比）和差異倍數（平均表達量），對于Seurat工具來說，差異倍數一般設為0.25，pct閾值一般是該亞群和該亞群以外所有亞群至少一個的pct值大于0.1。通過此方法得到的差異基因，也認為是marker基因，即每個亞群特異的基因。

根據上述方法得到的差異基因，進行功能分析，了解每個亞群特異的功能，一般會進行GO和KEGG分析，然后通過氣泡圖展示差異，如下圖所示：

6.細胞亞群鑒定

根據上述得到的marker基因，對細胞亞群進行鑒定，這也是單細胞轉錄組分析最重要的一步，也是最關鍵的一步，通常需要花費大量的精力進行細胞亞群鑒定。

通常細胞亞群鑒定的方式有如下四種：傳統經典marker基因、自動化鑒定工具、其他單細胞轉錄組數據映射、與bulk RNA相關性分析。

6.1傳統經典marker基因

根據已知的細胞類型的marker基因進行細胞亞群鑒定。如上圖右上角小提琴圖，可以明顯看出PF4基因在亞群7特異性表達，因此可以根據此基因為某些細胞類型marker基因進行細胞亞群鑒定。

一般亞群鑒定不是單獨一個基因，可能需要多個基因。說到這里，我們需要知道傳統經典的marker基因，這個表格從哪兒來呢？

一般有如下兩個常用數據庫：
CellMarker：http://biocc.hrbmu.edu.cn/CellMarker/
panglaodb：https://panglaodb.se/index.html

不過這兩個數據庫都只是提供了人和小鼠相關的數據，沒有其他物種的，因此其他物種最好通過查詢相應的文獻來確定。

6.2自動化鑒定工具

目前單細胞亞群鑒定的自動化工具有很多種，至少有20-30種，這些工具主要有兩種，一種是自動化鑒定，另外一種是半監督的方式。

自動化鑒定比較常見的singleR，內置了人和小鼠的數據，其基本原理是通過計算單細胞與內置數據庫的相關性來判斷細胞類型，也可以自己建數據庫。地址為：https://github.com/dviraran/SingleR

優點是不用自己提供細胞類型以及相應的marker基因，但是其缺點是只能鑒定出數據庫已有的細胞類型以及不能鑒定特別細的細胞亞群，特別細的細胞亞群比如CD4+T 細胞亞群再細分，就沒法完成了。

另外一種是半監督的方式，需要自己提供細胞類型的marker基因，也就是只能鑒定自己提供的細胞類型，一是限制了細胞類型，另一方面則是可以鑒定任意感興趣的細胞類型，不過這種方式需要老師具有較深厚的生物學背景。

比較常用的軟件有cellassign和Garnett，其中cellassign只要提供細胞類型以及對應的基因，軟件根據TensorFlow機器學習的方法，對每個細胞進行打分。Garnett是擬時間分析工具-monocle工具編寫的團隊開發的一種細胞簡單快速注釋細胞類型的工具。它不僅僅提供了根據基因鑒定細胞亞群，還可以通過設定基因表達量閾值、或者不含某個基因來篩選，而且官方提供了一定數目的細胞類型的marker基因list。

cellassign地址：https://irrationone.github.io/cellassign/index.html
Garnett地址：https://cole-trapnell-lab.github.io/garnett/

6.3不同單細胞數據映射

其實現在很多人都會問，現在已經有那么多單細胞轉錄組數據，為什么不可以利用已知的單細胞數據來鑒定未知單細胞數據？

其實是可以的，而且這種操作的方法和工具還挺多的，比較常用的是Seurat工具中有個TransferData 函數，可以將別的數據標簽映射到未知的數據，從而鑒定細胞類型，測試數據準確性可達90%以上。地址：https://satijalab.org/seurat/v3.1/integration.html

6.4與Bulk RNA數據進行相似性分析

另外一種比較常見細胞亞群鑒定方式就是，用單細胞屬于相應細胞類型的細胞系測序獲得的Bulk RNA數據進行相關性分析，得到相似性熱圖，判斷細胞類型，結果如下圖。

此方法是比較耗費精力，需要收集相應細胞類型的Bulk RNA數據，另外單細胞數據表達的模式可能與Bulk RNA數據不太一致，因此此方法一般用于數據驗證，不作為鑒定結果。

最后說一句，其實也有一些使用marker基因進行細胞亞群鑒定的小工具。比如可以使用Y叔的Clusterprofle工具，通過對輸入的marker基因進行富集，得到可能細胞亞群，不過有個缺點就是，對于一些通過流式得到的單細胞轉錄組數據，比如某個細胞只有CD4+和CD8+細胞，可能CD4+和CD8+基因不是marker基因，不在marker基因list中，因此鑒定會有些問題。

7.單細胞轉錄組樣品差異分析

10xGenomics單細胞轉錄組一次可獲取10000個細胞。在研究的時候，不能一個細胞一個細胞研究，一般通過降維聚類，將表達模式相同的細胞聚類在一起，即得到細胞亞群，隨后的研究是基于細胞亞群進行。

研究不同樣品、不同處理條件、不同組織樣品的時候，一般是在同一個亞群之下進行的研究，畢竟不同類型的細胞其表達模式肯定不一樣，這個可比性不太強。比如在使用某種藥物處理后，想看看CD4+ naive T細胞有什么變化，然后挑取CD4+ naive T細胞亞群，直接比較兩個樣品的細胞基因表達差異，然后對此基因進行功能注釋，了解哪些關鍵基因發生變化，代謝通路發生了變化。

由于10xGenomics單細胞轉錄組的基因表達較smart-seq2的數據較低，因此一般進行差異分析的時候，其閾值不能直接按照smart-seq2的閾值設置，seurat一般設為差異倍數的log值為0.25。

我們也可以根據每個樣品在某個亞群中所有細胞基因的平均表達量作散點圖，這樣能更直觀地展示差異基因，比如下圖展示了top10基因，一般越靠近y軸的基因，就是STIM高表達，越靠近x軸，就是CTRL高表達。下圖使用了不同的差異基因展示方式。

8.基因集富集分析

除了對常規的差異基因或者marker基因的功能分析以外，還有一種就是對某個基因集進行富集分析或者說打分。這種分析方式不需要在不同樣品之間進行比較，關注點是某個基因集在每個細胞、每個細胞亞群中的富集程度，其中這樣分析的內容可就多了。

基因集可以根據需要進行設置，比如關注T細胞激活的話，給定T細胞激活的基因集，就可以看到每個細胞的T細胞激活程度。基因集分析比較常用的工具是GSVA（Gene Set Variation Analysis），鏈接如下：http://www.bioconductor.org/packages/release/bioc/html/GSVA.html

這里需要注意的是該工具盡量不要使用counts表達矩陣作為輸入數據，如果實在需要用counts表達矩陣作為輸入文件的話，需要修改GSVA的參數kcdf，設為Poisson，其默認為Gaussian。但是使用Poisson的時候，其耗時巨大，因此不建議使用counts表達矩陣。

一般建議使用連續性值，比如log-CPMs, log-RPKMs or log-TPMs，這樣分析速度快很多，一般兩三萬細胞的話，30個基因集以內的，24小時內就可以完成。

至于基因集的設置，一般可以使用GO Term、KEGG代謝通路、reactome代謝通路、或者GSEA官方基因集、自己提供的基因集都可以，下圖為GSVA結果展示。

9.單細胞轉錄組發育軌跡分析

發育軌跡分析即擬時間分析，就是根據細胞中基因的表達量，基于特定基因對細胞進行排序的一個過程，其結果主要反映細胞發育的先后。

一般軟件得到的結果是沒法確定發育起始點，需要根據某些基因來判斷發育起始點，這里特定基因可以是軟件自動計算差異的基因，也可以是已知的跟發育相關的基因。其中最常用的發育軌跡的工具是monocle（http://cole-trapnell-lab.github.io/monocle-release/）

當然發育軌跡分析的工具有很多，目前能做此類分析結果的工具至少有60+以上，比如dyno (https://github.com/dynverse/dynmethods)工具搜集了60+，做了一個所有擬時間分析的集合，包括常用的monocle(http://cole-trapnell-lab.github.io/monocle-release/)、PAGA(https://github.com/theislab/paga)、pCreode(https://github.com/KenLauLab/pCreode)等等，不過此軟件是基于docker，因此需要系統有root權限。

不同的單細胞轉錄組數據具有不同的特征，可能某個軟件并不通用的。因此dyno工具通過其前期的表達特征，提供該數據對所有軟件的最優適配的方案，可以選擇最優的方案。

不過此工具也有局限性，比如工具不全、工具的版本更新不及時（monocle現在為版本2）、某些功能的缺失、與其他工具的兼容性有待提升等等。因此沒有任何萬能的工具，只能根據需要進行挑選工具。

這一篇中，介紹了常見的亞群分析的內容和工具，下一篇我們會介紹詳細的單細胞轉錄組其他高級分析過程和原理，請大家繼續關注。

參考文獻
1.Giovanni Iacono, Ramon Massoni-Badosa, Holger Heyn. Single-cell transcriptomics unveils gene regulatory network plasticity[J]. Genome biology, 2019, 20(1).
2.Gioele L M , Ruslan S , Amit Z , et al. RNA velocity of single cells[J]. Nature, 2018.
3.Park J , Shrestha R , Qiu C , et al. Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease[J]. Science, 2018:eaar2131.
4.Zhang X, Lan Y, Xu J, et al. CellMarker: a manually curated resource of cell markers in human and mouse[J]. Nucleic Acids Research, 2019.
5.Aran D, Looney A P, Liu L, et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage[J]. Nature Immunology, 2019, 20(2): 163-172.
6.Aibar S , González-Blas, Carmen Bravo, Moerman T , et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature Methods, 2017.
7.Wouter, Saelens, Robrecht, et al. A comparison of single-cell trajectory inference methods[J]. Nature Biotechnology, 2019.
8.F, Alexander, Wolf, et al. PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.[J]. Genome biology, 2019.
9.Diether L , Els W , Bram B , et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature Medicine, 2018.
10.Zheng C , Zheng L , Yoo J K , et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing[J]. Cell, 2017, 169(7):1342-1356.e16.

該文來源于“生信阿拉丁”，關注公眾號，第一時間查收“新款”生信學習干貨。

最后編輯于：2020.03.22 14:26:42

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,443評論 6贊 532
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,530評論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,407評論 0贊 375
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,981評論 1贊 312
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,759評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,204評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,263評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,415評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,955評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,782評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,983評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,528評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,222評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,650評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,892評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,675評論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,967評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

單細胞轉錄組亞群分析

單細胞轉錄組亞群分析

引言

1.單細胞轉錄組亞群常見分析內容