Day-3 單細胞轉錄組RCA分析揭示結直腸癌細胞異質性

劉小澤寫于19.4.3-4
果然是大文章,內容比較豐富。
熱烈慶祝sci-hub合法化,這下大家可以自由自在使用了

之前的單細胞轉錄組研究中,許多實驗檢測的腫瘤微環(huán)境分辨率不足,或者忽視了腫瘤與對應的正常樣品的比較。并且許多單細胞轉錄組分析算法則受到高背景噪音、批次效應、技術誤差的干擾(原因主要是臨床樣本采集的條件、批次不同),限制了分析的準確性。

2017年美國Jaxon實驗室、新加坡基因組研究所和新加坡國家癌癥研究中心共同發(fā)表在Nature genetics的題為Reference component analysis of single-cell transcriptomes elucidates cellular heterogeneity in human colorectal tumors 。主要開發(fā)了一種叫做RCA(reference component analysis)即參考成分分析的新型算法,相比舊算法可以顯著提高聚類準確性,對細胞類型、腫瘤微環(huán)境的識別率提高。利用這個方法,發(fā)現(xiàn)了兩種獨特的成纖維細胞(CAFs)亞型,其中上皮間質轉化(EMT)相關基因顯著上調表達;將結直腸腫瘤細胞依據(jù)不同的細胞狀態(tài)和生存概率分成不同的亞型,更準確的細胞分類對預后有一定的指導意義。

背景知識

腫瘤異質性

腫瘤異質性包括腫瘤間異質性(不同腫瘤細胞之間的基因與表型不同)和腫瘤內異質性(相同腫瘤細胞以內的基因與表型也不同),其中腫瘤內異質性又粗略分為空間異質性(未擴增的細胞背景中有成簇擴增細胞;少量擴增背景中有未擴增的細胞;孤立的細胞擴增)與時間異質性(原初腫瘤與次生腫瘤)。

Nature一篇文章按照其來源分為患者異質性 (patient hetero-geneity) 和瘤內異質性 (intratumoral heterogeneity),其中患者異質性就是指同種類型腫瘤在不同患者中表現(xiàn)出差異,瘤內異質性指同一患者的同一部位腫瘤內存在的明顯差異。

瘤內異質性一直是研究重點,異質性是產(chǎn)生抗藥性的主要原因,而異質性產(chǎn)生的主要原因又與腫瘤干細胞的發(fā)生、遺傳物質不穩(wěn)定、細胞間競爭等相關。

腫瘤干細胞:是指腫瘤中存在的一小群具有無限自我更新能力的干細胞樣細胞,可以演化成表型不同的細胞群,具有強致瘤性。受細胞分化、克隆演化和微環(huán)境等因素影響,導致表型與功能的異質性。這也是現(xiàn)在關于異質性來源最為普遍的的觀點

遺傳物質不穩(wěn)定:腫瘤細胞是異倍體,一篇2013年Nature在結腸癌中發(fā)現(xiàn)3個與DNA復制相關的基因MCD4MEX3CZNF516,基因的缺失導致DNA復制時出現(xiàn)應激=》異倍體出現(xiàn)=》異質性腫瘤細胞出現(xiàn)

上皮間質轉化

EMT(epithelial-mesenchymal transition)是Greenberg和Hay于1982年提出的,指的是可逆的上皮細胞轉化為間質細胞 (2014 Trends Pharmacol Sci)的生物學過程。上皮細胞將經(jīng)歷持續(xù)的細胞活動, 包括失去頂-底極性結構, 細胞間連接受到破壞, 細胞骨架重構, 改變細胞形態(tài)并最終呈現(xiàn)出間質及侵襲表型, 從而增加細胞運動性并提高其降解細胞外基質的能力(2009 Cell)。

惡性腫瘤中絕大多數(shù)是上皮性腫瘤,發(fā)生EMT的惡性腫瘤細胞將獲得增強的遷移及侵襲能力并侵入周圍的細胞外基質, 最終向遠處位點轉移,在結腸癌、甲狀腺癌及乳腺癌的侵襲表型中發(fā)揮重要作用。發(fā)生EMT的細胞具有抵抗細胞凋亡、衰老、化療和免疫治療的能力, EMT通過誘導免疫耐受使惡性腫瘤細胞逃避免疫監(jiān)視。也有研究表明EMT與腫瘤干細胞的特性相關(2016,Sci Report2016,Sci Report2015,Cancer Letter)

方法

樣本選擇

選擇11例 II-IV期結直腸癌樣本,由新加坡總醫(yī)院的新加坡國立癌癥中心提供。原發(fā)腫瘤手術切除后,置于無菌、低溫的RPMI培養(yǎng)基中培養(yǎng)。

選出單個細胞

分離得到的單個細胞生活力由Calcein-AM and Ethidium Homodimer 1 (Live/Dead Kit, Life Technologies) 評估,然后加到 RNA–seq IFC-C1芯片上進行細胞捕獲,然后基于 bright-field and Calcein-AM imaging進行芯片成像,只有真正單個的細胞可以繼續(xù)進行文庫制備和測序。

文庫制備和測序

根據(jù)cDNA濃度和質量丟棄低質量的單細胞后,利用Illumina 的Nextera XT DNA樣本制備試劑盒進行單獨的文庫制備,然后采用Hiseq2000平臺101bp PE方案對總共1591個CRC分離的腫瘤細胞和正常組織配對細胞,以及7個細胞系的630個細胞進行測序。

Experimental workflow

測序數(shù)據(jù)預處理

原始fq數(shù)據(jù)利用Tophat 2.1.0比對到hg19基因組,利用的是GENCODEv19注釋文件(Tophat參數(shù):--read-edit-dist設置為3,--read-realign-edit-dist設置為0)。max-multihits參數(shù)設為1,保證BAM文件中只有一個uniquely mapped reads。表達定量使用Cuffdiff-2.2.1,設置參數(shù)--frag-bias-correct 以及--library-norm-method 選擇FPKM標準化。為了減少rRNAs, tRNAs以及小RNA(snRNAs and snoRNAs )對FPKM的影響,需要利用Cuffdiff的--mask-file參數(shù),最后導出原始的reads count矩陣。

質控過濾

計算幾個統(tǒng)計值:

  • FASTQR: the number of paired-end sequences in the FASTQ file
  • BAMMR(Mapped reads in BAM):the number of uniquely mapped reads in the aligned BAM file
  • ER(Exonic reads ):summing raw read counts across all genes
  • ROER (rate of exonic reads):the ratio between ER and BAMMR
  • NODG(number of detected genes): total number of genes with FPKM ≥1

加入幾個看家基因作為參考:TFRC, ACTB,RPLP0, PGK1, GAPDH, LDHA, NONO, B2M, GUSB and PPIH

選擇NODG>1000, ROER>5%, ER>0.1M的細胞,總共626個CRC細胞與正常組織配對細胞,561個來自細胞系的細胞。

The number of detected genes (NODG) 與the rate of exonic reads (ROER) 比值。 顏色表示看家基因表達量的log10 (FPKM).

對細胞系scRNA-seq數(shù)據(jù)集的聚類方法評估

使用7種細胞系的原始630個細胞(其中561個通過了質控過濾);為了評估批次效應的處理,其中包含了兩個批次: GM12878 (lymphoblastoid) cells 和 H1 embryonic stem cells。

八種方法:All-HC、HiLoadG-HC、BackSPIN、RaceID2、Seurat、VarG-HC、VarG-PCAprojHC、VarG-tSNEproj-HC

  • All-HC:選擇FPKM大于等于0.001且至少存在于2個細胞中的基因,用log10(FPKM)值來聚類,使用 ‘a(chǎn)verage’-linkage neighbor joining算法
  • HiLoadG-HC:選擇PC1、PC2、或PC3的排名前100或后100基因,利用log10(FPKM)值進行層次聚類,使用average linkage算法
  • BackSPIN:使用參數(shù)-f 2000 -v -d 4 對細胞進行聚類,這樣會比默認參數(shù)得到更精確地類群劃分
  • RaceID2:使用默認參數(shù)對原始FPKM進行聚類,不需要對數(shù)據(jù)取log值降低維度(改變默認參數(shù)結果沒有明顯改進),使用within-cluster-dispersion 算法,聚類數(shù)k=7
  • Seurat:使用RegreeeOut函數(shù)的latent.vars參數(shù)設定為nUMI,使用model.use參數(shù)設定為linear(當model.use = negbinom是結果相似)
  • VarG-HC:使用BackSPIN挑選基因的方法,選出前1000變化最大的基因,然后進行層次聚類,表達量值也是取log10以后的
  • VarG-PCAproj-HC:方法與VarG-HC相同,只是選擇基因后利用PCA進行降維,保留表達矩陣中90%的方差
  • VarG-tSNEproj-HC:方法VarG-HC相同,只是后來使用t-SNE降維

評級聚類準確度的指標為ARI(adjusted Rand index),0-1之前,數(shù)值越大表示聚類效果越好

利用黑色素瘤的scRNA數(shù)據(jù)集對算法評估

數(shù)據(jù)集在GSE72056,其中有4645個黑色素瘤細胞的表達數(shù)據(jù),主要研究6種細胞類型以及根據(jù)marker基因過濾得到的細胞:T細胞(CD2, CD3D, CD3E, CD3G),B cells (CD19,CD79A, CD79B, BLK), macrophages (CD163, CD14, CSF1R), endothelial cells (PECAM1, VWF, CDH5), CAFs (FAP, THY1, DCN, COL1A1, COL1A2,
COL6A1, COL6A2, COL6A3) and malignant melanoma cells (MIA, TYR,
SLC45A2)。排除了沒有檢測到任何marker的細胞,其余細胞在marker表達量的基礎上進行層次聚類,最后將4057個細胞劃分成了6類

結果

RCA比現(xiàn)有的聚類算法表現(xiàn)更優(yōu)

聚類算法比較

顏色代表7種不同細胞系,形狀表示H1 and GM12878數(shù)據(jù)的批次;上面是聚類樹,下面是PCA(RaceID2和Seurat使用的是tSNE)

  • 盡管All-HC可以將大多數(shù)細胞準確地分開,但還有約15%的細胞聚類不正確(ARI=0.66),另外,H1和 GM12878 都按批次被分開,也就是說同一批次沒被放在一起;
  • HiLoadG-HC的效果不好(ARI=0.53),有大量細胞沒有正確聚類,然后也是H1和 GM12878 都按批次被分開;
  • BackSPIN的ARI結果和All-HC相似;
  • RaceID2的準確度要低許多(ARI=0.15),受批次效應影響更大;
  • Seurat相對于All-HC有一些改善(ARI=0.70),但是也存在批次影響,大量細胞分類錯誤;
  • 另外三種VarG方法(圖片在附件中)的ARI從0.0005-0.13,效果比較差;
  • RCA得到了緊密的細胞群,而且?guī)缀醵加上嗤愋图毎M成,另外即使在不同批次中的相同類型細胞也會聚在一起(ARI=0.91)

另外利用以上算法分析了黑色素瘤的scRNA數(shù)據(jù),結果也是RCA具有近乎完美的準確性,ARI遠超其他算法

利用RCA鑒定了CRC腫瘤細胞多種細胞類型

分析了11個CRC患者的969個細胞以及作為對照的7個患者正常組織的622個粘膜細胞。嚴格過濾得到375個腫瘤細胞和215個正常粘膜細胞

RCA鑒定CRC與normal細胞類型

左圖是RCA對正常粘膜細胞聚類;右圖是對CRC腫瘤細胞聚類
其中聚類圖表示細胞類型聚類;上面的熱圖中,列表示細胞,行表示RCA中的reference panel,顏色表示數(shù)據(jù)投射到reference panel 的分值;
中間的熱圖表示原始log10(FPKM)在各個marker中的表達量;
最下面的熱圖中行為不同的患者,每行的黑色小塊表示該患者的細胞

利用RCA global panel模式一共得到CRC與正常細胞的7種細胞類型:上皮細胞( epithelial cells)、纖維原細胞(fibroblasts)、內皮細胞(endothelial cells,)、B細胞、T細胞、肥大細胞(mast cells)和髓系細胞(myeloid cells )。其中上皮細胞并沒有繼續(xù)分亞群(比如enterocytes, goblet cells and transit-amplifying (TA) cells)。

為了測試是否為RCA算法導致,又使用了RCA的self-projection模式,選擇了上皮單細胞轉錄組數(shù)據(jù)作為reference panel,結果正常的上皮細胞分成9種亞型,沒有發(fā)現(xiàn)批次效應,并且分出的亞型和上皮細胞的marker也是可以對應上的,說明了確實可以得到不同的細胞類型或細胞狀態(tài)。

關于這兩種RCA的模式的具體算法 ,可以在文中methods出查到

對腫瘤上皮細胞進行分群,結果得到三個亞群: stem/TA-like, enterocyte 2B–like and goblet-like。其中 stem/TA-like占到93%,而之前正常粘膜上皮細胞中只有30%,這也與CRC細胞的增殖特性一致。



因此,即使臨床樣本存在批次效應,但是正常粘膜與CRC細胞中依然可以較為準確地識別細胞類型。

揭示CRC腫瘤差異表達基因

先進行一個假設:scRNA與bulk RNA對腫瘤-正常組織得到的差異基因存在顯著差異。對scRNA的結果分析:從腫瘤樣本中選擇了5個最大的細胞群( stem/
TA-like epithelial cells, fibroblasts, B cells, T cells and myeloid cells),每個細胞群與正常粘膜細胞群比對,共得到129個差異基因(FDR<0.05)。其中 stem/TA-like cells 和fibroblasts的差異基因數(shù)量最多。所有的差異基因放在了:https://media.nature.com/original/nature-assets/ng/journal/v49/n5/extref/ng.3818-S1.pdf 的 Supplementary Note中,并且有許多在之前的CRC功能研究中被報道。總體來說,大部分在scRNA中檢測的差異基因在bulk RNA中沒有檢測到,從另一個方面展示了scRNA的優(yōu)越性

a-d分別是 stem/TA cells and tumor stem/TA-like cells 、normal fibroblasts and tumor fibroblasts 、normal and tumor myeloid cells、normal and tumor B cells的 bulk RNA和scRNA差異基因
綠色是bulkRNA檢測的DEGs,灰色是bulkRNA檢測的non-DEGs,紅三角是scRNA檢測的上調DEGs,藍三角是scRNA檢測的下調DEGs

通路的改變和CRC中的CAFs多樣性

通路改變

利用IPA(Ingenuity Pathway Analysis)鑒定了四種細胞類型的上游調控元件,發(fā)現(xiàn)前3名的元件包含了2個小分子:放線酰胺素Actinonin和莫特沙芬釓 Motexafin gadolinium。Actinonin在多種癌癥細胞(包括結腸直癌)中起到抑制生長的作用,Motexafin gadolinium主要在干細胞中發(fā)揮作用,誘導癌細胞凋亡

另外,TGFB1( transforming growth factor B1)是排名最高的內源性上游調控因子,在CAFs激活通路中活性增強,同時SMAD3( TGF-β effector )也增強。另外TGFB3和LTPB1(編碼 TGF-β結合蛋白)在CAFs中表達比正常黏膜成纖維細胞表達更多。在正常黏膜成纖維細胞中,TGF-β響應基因如TGFBI, CTGF and BHLHE40 主要在pithelial cells 和CAFs 中表達,說明由CAFs分泌的TGF-β可能激活腫瘤上皮細胞中的TGF-β通路。

圖b是TGF-β 信號通路;d:正常黏膜與CRC主要細胞類型的TGF-β信號通路中基因表達量熱圖(采用 log10 (FPKM)

CRC中的CAFs多樣性

上圖中紅色的CAFs的一些TGF-β基因表現(xiàn)出了"雙峰表達Bimodal expression"的情況(遺傳相同表型多樣),然后用RCA的self-projection模式對CAFs進行聚類,分成了NMFs(normal mucosa fibroblasts)、CAF-A and CAF-B三類,之后CAF-B細胞基因差異分析得到marker基因ACTA2,TAGLN and PDGFA 上調表達,它們在CAF-A中下調;CAF-A中上調的有MMP2,DCN and COL1A2

因此,CRC腫瘤中的CAFs主要有兩種亞型,具有不同的轉錄表達

分子表型分析干細胞特性和EMT

干細胞特性(stemness)

利用SI(stemness index) 【由已知的42種結腸或腸道干細胞marker基因平均表達水平得到】在腫瘤和正常組織中的分布,結果發(fā)現(xiàn)腫瘤細胞的SI值更高,約5%的腫瘤細胞SI值高于正常組織。然后將干細胞的SI值與基因表達量結合,發(fā)現(xiàn)了5個基因與干細胞作用相關,其中有3個與WNT信號通路相關(GPX2OLFM4 and RNF43)。

有趣的是,lncRNA編碼基因XIST (可以介導女性X染色體失活)也被發(fā)現(xiàn)與干細胞性相關,不過在正常樣本中XIST 與SI評分無關。

總的來說,腫瘤干細胞的特性是一個不斷變化的過程,并與XIST和WNT介質的表達相關

上皮間質轉化(EMT)

之前有一種假設:"上皮細胞轉化為間充質狀態(tài),這樣就允許它脫離并轉移到其它位置",轉錄水平上,EMT的特征是上皮組織的marker CDH1 下調表達,間充質轉錄因子TWIST, SNAIL and ZEB家族的上調表達。為了檢測CRC中的EMT發(fā)展情況,檢測了以上基因及其它細胞類型的marker基因的表達

橙色為EMT相關的轉錄因子log10(FPKM)值,灰色部分是一些細胞類型marker基因的表達量

并沒有觀察到腫瘤和正常粘膜上皮細胞的CDH1的表達差異,而且腫瘤與正常組織上皮細胞都沒檢測到EMT轉錄因子。相反,發(fā)現(xiàn)一些轉錄因子在CAFs(圖中紅色區(qū)域)中上調,不過這個變化和EMT的發(fā)生沒有直接關系,因為fibroblast(成纖維細胞是間充質細胞)。為了進一步研究,文章結合了上圖中的9個EMT上調基因的表達量,定義了每個細胞中EMT的評分,確定了腫瘤上皮細胞缺乏EMT信號,而CAFs中EMT信號顯著增強。

之后為了排除組織切除帶來的人工干擾,又使用了單分子FISH(smFISH)對腫瘤mRNA分子進行可視化,結果發(fā)現(xiàn)EMT的marker SNAI1、ZEB1和TWIST1 的表達與成纖維細胞的marker SPARC 表達一致,并且在表達EPCAM的上皮細胞中檢測不到。免疫組化與生信分析結果是一致的。

根據(jù)不同患者的生存率將CRC分成亞組

目前已經(jīng)利用常規(guī)bulk轉錄組根據(jù)治療反應和患者生存率,將CRC分成不同亞型。但是這種分類會受到不同類型間質細胞轉錄組的影響。因此文章利用了scRNA得到的6這種細胞型,然后結合了6個獨立的帶有生存信息注釋的常規(guī)轉錄組數(shù)據(jù):TCGA、GSE14333、PRECOG37以及一項相關研究的三個數(shù)據(jù)集。將bulk數(shù)據(jù)投射到6個細胞型上,并在每個細胞型中都鑒定到了三個腫瘤組:S1、S2、S3(圖a)。其中S1腫瘤上皮細胞特征較弱,成纖維細胞較強,髓樣特征較強;S2所有特征處于中等水平;S3上皮細胞特征較強,其余較弱(圖b)。

接著討論了新定義的CRC亞型的預后意義。6個細胞型中,S3腫瘤生存率最高(圖a),這和之前研究成纖維細胞與患者預后的關系結果一致。來自GSE14333數(shù)據(jù)集的bulk轉錄組數(shù)據(jù)中 ‘enterocyte’ and ‘goblet-like’ CRC腫瘤亞型中包含了這里分析的S2、S3亞型(圖c)。在 ‘enterocyte’ 和 ‘goblet-like’ 亞型中,S3腫瘤比S2的存活率更高。進一步強調了CAFs與CRC預后的潛在相關性 ,利用單細胞轉錄組推斷的細胞類型對預后具有一定的價值。


歡迎關注我們的公眾號~_~  
我們是兩個農(nóng)轉生信的小碩,打造生信星球,想讓它成為一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容