文獻標題:DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors
發表時間:April 03, 2019
發表雜志:Cell Systems(IF=8.673)
原文鏈接:https://doi.org/10.1016/j.cels.2019.03.003
摘要
單細胞RNA測序數據通常容易受doublets引入的技術誤差影響,這一現象限制了單細胞技術種的細胞通量,并且可能導致欺騙性的下游分析結果。作者開發了DoubletFinder,利用基因表達數據鑒定doublets。DoubletFinder通過隨機選取細胞對組成人造doublets,根據每個真實細胞在基因表達空間中與人造doublets的接近程度來預測doublets。作者首先利用已知doublets信息的單細胞數據來展示DoubletFinder如何鑒定由轉錄特征不同的細胞形成的doublets,在移除這些doublets后,差異表達分析得到了改善。其次,作者提供了一種方法估計DoubletFinder的輸入參數,使其可以用于具有不同異質性特點的scRNA-seq數據。最后,作者展示了DoubletFinder的”最佳實踐“,并提示DoubletFinder對具有”雜交“(hybrid)轉錄特征的細胞類型不敏感。
引言
在高通量單細胞RNA測序實驗中,由于細胞是被隨機分配到液滴或納米孔中,根據Poisson統計分布,單個液滴包含超過一個細胞(doublets或multiplets)的頻率隨著上機細胞的濃度而改變。通常,如果上樣細胞濃度較高,發生doublets的頻率也會增加。因此,單細胞實驗中的doublets事件限制了實驗時的細胞通量。
目前有一些樣本復用(multiplexing)技術被開發出來,通常是利用不同樣本的barcode或遺傳學信息(如SNP)以區分來自不同樣本的細胞,以及因上樣細胞過濃而形成的doublets。然而,它們無法區分來自相同樣本的doublets。
DoubletFinder原理和流程
DoubletFinder流程可以分成兩個部分:
參數選擇
- 對原始表達矩陣做基本質控(根據UMI數、線粒體基因比例等過濾低質量細胞),并完成Seurat一般流程;
- 隨機選擇細胞對,對原始UMI值取平均,合成人造doublets,并與原數據合并,使得合成doublets占所有細胞的比例為pN。默認最大pN為25%,目的是生成足夠多的人工doublets;
- 按照原數據的參數,對合并數據重新運行Seurat流程到主成分分析(PCA)這一步。需要注意的是,在合并數據中,不對nUMI進行線性回歸削弱,目的是保留doublets和singlets的差異;
- 將合并數據的細胞在主成分空間的嵌入信息轉換成歐幾里得距離矩陣,基于該距離矩陣定義每個細胞的最近近鄰(nearest neighbors,NN);
- 用pK表示領域大小(neighborhood size,例如對5,000細胞的數據,pK=0.01時,相當于尋找給定細胞近鄰的200個細胞)。將人造NN(artificial nearest neighbors,ANN)數除以領域大小,得到人造NN的比例(pANN);
- 對不同的pN-pK組合分別計算pANN。利用 BCmvn 最大化的方法選擇最優pK,而將pN固定為25%,并利用該組合下的pANN鑒別doublets;
鑒定doublets
- 根據期望doublet rate,估計總doublets數的期望值;
- (可選)根據Poisson doublet形成率估計異型來源的(heterotypic)doublets期望值。這里涉及一個同型來源(homotypic)doublets的校正步驟,同型doublets的比例(pHomo)等于每個細胞類型頻率的平方和。將1-pHomo作為異型doublets的頻率pHeter,計算異型doublets的期望數量;
- 根據doublets的期望數設置pANN的閾值,鑒定并去除doublets。
關于BCmvn
在數據分布中,BC(bimodality coefficient)用來衡量與單峰分布的偏離程度。在DoubletFinder里,作者假設最優的pK-pN組合應該使得pANN呈非單峰分布,也就是說doublet(pANN偏大)和singlet(pANN偏小)能夠截然分成兩個峰。對于每個pK-pN組合都可以根據pANN的分布計算BC值。對給定pK值下的所有pN(例如從5%到25%),計算BC值的均值 ,以及方差
,二者相除得到 BCmvn 值,選取最大值所代表的pK作為最優pK。
結果
作者以Demuxlet和cell hashing的數據作為已知doublet信息(即Ground-truth)的參考,評估DoubletFinder的表現。
首先作者評估了pN和pK對分類準確性的影響,結果發現單純改變pN參數幾乎不影響分類效果,因此默認設置為25%,為的是生成足夠多的人工doublets。相反,pK過小或過大都會使分類準確性下降。我的理解是,如果doublets本身的表達譜差異較大,pK過小時,相當于只能找到和人工doublets相似度較高的doublets,假陰性率會增加;而pK過大到一定程度時,每個細胞的pANN就被稀釋了。因此pK需要根據不同數據集進行優化(圖1C)。
作者接下來還測試了DoubletFinder和nUMI的分類效果,發現DoubletFinder顯著優于nUMI,并且即使二者聯合后也幾乎和單獨使用DoubletFinder沒有差別(圖1D)。
Ground-truth數據包含樣本內和樣本間doublets,而Demuxlet鑒定的是樣本間doublets,因此作者需要結合期望的doublet rate增加樣本內doublets的估計數量。最后的結果顯示DoubletFinder在Demuxlet的基礎上發現了某些來自樣本內、不同細胞類型組成的doublets,但似乎對同型doublets的鑒定效果不佳(圖1E、F)。
最后,作者比較了doublet去除前后對差異表達分析的影響,意料之中地,去除doublet后各個細胞類型能鑒定出額外的差異基因。
作者同樣測試了細胞聚類數和聚類區分度對DoubletFinder的影響(圖2A、B)。當數據中細胞類型較少時,pK對結果的影響不大,而隨著細胞類型的增多,過大的pK反而降低分類的準確性,因此更加強調了參數優化的重要性。而當數據的異質性不大(例如pDE為0.5%)時,無論pK如何改變,其分類效果都不是很好,這也再次強調了DoubletFinder不適用于異質性較低的數據集,例如經過分選純化的單一細胞類型樣本。
最后,作者使用真實數據測試了DoubletFinder對下游差異表達分析的改善情況。這套數據中包含一類經過實驗驗證的新細胞類型(CDTC),它同時表達CDIC和CDPC的marker基因,DoubletFinder準確地講64%的CDTC鑒定為singlets。在校正了同型doublets比例后,97%的CDTC都被鑒定為singlets。
討論
總的來說,DoubletFinder適用于鑒定來自不同樣本或不同細胞類型的doublets,因為這些doublets具有與singlets明顯不同的轉錄組特征。對于同型doublets,DoubletFinder的表現較差。作者認為,與Demuxlet或Cell Hashing聯合使用能幫助鑒定出來自不同樣本的同型doublets,一定程度上彌補DoubletFinder的缺陷。但我個人認為,用到這兩個技術的單細胞文獻確實也不多,作者的想法可能最多也就稍微解決一下上樣濃度過大的問題,通俗的說就是擠牙膏般地省一些科研經費……
和Scrublet文章的觀點類似,同型doublets本身難以通過NN的方式對下游分析的影響一般比異型doublets小得多,為了防止doublet效應的過度校正(假陽性率過高),兩種方法都傾向于保留這部分細胞。DoubletFinder給出了估計同型doublets比例的選項,并提出預先對細胞類型做注釋可能有助于更準確地估計同型doublets。總之,感覺就是你需要在下游分析出問題的時候時不時回顧前期的質控。