DoubletFinder:利用人造的最近鄰域檢測單細胞RNA測序中的doublets

文獻標題:DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors

發表時間:April 03, 2019

發表雜志:Cell Systems(IF=8.673)

原文鏈接:https://doi.org/10.1016/j.cels.2019.03.003

摘要

單細胞RNA測序數據通常容易受doublets引入的技術誤差影響,這一現象限制了單細胞技術種的細胞通量,并且可能導致欺騙性的下游分析結果。作者開發了DoubletFinder,利用基因表達數據鑒定doublets。DoubletFinder通過隨機選取細胞對組成人造doublets,根據每個真實細胞在基因表達空間中與人造doublets的接近程度來預測doublets。作者首先利用已知doublets信息的單細胞數據來展示DoubletFinder如何鑒定由轉錄特征不同的細胞形成的doublets,在移除這些doublets后,差異表達分析得到了改善。其次,作者提供了一種方法估計DoubletFinder的輸入參數,使其可以用于具有不同異質性特點的scRNA-seq數據。最后,作者展示了DoubletFinder的”最佳實踐“,并提示DoubletFinder對具有”雜交“(hybrid)轉錄特征的細胞類型不敏感。

引言

在高通量單細胞RNA測序實驗中,由于細胞是被隨機分配到液滴或納米孔中,根據Poisson統計分布,單個液滴包含超過一個細胞(doublets或multiplets)的頻率隨著上機細胞的濃度而改變。通常,如果上樣細胞濃度較高,發生doublets的頻率也會增加。因此,單細胞實驗中的doublets事件限制了實驗時的細胞通量。

目前有一些樣本復用(multiplexing)技術被開發出來,通常是利用不同樣本的barcode或遺傳學信息(如SNP)以區分來自不同樣本的細胞,以及因上樣細胞過濃而形成的doublets。然而,它們無法區分來自相同樣本的doublets。

DoubletFinder原理和流程

image

DoubletFinder流程可以分成兩個部分:

參數選擇

  1. 對原始表達矩陣做基本質控(根據UMI數、線粒體基因比例等過濾低質量細胞),并完成Seurat一般流程;
  2. 隨機選擇細胞對,對原始UMI值取平均,合成人造doublets,并與原數據合并,使得合成doublets占所有細胞的比例為pN。默認最大pN為25%,目的是生成足夠多的人工doublets;
  3. 按照原數據的參數,對合并數據重新運行Seurat流程到主成分分析(PCA)這一步。需要注意的是,在合并數據中,不對nUMI進行線性回歸削弱,目的是保留doublets和singlets的差異;
  4. 將合并數據的細胞在主成分空間的嵌入信息轉換成歐幾里得距離矩陣,基于該距離矩陣定義每個細胞的最近近鄰(nearest neighbors,NN);
  5. 用pK表示領域大小(neighborhood size,例如對5,000細胞的數據,pK=0.01時,相當于尋找給定細胞近鄰的200個細胞)。將人造NN(artificial nearest neighbors,ANN)數除以領域大小,得到人造NN的比例(pANN);
  6. 對不同的pN-pK組合分別計算pANN。利用 BCmvn 最大化的方法選擇最優pK,而將pN固定為25%,并利用該組合下的pANN鑒別doublets;

鑒定doublets

  1. 根據期望doublet rate,估計總doublets數的期望值;
  2. (可選)根據Poisson doublet形成率估計異型來源的(heterotypic)doublets期望值。這里涉及一個同型來源(homotypic)doublets的校正步驟,同型doublets的比例(pHomo)等于每個細胞類型頻率的平方和。將1-pHomo作為異型doublets的頻率pHeter,計算異型doublets的期望數量;
  3. 根據doublets的期望數設置pANN的閾值,鑒定并去除doublets。

關于BCmvn

在數據分布中,BC(bimodality coefficient)用來衡量與單峰分布的偏離程度。在DoubletFinder里,作者假設最優的pK-pN組合應該使得pANN呈非單峰分布,也就是說doublet(pANN偏大)和singlet(pANN偏小)能夠截然分成兩個峰。對于每個pK-pN組合都可以根據pANN的分布計算BC值。對給定pK值下的所有pN(例如從5%到25%),計算BC值的均值 \mu_{BC} ,以及方差 \sigma^{2}_{BC} ,二者相除得到 BCmvn 值,選取最大值所代表的pK作為最優pK。

結果

image

作者以Demuxlet和cell hashing的數據作為已知doublet信息(即Ground-truth)的參考,評估DoubletFinder的表現。

首先作者評估了pN和pK對分類準確性的影響,結果發現單純改變pN參數幾乎不影響分類效果,因此默認設置為25%,為的是生成足夠多的人工doublets。相反,pK過小或過大都會使分類準確性下降。我的理解是,如果doublets本身的表達譜差異較大,pK過小時,相當于只能找到和人工doublets相似度較高的doublets,假陰性率會增加;而pK過大到一定程度時,每個細胞的pANN就被稀釋了。因此pK需要根據不同數據集進行優化(圖1C)。

作者接下來還測試了DoubletFinder和nUMI的分類效果,發現DoubletFinder顯著優于nUMI,并且即使二者聯合后也幾乎和單獨使用DoubletFinder沒有差別(圖1D)。

Ground-truth數據包含樣本內和樣本間doublets,而Demuxlet鑒定的是樣本間doublets,因此作者需要結合期望的doublet rate增加樣本內doublets的估計數量。最后的結果顯示DoubletFinder在Demuxlet的基礎上發現了某些來自樣本內、不同細胞類型組成的doublets,但似乎對同型doublets的鑒定效果不佳(圖1E、F)。

最后,作者比較了doublet去除前后對差異表達分析的影響,意料之中地,去除doublet后各個細胞類型能鑒定出額外的差異基因。

image

作者同樣測試了細胞聚類數和聚類區分度對DoubletFinder的影響(圖2A、B)。當數據中細胞類型較少時,pK對結果的影響不大,而隨著細胞類型的增多,過大的pK反而降低分類的準確性,因此更加強調了參數優化的重要性。而當數據的異質性不大(例如pDE為0.5%)時,無論pK如何改變,其分類效果都不是很好,這也再次強調了DoubletFinder不適用于異質性較低的數據集,例如經過分選純化的單一細胞類型樣本。

最后,作者使用真實數據測試了DoubletFinder對下游差異表達分析的改善情況。這套數據中包含一類經過實驗驗證的新細胞類型(CDTC),它同時表達CDIC和CDPC的marker基因,DoubletFinder準確地講64%的CDTC鑒定為singlets。在校正了同型doublets比例后,97%的CDTC都被鑒定為singlets。

image

討論

總的來說,DoubletFinder適用于鑒定來自不同樣本或不同細胞類型的doublets,因為這些doublets具有與singlets明顯不同的轉錄組特征。對于同型doublets,DoubletFinder的表現較差。作者認為,與Demuxlet或Cell Hashing聯合使用能幫助鑒定出來自不同樣本的同型doublets,一定程度上彌補DoubletFinder的缺陷。但我個人認為,用到這兩個技術的單細胞文獻確實也不多,作者的想法可能最多也就稍微解決一下上樣濃度過大的問題,通俗的說就是擠牙膏般地省一些科研經費……

和Scrublet文章的觀點類似,同型doublets本身難以通過NN的方式對下游分析的影響一般比異型doublets小得多,為了防止doublet效應的過度校正(假陽性率過高),兩種方法都傾向于保留這部分細胞。DoubletFinder給出了估計同型doublets比例的選項,并提出預先對細胞類型做注釋可能有助于更準確地估計同型doublets。總之,感覺就是你需要在下游分析出問題的時候時不時回顧前期的質控。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,595評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,814評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,224評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,444評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,988評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,804評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,998評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,237評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,706評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,993評論 2 374

推薦閱讀更多精彩內容