有效降維對于scRNA-seq分析至關重要。主成分分析(PCA)被廣泛使用,但需要連續的、正態分布的數據;因此,它經常與scRNA-seq應用中的對數變換相結合,這可能會扭曲數據并掩蓋有意義的變化。近日《Scientific Reports》發表了一種基于計數的PCA替代方案:對應分析(correspondence analysis,CA),其基于卡方殘差矩陣的分解,避免了失真的對數變換。
將CA應用于scRNA-seq
標準對應分析(CA)在列聯表分析框架中投射scRNA-seq讀取計數,其規范形式可以被概念化為兩步程序(下圖中以圖形方式概述)。計數矩陣首先被變換為Pearson卡方殘差,然后用奇異值分解(SVD)對所得殘差矩陣進行分解。
CA的adaptations及其性能測試
為了解決scRNAseq數據中的過度分散和高稀疏性,研究團隊提出了五種CA的adaptations,其可擴展且性能優于標準CA 和glmPCA,在9個數據集中的8個里以更高的性能或可比的聚類精度計算細胞嵌入。特別是CA with Freeman–Tukey residuals (CA-FT) 在不同數據集上表現特別好。
CA 框架的其他優勢包括在““CA biplot中”可視化基因和細胞群之間的關聯,以及擴展到多表分析。
研究團隊還在 corral 中為 scRNA-seq 數據實現CA:這是一個 R/Bioconductor 包,它直接與 Bioconductor 中的單細胞類接口。從 PCA 到 CA 的切換是通過簡單的流程替換實現的,并改進了 scRNA-seq 數據集的降維。
特別是當位于更廣泛的二元圖框架內時,CA可以作為進一步方法開發的平臺和豐富的來源。通過同時可視化細胞和基因嵌入,CA biplot強調了這些數據中固有的行列二元性,促進了基因和細胞的聯合分析?;蚝图毎度敕治龅慕y一方法提供了一個自然框架來擴展和/或與其他方法集成,包括基因集富集分析、監督分解和將補充數據投影到共享潛在空間。嵌入可以用作矩陣運算符,將補充數據投射到共享潛在空間中,從而實現多模態和多批次集成,以及快速逼近方法。通過乘法進行矩陣投影是快速且可擴展的,即使對于非常大的數據集也是如此,并且在未來的擴展中,可以作為基于分解數據的代表性子集然后將整個矩陣投影到空間中的快速近似降維方法的基礎。
Codeavailability
?? 本研究中corral R/Bioconductor軟件包中提供了代碼和文件:
https://bioconductor.org/packages/release/bioc/html/corral.html.?
?? 在Github上可以找到重現本文中功能和分析的R代碼:
https://github.com/laurenhsu1/corral_manuscript.?
?? 描述PCA和 CA(包括 corral的不同實現的教程可在以下網址獲得:
https://aedin.github.io/PCAworkshop.?
首發公號國家基因庫大數據平臺
參考文獻
Hsu, L.L., Culhane, A.C. Correspondence analysis for dimension reduction, batch integration, and visualization of single-cell RNA-seq data.?Sci Rep?13, 1197 (2023).