原理:Harmony需要輸入低維空間的坐標值(embedding),一般使用PCA的降維結(jié)果。
這是一種將細胞投射到共享嵌入中的算法,其中細胞按細胞類型而不是特定于數(shù)據(jù)集的條件分組。
Harmony導入PCA的降維數(shù)據(jù)后,會采用soft k-means clustering算法將細胞聚類。(常用的聚類算法僅考慮細胞在低維空間的距離,但是soft clustering算法會考慮我們提供的校正因素。)
例如:我們的高考加分制度,小明高考成績本來達不到A大學的錄取分數(shù)線,但是他有一項省級競賽一等獎加10分就夠線了。同樣的道理,細胞c2距離cluster1有點遠,本來不能算作cluster1的一份子;但是c2和cluster1的細胞來自不同的數(shù)據(jù)集,因為我們期望不同的數(shù)據(jù)集融合,所以破例讓它加入cluster1了。
聚類之后先計算每個cluster內(nèi)各個數(shù)據(jù)集的細胞的中心點,然后根據(jù)這些中心點計算各個cluster的中心點。
最后通過算法讓cluster內(nèi)的細胞向中心聚集,實在收斂不了的離群細胞就過濾掉。調(diào)整之后的數(shù)據(jù)重復:聚類—計算cluster中心點—收斂細胞—聚類的過程,不斷迭代直至聚類效果趨于穩(wěn)定。
官網(wǎng)的原理圖
https://portals.broadinstitute.org/harmony/