MIA,多模態數據取交集方法,是針對Spot Cluster 水平上利用單細胞注釋信息來對ST-Spot聚類結果進行細胞類型注釋。
給定單細胞某個已知細胞類型和某個Spot的聚類編號,我們分別篩選各自的CellMarkers和SpotMarkers
Background定義為單細胞與ST數據共同表達的基因集,根據單細胞的CellMarkers可以將背景基因集分成兩塊區域,藍色和黃色部分
然后將ST的SpotMarkers分別與這兩個區域取交集
如果這個ST的SpotMarkers是隨機抽取的,那么落在這兩個區域的基因數應該是符合一定的比例, 如果出現過度集中與藍色區域,則我們認為CellMarkers與SpotMarkers是顯著重疊的,那么我們可以得到這個SpotCluster屬于這個細胞類型的可能性越高。
其實這個就是超幾何分布模型,我們可以一個公式來計算顯著性P值,由于P值是0-1之間,很小的數,我們可以取-log10,轉換為得分,此得分越高,注釋與這個細胞類型的可能性就越高。
很簡單,我們可以在R中的基本函數phyper中實現,命令用黑色方框顯示。
i表示同時屬于scRNA的CellMarkers和ST的SpotMarkers
M表示scRNA的CellMarkers
大N表示scRNA和ST同時表達基因
小n表示ST的SpotMarkers
在這里我想說個題外話,這個模型簡單且非常實用, 在基因功能富積分析使用的模型就是這個,所以課后不妨大家多多了解下
最終我們得到SpotCluster的細胞類型預測結果文件,行為Cluster編號,其中括號內的數字表示ST的SpotMarker數,列為細胞類型
如果得分越高,這個SpotCluster屬于這個細胞類型的可能性就越高,我們可以看到Cluster3屬于Oligo的得分最高,因此屬于這個細胞類型的可能性就最高。
我們可以將上面的表格進行熱圖展示,行為Cluster,列為細胞類型,對細胞類型做了層級聚類
我們可以看到紅色方框內是Cluster3對應的Oligo細胞類型的數值,由于此值在Cluster3對應的所有細胞類型最高,因此此Cluster被預測為Oligo細胞類型
我們也可以用桑基圖展示Cluster與已知細胞類型對應關系,比如Cluster3沿著這個弧線對應到Oligo細胞類型。