作者提出了一種單細胞類群純度評估新方法。拓展了之前開發的E-test方法,使用微分熵(differential entropy)來描述單細胞數據的基因表達分布,進而建立表達熵模型(S-E model)以刻畫微分熵與基因表達量均值之間的聯系。這里的E-test方法正是前一次讀的文章SciBet中的特征選擇方法。
R軟件包ROGUE(https://github.com/PaulingLiu/ROGUE)可供用戶實現無監督基因的選擇和細胞純度的評估。
基礎知識
熵:用來度量混亂度,一切事物都有從有序變無序的傾向,這個過程是熵(混亂度)增的過程。
因此,一個cluster內的同一個基因表達都不統一,等同于這個基因表達的熵很大,很混亂,cluster內的細胞也不是統一類型,是混合的。因此是熵大的。
利用混亂度值度量cluster內基因表達是否混亂,可以得知其中的細胞其中所有細胞都具有相同的功能和狀態。
單細胞RNA數據的模型參考這篇文章 https://zhuanlan.zhihu.com/p/95299303
零膨脹負二項模型(ZINB),負二項分布(NB),文獻為https://www.nature.com/articles/s41467-017-02554-5
LOESS(局部加權回歸)一般來說,兩個變量之間的關系是十分微妙的,僅僅采用簡單的直線、曲線參數方程去描述是不夠的,所以這時候就需要非參數回歸。關于非參數和參數方法的區別,就是在分析之前有沒有對預測做一些限制,比如認為特征和響應變量之間具有線性關系,可以通過線性方程擬合,我們只需要求出方程的系數就是參數方法,而如果直接從數據出發進行分析就是非參數方法。正因為沒有限制,所以非參數方法擬合得到的曲線可以更好地描述變量之間的關系,不管是多么復雜的曲線關系都能擬合得到。(修改自https://blog.csdn.net/jesseyule/article/details/95245350)
b,c圖使用統計量 S(熵)以捕捉基因表達的無序程度或隨機性。用LOESS擬合發現 S 與基因的平均表達水平( E )之間存在很強的關系,從而形成了表達-熵模型(S-E 模型)。
對于所有基因都沒有顯著S-reduction (ds) 的細胞群 ROGUE 值 為1,表明它是完全純的亞型或狀態。相比之下,具有最大顯著ds的細胞群體將產生約 0 的純度分數。
這處沒理解為什么是熵減。查看方法部分發現是微分熵。信息論種的熵可以理解為不確定性的量度(或者說是多樣性diversity的度量),因為越隨機的信源的熵越大。熵可以被視為描述一個隨機變量的不確定性的數量。一個隨機變量的熵越大,它的不確定性越大。而ds是他們自己定義的,不是熵減小過程,而是基因i在n 個細胞中的熵減少。
文章思路是通過利用 S-E 模型的廣泛適用性,開發了統計 ROGUE 來量化單細胞群的純度。SE模型就是表示熵和基因表達量有關系的模型。