2022-04-09張澤民老師文章選讀之An entropy-based metric for assessing the purity of single cell populations

作者提出了一種單細胞類群純度評估新方法。拓展了之前開發的E-test方法,使用微分熵(differential entropy)來描述單細胞數據的基因表達分布,進而建立表達熵模型(S-E model)以刻畫微分熵與基因表達量均值之間的聯系。這里的E-test方法正是前一次讀的文章SciBet中的特征選擇方法。
R軟件包ROGUE(https://github.com/PaulingLiu/ROGUE)可供用戶實現無監督基因的選擇和細胞純度的評估。

基礎知識

熵:用來度量混亂度,一切事物都有從有序變無序的傾向,這個過程是熵(混亂度)增的過程。
因此,一個cluster內的同一個基因表達都不統一,等同于這個基因表達的熵很大,很混亂,cluster內的細胞也不是統一類型,是混合的。因此是熵大的。
利用混亂度值度量cluster內基因表達是否混亂,可以得知其中的細胞其中所有細胞都具有相同的功能和狀態。
單細胞RNA數據的模型參考這篇文章 https://zhuanlan.zhihu.com/p/95299303
零膨脹負二項模型(ZINB),負二項分布(NB),文獻為https://www.nature.com/articles/s41467-017-02554-5
LOESS(局部加權回歸)一般來說,兩個變量之間的關系是十分微妙的,僅僅采用簡單的直線、曲線參數方程去描述是不夠的,所以這時候就需要非參數回歸。關于非參數和參數方法的區別,就是在分析之前有沒有對預測做一些限制,比如認為特征和響應變量之間具有線性關系,可以通過線性方程擬合,我們只需要求出方程的系數就是參數方法,而如果直接從數據出發進行分析就是非參數方法。正因為沒有限制,所以非參數方法擬合得到的曲線可以更好地描述變量之間的關系,不管是多么復雜的曲線關系都能擬合得到。(修改自https://blog.csdn.net/jesseyule/article/details/95245350

image.png

b,c圖使用統計量 S(熵)以捕捉基因表達的無序程度或隨機性。用LOESS擬合發現 S 與基因的平均表達水平( E )之間存在很強的關系,從而形成了表達-熵模型(S-E 模型)。
對于所有基因都沒有顯著S-reduction (ds) 的細胞群 ROGUE 值 為1,表明它是完全純的亞型或狀態。相比之下,具有最大顯著ds的細胞群體將產生約 0 的純度分數。

這處沒理解為什么是熵減。查看方法部分發現是微分熵。信息論種的熵可以理解為不確定性的量度(或者說是多樣性diversity的度量),因為越隨機的信源的熵越大。熵可以被視為描述一個隨機變量的不確定性的數量。一個隨機變量的熵越大,它的不確定性越大。而ds是他們自己定義的,不是熵減小過程,而是基因i在n 個細胞中的熵減少。
image.png

文章思路是通過利用 S-E 模型的廣泛適用性,開發了統計 ROGUE 來量化單細胞群的純度。SE模型就是表示熵和基因表達量有關系的模型。


image.png
總結:這篇文章最需要看懂是概率論,概率模型,信息論之間的組合,但是我沒很好的看懂,這篇文章除了知道個大概以及知道學習的方向、確認概率論和概率模型在生物數據中十分有用的感性認識以外,其他的收獲很少,因為沒能很好的推導里面的公式,概率論還得重新認真看。總之,除了認識上的略微提升,這篇文章的收獲比較少,需要認真學習。但是最近的重心是單細胞和免疫的學習,暫時先放下。之后要讀的文章也暫時不以這個為主,因為概率論忘了不少,在每重新復習的情況下讀起來收獲不多。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容