Single cell RNA-seq data analysis with R視頻學習筆記(四、五)

第四講:Removal of confounding factors
由于這一講并不是每個人都用的上(我就用不上。。。),是關于單細胞測序實驗設計中的混雜因素的去除。所以我就聽了聽,權當學習了。有需要的同學可以仔細聽一下。主講人舉了個例子,比如在oral cancer里,飲酒是oral cancer的主要因素,而smoking這一因素會對結果也產(chǎn)生影響,所以需要去除(看起來臨床的同學可能會用到)。
主講人介紹了幾種去除這種variable的方法。

視頻地址:https://www.youtube.com/watch?v=rhuYhD4GwKw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=4

實戰(zhàn)練習地址:https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-normalization/confounding-factors.md

###########################我是分割線###########################

第五講:單細胞測序的數(shù)據(jù)整合
視頻地址:https://www.youtube.com/watch?v=4KwW90RQz-8&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=5
實戰(zhàn)練習:代碼及數(shù)據(jù)下載:https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-integration/Data_Integration.md

為什么要數(shù)據(jù)整合呢?比如說你用的是不同病人的樣品,你要比較不同condition的樣品,比如sick 和healthy。或者你有好幾個單細胞測序的dataset想要放在一起分析,這時候你就需要用到數(shù)據(jù)整合了。

這里是一個例子,是人類的胰腺的數(shù)據(jù)。這些數(shù)據(jù)是來自不同的實驗的。雖然都是人類組織,但是是來自8個不同的datasets。

如果你把它們放在一起的話,就像上圖左邊的那種效果,非常明顯的batch effects。這時候不同的顏色代表著不同的批次,而不是不同細胞群的cluster。而右邊的圖就是整合之后的數(shù)據(jù),這時的不同的細胞群才代表著你數(shù)據(jù)里真實的細胞分群。

這些batch effects是怎么來的呢?主要有兩個來源:technical and biological. 技術方面的batch effect主要是你的樣品質量、操作過程,或者是你用了兩種不一樣的platform去做測序,也可能你在裂解細胞的時候不同批次下細胞的狀態(tài)不一樣。biological方面的variation,也就是nature variation,一般是指不同的病人樣品,不同的老鼠樣品。

所以你需要花些時間來設計你的實驗,而不是上來就kuang kuang kuang的開干。上圖左邊的那種實驗設計,把3種處理分別用了3批進行操作。這種操作四絕不可取的!你要做的是像右邊那樣的實驗設計,每一次處理都包括你的所有condition。

Bulk-RNA-seq 的批次效應的去除方法現(xiàn)在已經(jīng)很成熟了,有很多種方法可以用(上面這些)。但是這些是否適用于單細胞測序呢?很難說它們是否真正適用或者不適用。主講人介紹他將介紹如何去除單細胞測序中的批次效應。

這里已經(jīng)有一些方法可以去除單細胞測序中的批次效應,這些方法大致可以分成兩個類別:一個是依賴于降維的方法,另一類是依賴于graph-based joint clustering。主講人接下來只針對里面的個別方法進行講解。

上圖是舉個例子,來說明MNN方法。這里有兩個batch,在batch 1里有3個細胞群,在batch 2里有相對應的3個細胞群。MNN的方法是:a圖里batch 1的紅色細胞群尋找的是batch2里與之相似的細胞群,然后batch2里的紅色細胞群也在尋找batch1里和自己相似的群,然后找到之后,計算correction vectors,有了correction vectors,就可以去除兩個batch間的批次效應,從而將兩個batch整合在一起。但是有時也會存在無法整合的情況,比如上圖里batch2的黃色細胞群。(所以整合的效果很看重數(shù)據(jù)的順序)

這張就是MNN的原理了。(這部分實在是聽不懂,關于MNN原理可以自行搜索,我也不太關注原理,我的目的就是知道這方法是干什么的就行了。。。)簡單的就是:上圖里最下面的網(wǎng)格圖,藍色的batch B經(jīng)過correction vector的矯正后,就可以和batch A進行merge了。

上圖是兩個datasets,分別來自SMART-seq2和MARS-seq測序結果。f圖是沒有經(jīng)過批次效應處理的,可以看到明顯的有批次效應。然后分別用不同的方法進行批次效應處理(g,h,i),貌似看起來MNN的方法效果最好。

Seurat V3的方法實際上是相似的,首先還是要先找到datasets之間對應的細胞,計算對應的細胞之間的factor,然后再進行校正。

這里主講人的一張PPT非常形象的介紹了PCA。他用魚來舉例子,這里只有兩個特征變量:高,寬。如果把圖里所有的魚的高和寬用點來表示,應該是右圖里的紅點那樣,寬度是最主要的feature。所以你的data里用PCA畫出來的圖,是你的數(shù)據(jù)里最明顯的兩個特征。

上面講的是PCA,那么什么是CCA呢?CCA和PCA是非常類似的。現(xiàn)在你想要從2個甚至更多的datasets里找出主要的variation來源。如果你做PCA分析,你會得到上面作圖的那種結果。但如果你做CCA分析,你會發(fā)現(xiàn)兩個batch重疊在一起。因為你想得到的不是兩個datasets之間的區(qū)別,而是想得到dataset里主要的variation。

上面這張圖展示的是Seurat v3里FindIntegrationAnchors這個功能的原理圖,其中一個dataset作為參考(reference),另一個dataset作為Query(查詢),也是尋找兩個dataset之間的mutual nearest neighbor(在這里被稱為anchor)。然后你會得到評分(score),從而得知這個anchor是否good。

這個方法很新,但是和CCA很像。是一種集成非負矩陣分解(iNMF)的方法,名為LIGER。這原理我也這種方法不得了,它可以將兩個不同模態(tài)的數(shù)據(jù)集整合在一起。什么意思呢?舉個例子:它可以整合RNA-seq和DNA甲基化的dataset。比如下面這個:

這有一種方法稱為KBET,它也是一種用于量化單細胞測序不同Dataset之間的批次效應。

上面講了很多的方法,但是無法證明哪一個方法更好、更適用于你的實驗。你只能通過不同的嘗試去看哪一種可以給你最好的結果。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯(lián)系作者。

推薦閱讀更多精彩內容