10X單細(xì)胞(10X空間轉(zhuǎn)錄組)基礎(chǔ)知識(shí)之AutoEncoder(自編碼器)

hello,五一不知道大家去哪里玩了?卑微的我居然連回太原的票都沒買到,傷心了,但是呢,五一既然是勞動(dòng)節(jié),我們還是要?jiǎng)趧?dòng)一下的,今天我們來分享一些基礎(chǔ)知識(shí)---AutoEncoder(自編碼器),這個(gè)在很多單細(xì)胞軟件中很常見,常用來做單細(xì)胞數(shù)據(jù)的降噪和細(xì)胞定義,我之前分享的文章10X單細(xì)胞(10X空間轉(zhuǎn)錄組)聚類分析之scDCC也提到過這個(gè)內(nèi)容,今天我們就來學(xué)習(xí)一下基礎(chǔ),看看什么是自編碼器,又是如何運(yùn)用的。

AutoEncoder是深度學(xué)習(xí)的另外一個(gè)重要內(nèi)容,并且非常有意思,神經(jīng)網(wǎng)絡(luò)通過大量數(shù)據(jù)集,進(jìn)行end-to-end的訓(xùn)練,不斷提高其準(zhǔn)確率,而AutoEncoder通過設(shè)計(jì)encode和decode過程使輸入和輸出越來越接近,是一種無監(jiān)督學(xué)習(xí)過程。

Autoencoder

autoencoder是一種無監(jiān)督的學(xué)習(xí)算法,主要用于數(shù)據(jù)的降維或者特征的抽取,在深度學(xué)習(xí)中,autoencoder可用于在訓(xùn)練階段開始前,確定權(quán)重矩陣WW的初始值。

神經(jīng)網(wǎng)絡(luò)(關(guān)于神經(jīng)網(wǎng)絡(luò)之前或多或少提到過,有機(jī)會(huì)我們來認(rèn)真分享一篇關(guān)于神經(jīng)網(wǎng)絡(luò)的文章)中的權(quán)重矩陣WW可看作是對(duì)輸入的數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換,即先將數(shù)據(jù)編碼為另一種形式,然后在此基礎(chǔ)上進(jìn)行一系列學(xué)習(xí)。然而,在對(duì)權(quán)重初始化時(shí),我們并不知道初始的權(quán)重值在訓(xùn)練時(shí)會(huì)起到怎樣的作用,也不知道在訓(xùn)練過程中權(quán)重會(huì)怎樣的變化。因此一種較好的思路是,利用初始化生成的權(quán)重矩陣進(jìn)行編碼時(shí),我們希望編碼后的數(shù)據(jù)能夠較好的保留原始數(shù)據(jù)的主要特征。那么,如何衡量碼后的數(shù)據(jù)是否保留了較完整的信息呢?答案是:如果編碼后的數(shù)據(jù)能夠較為容易地通過解碼恢復(fù)成原始數(shù)據(jù),我們則認(rèn)為WW較好的保留了數(shù)據(jù)信息。

例如下圖所示,將手寫數(shù)字圖片進(jìn)行編碼,編碼后生成的 ?1?1, ?2?2, ?3?3, ?4?4, ?5?5, ?6?6 較完整的保留了原始圖像的典型特征,因此可較容易地通過解碼恢復(fù)出原始圖像。

圖片.png

autoencoder通過神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,從而確定WW的初始值。其目標(biāo)是讓輸入值等于輸出值。如下圖所示:首先用WW對(duì)輸入進(jìn)行編碼,經(jīng)過激活函數(shù)后,再用WTWT進(jìn)行解碼,從而使得h(x)≈xh(x)≈x。該過程可以看作是對(duì)輸入數(shù)據(jù)的壓縮編碼,將高維的原始數(shù)據(jù)用低維的向量表示,使壓縮后的低維向量能保留輸入數(shù)據(jù)的典型特征,從而能夠較為方便的恢復(fù)原始數(shù)據(jù)。需要注意的是:這里增加了一個(gè)約束條件,即在對(duì)數(shù)據(jù)進(jìn)行編碼和解碼時(shí),使用的是同一個(gè)參數(shù)矩陣WW。該約束可看作是一種regularization,用于減少參數(shù)的個(gè)數(shù),控制模型的復(fù)雜度。

圖片.png

對(duì)于多層神經(jīng)網(wǎng)絡(luò)的參數(shù)初始化問題,我們可以依次對(duì)每一層進(jìn)行autoencoder。如下圖所示,具體做法是首先按照上述方法確定第一層的權(quán)重參數(shù),然后固定第一層的參數(shù),對(duì)第二層的參數(shù)進(jìn)行訓(xùn)練,以此類推,直到得到所有權(quán)重值。


圖片.png

由上面的內(nèi)容我們知道, AutoEncoder包括兩個(gè)過程:encode和decode,輸入圖片通過encode進(jìn)行處理,得到code,再經(jīng)過decode處理得到輸出,有趣的是,我們控制encode的輸出維數(shù),就相當(dāng)于強(qiáng)迫encode過程以低維參數(shù)學(xué)習(xí)高維特征,這導(dǎo)致的結(jié)果和PCA類似。
AutoEncoder的目的是使下圖中的輸入x和輸出x_head越相似越好,這就需要在每次輸出之后,進(jìn)行誤差反向傳播,不斷優(yōu)化。

圖片.png

高維數(shù)據(jù)對(duì)于我們的感官體驗(yàn)總是不友好,如果我們將輸入降低至二維,放在二維平面中就會(huì)更加直觀,下圖是MNIST數(shù)據(jù)集做AutoEncoder:

圖片.png

上面是PCA的結(jié)果,下面是AutoEncoder的結(jié)果,在二維中結(jié)果很清晰。

encode和decode兩個(gè)過程可以理解成互為反函數(shù),在encode過程不斷降維,在decode過程提高維度。當(dāng)AutoEncoder過程中用卷積操作提取特征,相當(dāng)于encode過程為一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),好多層的卷積池化,那么decode過程就需要進(jìn)行反卷積和反池化,那么,反卷積和反池化如何定義呢?

關(guān)于卷積和池化的知識(shí)大家可以參考我的文章10X空間轉(zhuǎn)錄組與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)

圖片.png

Unpooling

池化過程實(shí)際上就是降維過程,假設(shè)圖片大小為32x32,池化大小為2x2,就相當(dāng)于將圖片中相鄰的2x2個(gè)像素點(diǎn)替換為四個(gè)點(diǎn)中最大數(shù)值(max-pooling),池化處理之后得到的圖片大小為16x16,Unpooling過程則需要將16x16的圖片變?yōu)?2x32,其實(shí)在池化過程中,會(huì)標(biāo)記2x2像素點(diǎn)中最大值的位置,在Unpooling過程將最大值還原,其他位置填0。

image

以上并不是Unpooling的唯一做法,在Keras中,不會(huì)記住最大值的位置,而是將所有像素均以最大值填充。

Deconvolution

卷積過程是一個(gè)矩陣在另一個(gè)矩陣上面做滑動(dòng)運(yùn)算,反卷積也是一樣,實(shí)際上,反卷積就是卷積,看下面的圖,我們熟悉的是左面的卷積過程,假設(shè)有5個(gè)像素點(diǎn),卷積核為3,步長(zhǎng)為1,卷積之后生成3個(gè)feature,我們想象中的反卷積應(yīng)該是中間所示的情形,由3個(gè)輸入生成5個(gè)輸出,如果我們將反卷積中的輸入做2的padding,這樣原本3個(gè)輸入變成7個(gè)輸入,再做卷積,生成5個(gè)輸出,對(duì)比左右兩側(cè)的圖,是完全相反的,所以,我們加上padding,使反卷積變成了卷積運(yùn)算。

image

De-noising AutoEncoder

對(duì)于AutoEncoder,每一次的訓(xùn)練都是自身的對(duì)比,這回造成輸出和輸入越來越類似,而對(duì)同種類的其他圖片表現(xiàn)不敏感,于是,De-noising AutoEncoder派上了用場(chǎng),如下圖所示,在輸入之前,先將圖片加入隨機(jī)噪聲,這樣每次的輸入都會(huì)略有差異,然后將帶有噪聲的圖片進(jìn)行AutoEncoder,將輸出的y與加噪聲之前的圖片進(jìn)行比較,這樣訓(xùn)練出來的y就具有抗噪聲的能力,在以圖搜圖的場(chǎng)景下也就提高了泛化能力。

image

AutoEncoder在單細(xì)胞數(shù)據(jù)中的運(yùn)用

借助一篇文獻(xiàn)來實(shí)現(xiàn)分享,問文獻(xiàn)在Single-cell RNA-seq denoising using a deep count autoencoder,2019年發(fā)表于NC,當(dāng)然還有很多其他的文章也提到并運(yùn)用了AutoEncoder,感興趣的同學(xué)可以多多學(xué)習(xí)。

簡(jiǎn)介

文章主要介紹了一種使用DCA對(duì)單細(xì)胞count數(shù)據(jù)進(jìn)行降噪,其中自編碼器的loss設(shè)計(jì)是本篇文章的亮點(diǎn)。作者認(rèn)為(現(xiàn)有很多文章也進(jìn)行過論證)single cell數(shù)據(jù)服從Zero Inflation Negative Binomial(ZINB) 零膨脹的負(fù)二項(xiàng)分布。而本篇文章的創(chuàng)新點(diǎn)也正是將ZINB和NB設(shè)計(jì)成為loss函數(shù)。

背景介紹

單細(xì)胞RNA測(cè)序(scRNA-seq)使研究人員能夠以細(xì)胞分辨率研究基因表達(dá)。然而,由于擴(kuò)增和丟失引起的噪聲可能阻礙分析,因此需要可擴(kuò)展的去噪方法來獲得越來越大但稀疏的scRNA-seq數(shù)據(jù)。我們提出深度計(jì)數(shù)自動(dòng)編碼器網(wǎng)絡(luò)(DCA)來對(duì)scRNA-seq數(shù)據(jù)集進(jìn)行去噪。
低RNA捕獲率導(dǎo)致檢測(cè)到表達(dá)基因失敗,導(dǎo)致“假”零計(jì)數(shù)觀察,定義為丟失事件。重要的是要注意“假”和“真”零計(jì)數(shù)之間的區(qū)別。真零計(jì)數(shù)表示基因在特定細(xì)胞類型中缺乏表達(dá),因此真正的細(xì)胞類型特異性表達(dá)。因此,并非scRNA-seq數(shù)據(jù)中的所有零都可以被視為缺失值。在統(tǒng)計(jì)中,通常估算缺失的數(shù)據(jù)值。在此過程中,缺失值將隨機(jī)或通過適應(yīng)數(shù)據(jù)結(jié)構(gòu)替換值,以改進(jìn)統(tǒng)計(jì)推斷或建模。由于真零假計(jì)數(shù)之間的非平凡區(qū)別,具有定義的缺失值的經(jīng)典插補(bǔ)方法可能不適合scRNA-seq數(shù)據(jù)。

我們假設(shè)數(shù)據(jù)源自無噪聲數(shù)據(jù)流形,代表潛在的生物過程和細(xì)胞狀態(tài)。然而,像成像(圖像分析)或測(cè)序這樣的測(cè)量技術(shù)會(huì)產(chǎn)生這種流形的破壞表現(xiàn)。

DCA使用具有或不具有零膨脹的負(fù)二項(xiàng)式噪聲模型來考慮數(shù)據(jù)的計(jì)數(shù)分布,過度離散和稀疏性,并且捕獲非線性基因 - 基因依賴性。我們的方法與細(xì)胞數(shù)量成線性關(guān)系,因此可以應(yīng)用于數(shù)百萬個(gè)細(xì)胞的數(shù)據(jù)集。我們證明DCA去噪使用模擬和真實(shí)數(shù)據(jù)集改進(jìn)了一系列典型的scRNA-seq數(shù)據(jù)分析。
方法

1. Noise model

零膨脹的負(fù)二項(xiàng)分布(ZINB) 模擬的scRNA-seq數(shù)據(jù)都是高度稀疏且過度分散的count值。ZINB包括兩部分:一部分是在0點(diǎn)處的沖激函數(shù),代表有數(shù)據(jù)中過多的0值;另一部分是非零點(diǎn)的負(fù)二項(xiàng)分布。對(duì)于scRNA-seq數(shù)據(jù),在0點(diǎn)處的point mass點(diǎn)質(zhì)量函數(shù)可以捕獲數(shù)據(jù)中的丟失事件,而負(fù)二項(xiàng)部分模擬數(shù)據(jù)中的非dropout值。

NB和ZINB函數(shù)如下所示:

圖片.png

π代表該點(diǎn)質(zhì)量函數(shù)的權(quán)重,mu代表負(fù)二項(xiàng)分布的均值,θ代表該分布的離散程度。

2.模型結(jié)構(gòu)

圖片.png

DCA: deep count autoencoder,首先該模型的基礎(chǔ)是自編碼器。模型一共五層,節(jié)點(diǎn)個(gè)數(shù)分別為X-64-32-64-X. X是從上萬的基因中找到的高表達(dá)基因。

與普通的神經(jīng)網(wǎng)絡(luò)模型不同,該模型沒有訓(xùn)練樣本之間的差異(loss用MSE等函數(shù)表示),而是通過輸入的樣本訓(xùn)練每個(gè)基因的ZINB分布參數(shù)(如圖中output層所示,訓(xùn)練每個(gè)基因的μ、θ、π參數(shù))

關(guān)于這個(gè),我們了解即可,不必深入。

生活很好,有你更好

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,701評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,694評(píng)論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,026評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,193評(píng)論 0 290
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,719評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,668評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,846評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評(píng)論 1 295
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,394評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,635評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容