層次聚類分析案例（三）

之前的筆記：
聚類介紹：點(diǎn)這里
 層次聚類分析案例（一）
層次聚類分析案例（二）

案例三：基因聚類

獲取全基因組表達(dá)數(shù)據(jù)的能力是一項(xiàng)計(jì)算復(fù)雜度非常高的任務(wù)。由于人腦的局限性，是無法解決這個(gè)問題。但是，通過將基因分類進(jìn)數(shù)量較少的類別后再進(jìn)行分析，就能將基因數(shù)據(jù)加工到更易理解的水平。

聚類的目標(biāo)是將一組基因進(jìn)行劃分，使相似的基因落入同一個(gè)簇，同時(shí)不相似的基因落入不同的簇。這里需要考慮的關(guān)鍵問題是如何定義相似性，以及處理已分類基因。這里我們使用兩種基因類型的感光性來探索基因聚類問題。

準(zhǔn)備工作

為了進(jìn)行層次聚類，我們使用從實(shí)驗(yàn)鼠身上采集的數(shù)據(jù)集。

第1步：收集和描述數(shù)據(jù)

該任務(wù)使用名為GSE4051_data和GSE4051_design的數(shù)據(jù)集。該數(shù)據(jù)集以標(biāo)準(zhǔn)格式存儲(chǔ)在名為GSE4051_data.csv和GSE4051_design.csv的CSV格式的文件中。數(shù)據(jù)獲取路徑：在這里

GSE4051_data數(shù)據(jù)集包含29949行數(shù)據(jù)和39個(gè)變量。數(shù)值型變量如下：

GSE4051_design數(shù)據(jù)集包含39行數(shù)據(jù)和4個(gè)變量。數(shù)值型變量是：sidNum
非數(shù)值型變量是：sidChar；devStage；gType；

具體實(shí)施步驟以下為實(shí)現(xiàn)細(xì)節(jié)。

第2步：探索數(shù)據(jù)

RColorBrewer包是一個(gè)R包，可從http://colorbrewer2.org獲取，它提供地圖和其他圖形的彩色模板。

pvclust包用來實(shí)現(xiàn)非確定性的層次聚類分析。在層次聚類中，每個(gè)簇通過多尺度有放回抽樣計(jì)算p值。一個(gè)簇的p值在0～1之間。p值有兩種類型：近似無偏（approximately unbiased，AU）和有放回概率（bootstrap probability，BP）值。AU p值通過多尺度有放回采樣方法計(jì)算，經(jīng)典的有放回采樣方法用來計(jì)算BP p值。AU p值相比BP p值存在優(yōu)效性偏見。

xtable包可以生成LaTeX格式的表格。使用xtable可以將特定的R對(duì)象轉(zhuǎn)換成xtables。這些xtables能夠以LaTeX或HTML的格式輸出。

plyr包被用來進(jìn)行分置合并（split-apply-combine，SAC）過程。它將一個(gè)大的問題切分成易處理的小塊，在每個(gè)小塊上進(jìn)行操作，然后將所有小塊合并起來。

載入以下包：

library(RColorBrewer)
library(cluster)
library(pvclust)
library(xtable)
library(plyr)

讓我們探索并理解變量間的關(guān)系。從導(dǎo)入名為GSE4051_data.csv的CSV文件開始。我們將該文件數(shù)據(jù)存儲(chǔ)到GSE4051_data數(shù)據(jù)框中：

GSE4051_data = read.csv("ClusteringAnalysis/Practical-Machine-Learning-Cookbook/Chapter03/Data/GSE4051_data.csv",header = T)

接下來，輸出GSE4051_data數(shù)據(jù)框的信息。str（）函數(shù)返回GSE4051_data的結(jié)構(gòu)信息。它簡(jiǎn)略顯示了GSE4051_data數(shù)據(jù)框的內(nèi)部結(jié)構(gòu)。max.level指明了為了顯示網(wǎng)狀結(jié)構(gòu)的最大等級(jí)。

str(GSE4051_data, max.level = 0)

結(jié)果如下：

下面，我們導(dǎo)入名為GSE4051_design.csv的CSV文件，將其數(shù)據(jù)保存到GSE4051_design數(shù)據(jù)框中：

GSE4051_design = read.csv("ClusteringAnalysis/Practical-Machine-Learning-Cookbook/Chapter03/Data/GSE4051_design.csv",header = T)

輸出GSE4051_design數(shù)據(jù)框的內(nèi)部結(jié)構(gòu)。

str(GSE4051_design)

結(jié)果如下：

第3步：轉(zhuǎn)換數(shù)據(jù)

為了便于后續(xù)的可視化階段，需要對(duì)每一行數(shù)據(jù)進(jìn)行拉伸操作。這是由于在目前的要求下，不同基因表達(dá)之間存在絕對(duì)值的差距，因此需要對(duì)每一行數(shù)據(jù)進(jìn)行拉伸。

中心化變量和創(chuàng)建z值是兩個(gè)常見的數(shù)據(jù)分析方法。scale函數(shù)中心化并拉伸數(shù)值型矩陣的列。

變換矩陣。傳入GSE4051_data數(shù)據(jù)框用t（）函數(shù)進(jìn)行數(shù)據(jù)框變換。

trans_GSE4051_data <- t(scale(t(GSE4051_data)))

接下來，我們輸出GSE4051_data數(shù)據(jù)框的信息。通過設(shè)置give.attr=FALSE，次級(jí)結(jié)構(gòu)的屬性不會(huì)被顯示。

str(trans_GSE4051_data,max.level=0, give.attr = FALSE)

結(jié)果如下：

num [1:29949, 1:39] 0.0838 0.1758 0.7797 -0.3196 0.8358 ...

round（）函數(shù)用于舍入到最接近的整數(shù)。語法形式只有1種：Y = round(X)，這里的X可以是數(shù)，向量，矩陣，輸出對(duì)應(yīng)。

head（）函數(shù)返回一個(gè)向量、矩陣、表、數(shù)據(jù)框或函數(shù)的頭部。GSE4051_data和trans_GSE4051_data數(shù)據(jù)框被當(dāng)作對(duì)象傳入。rowMeans（）函數(shù)計(jì)算每列的平均值。data.frame（）函數(shù)創(chuàng)建數(shù)據(jù)框耦合變量集合，并且共享許多指標(biāo)的性質(zhì)：

round(data.frame(avgBefore = rowMeans(head(GSE4051_data)),
avgAfter = rowMeans(head(trans_GSE4051_data)),
varBefore = apply(head(GSE4051_data),1,var),
varAfter = apply(head(trans_GSE4051_data),1,var)),2)

結(jié)果如下：

第4步：訓(xùn)練模型

接下來是訓(xùn)練模型。第一步是計(jì)算距離矩陣。dist（）函數(shù)用來計(jì)算并返回距離矩陣，可以使用特定的距離度量方法來計(jì)算數(shù)據(jù)矩陣中各行間的距離。這里可使用的距離度量方法有歐式距離、最大距離、曼哈頓距離、堪培拉距離、二進(jìn)制距離，或閔可夫斯基距離。這里使用歐式距離。歐式距離計(jì)算兩個(gè)向量間的距離公式為sqrt（sum（（x_i-y_i）^2））。轉(zhuǎn)換后的trans_GSE4051_data數(shù)據(jù)框被用來計(jì)算距離。結(jié)果存儲(chǔ)在pair_dist_GSE4051_data數(shù)據(jù)框中。

pair_dist_GSE4051_data <- dist(t(trans_GSE4051_data),method = "euclidean")

接下來，使用interaction（）函數(shù)計(jì)算并返回gType、devStage變量間相互作用的無序因子。無序因子的結(jié)果連同GSE4051_design數(shù)據(jù)框一同被傳入with（）函數(shù)。該函數(shù)計(jì)算產(chǎn)生一個(gè)新的因子代表gType、devStage變量的相互作用：

GSE4051_design$group <- with(GSE4051_design,interaction(gType,devStage))

summary（）函數(shù)用來生成GSE4051_design$group數(shù)據(jù)框的結(jié)果總結(jié)：

summary(GSE4051_design$group)

結(jié)果如下：

下面，使用多種不同的聯(lián)合類型計(jì)算層次聚類。

使用hclust（）函數(shù)對(duì)n個(gè)不同對(duì)象進(jìn)行聚類分析。第一個(gè)階段，每個(gè)對(duì)象被指派給自己的簇。算法在每個(gè)階段迭代聚合兩個(gè)最相似的簇。持續(xù)該過程直到只剩一個(gè)單獨(dú)的簇。hclust（）函數(shù)要求我們以距離矩陣的形式提供數(shù)據(jù)。pair_dist_GSE4051_data數(shù)據(jù)框被傳入。

在第一個(gè)例子中使用single聚類方法：

pr.hc.single <- hclust(pair_dist_GSE4051_data,method = "single")
pr.hc.single的調(diào)用結(jié)果是現(xiàn)實(shí)使用的聚集方法、距離計(jì)算方法和對(duì)象數(shù)量：
pr.hc.single

結(jié)果如下：

在第二個(gè)例子中使用complete聚集方法。

pr.hc.complete <- hclust(pair_dist_GSE4051_data,method = "complete")

調(diào)用pr.hc.complete的結(jié)果是顯示所使用的聚集方法、距離計(jì)算方法和對(duì)象數(shù)量：

pr.hc.complete

結(jié)果如下：

在第三個(gè)例子中使用average聚類方法：

pr.hc.average <- hclust(pair_dist_GSE4051_data,method = "average")
pr.hc.average

調(diào)用pr.hc.complete的結(jié)果是顯示所使用的聚集方法、距離計(jì)算方法和對(duì)象數(shù)量：
結(jié)果如下：

在第四個(gè)例子中使用ward聚類方法：

pr.hc.ward <- hclust(pair_dist_GSE4051_data,method = "ward.D2")
pr.hc.ward

pr.hc.ward的調(diào)用結(jié)果是顯示所使用的聚集方法、距離計(jì)算方法和對(duì)象數(shù)量：
結(jié)果如下：

plot（）函數(shù)是繪制R對(duì)象的通用函數(shù)。

第一次調(diào)用plot（）函數(shù)，傳遞pr.hc.single數(shù)據(jù)框作為輸入對(duì)象：

plot(pr.hc.single,labels=FALSE, main="Single Linkage Representation", xlab="")

結(jié)果如下：

第二次調(diào)用plot（）函數(shù)，傳入pr.hc.complete數(shù)據(jù)框作為輸入對(duì)象：

plot(pr.hc.complete,labels=FALSE, main="Complete Linkage Representation", xlab="")

結(jié)果如下：

第三次調(diào)用plot（）函數(shù)，傳入pr.hc.average數(shù)據(jù)框作為輸入對(duì)象：

plot(pr.hc.average, labels=FALSE, main="Arverage Linkage Representation", xlab="")

結(jié)果如下：

第四次調(diào)用plot（）函數(shù)，傳入pr.hc.ward數(shù)據(jù)框作為輸入對(duì)象：

plot(pr.hc.ward, labels=FALSE, main="Ward Linkage Representation", xlab="")

結(jié)果如下：

第5步：繪制模型

plot（）函數(shù)是繪制R對(duì)象的通用函數(shù)。這里，plot（）函數(shù)用來繪制系統(tǒng)樹圖。
rect.hclust（）函數(shù)強(qiáng)調(diào)不同的簇，并在系統(tǒng)樹圖的枝干上繪制長(zhǎng)方形。系統(tǒng)樹圖首先在某個(gè)等級(jí)上被剪切，之后在選定的枝干上繪制長(zhǎng)方形。
RColorBrewer使用從http://colorbrewer2.org獲得的包來選擇繪制R圖像的顏色模板。
顏色分為三組：

時(shí)序：低數(shù)據(jù)——淺色；高數(shù)據(jù)——深色。
分歧：中間數(shù)據(jù)——淺色；低和高范圍數(shù)據(jù)——相反的深色。
定性的：設(shè)計(jì)顏色以強(qiáng)調(diào)不同簇之間的最大視覺差。

最重要的一個(gè)RColorBrewer函數(shù)是brewer.pal（）。通過向該函數(shù)傳入顏色的數(shù)量和配色的名字，可以從display.brewer.all（）函數(shù)中選擇一個(gè)配色方案。
在第一個(gè)例子中，pr.hc.single作為一個(gè)對(duì)象傳入plot（）函數(shù)：

plot(pr.hc.single, labels = GSE4051_design$group, cex = 0.6, main = "Single Hierarchical Cluster - 10 clusters")
rect.hclust(pr.hc.single,k=10)

結(jié)果如下：

下面創(chuàng)建熱度圖，使用single聚集方法。heatmap（）函數(shù)默認(rèn)使用euclidean聚集方法：

op <- par(mar=c(1,4,4,1))
par(op)
jGraysFun <- colorRampPalette(brewer.pal(n=9, "Blues"))
gTypeCols <- brewer.pal(9,"Spectral")[c(4,7)]

heatmap(as.matrix(trans_GSE4051_data),Rowv = NA, col = jGraysFun(256),
    hclustfun = function(x) hclust(x, method = 'single'),
    scale = "none", labCol = GSE4051_design$group, labRow = NA, margins = c(8,1),
    ColSideColors = gTypeCols[unclass(GSE4051_design$gType)])
legend("topright",legend=levels(GSE4051_design$gType),col = gTypeCols, lty = 1, lwd = 5, cex = 0.5)

結(jié)果如下：

image.png

在第二例子中，pr.hc.complete作為對(duì)象傳入plot（）函數(shù)：

plot(pr.hc.complete, labels = GSE4051_design$group, cex = 0.6, main = "Complete Hierarchical Cluster - 10 clusters")
rect.hclust(pr.hc.complete,k=10)

結(jié)果如下：

下面使用complete聚集方法創(chuàng)建熱度圖：

par(op)
jGraysFun <- colorRampPalette(brewer.pal(n=9, "Greens"))
gTypeCols <- brewer.pal(11,"PRGn")[c(4,7)]

heatmap(as.matrix(trans_GSE4051_data),Rowv = NA, col = jGraysFun(256),
        hclustfun = function(x) hclust(x, method = 'complete'),
        scale = "none", labCol = GSE4051_design$group, labRow = NA, margins = c(8,1),
        ColSideColors = gTypeCols[unclass(GSE4051_design$gType)])

legend("topright",legend=levels(GSE4051_design$gType),col = gTypeCols,
       lty = 1, lwd = 5, cex = 0.5)

結(jié)果如下：

在第三個(gè)例子中，pr.hc.average作為對(duì)象傳入plot（）函數(shù)：

plot(pr.hc.average, labels = GSE4051_design$group, cex = 0.6, main = "Average Hierarchical Cluster - 10 clusters")
rect.hclust(pr.hc.average, k=10)

結(jié)果如下：

下面創(chuàng)建average聚集方法的熱度圖：

jGraysFun <- colorRampPalette(brewer.pal(n=9, "Oranges"))
gTypeCols <- brewer.pal(9,"Oranges")[c(4,7)]

heatmap(as.matrix(trans_GSE4051_data),Rowv = NA, col = jGraysFun(256),
        hclustfun = function(x) hclust(x, method = 'average'),
        scale = "none", labCol = GSE4051_design$group, labRow = NA, margins = c(8,1),
        ColSideColors = gTypeCols[unclass(GSE4051_design$gType)])

legend("topright",legend=levels(GSE4051_design$gType),col = gTypeCols,
       lty = 1, lwd = 5, cex = 0.5)

結(jié)果如下：

在第四個(gè)例子中，pr.hc.ward作為對(duì)象傳入plot（）函數(shù)：

plot(pr.hc.ward, labels = GSE4051_design$group,
      cex = 0.6, main = "Ward Hierarchical Cluster - 10 clusters")
rect.hclust(pr.hc.ward,k=10)

結(jié)果如下：

下面繪制ward聚集方法的熱度圖：

jGraysFun <- colorRampPalette(brewer.pal(n=9, "Reds"))
gTypeCols <- brewer.pal(9,"Reds")[c(4,7)]

heatmap(as.matrix(trans_GSE4051_data),Rowv = NA, col = jGraysFun(256),
        hclustfun = function(x) hclust(x, method = 'ward.D2'),
        scale = "none", labCol = GSE4051_design$group, labRow = NA, margins = c(8,1),
        ColSideColors = gTypeCols[unclass(GSE4051_design$gType)])

legend("topright",legend=levels(GSE4051_design$gType),col = gTypeCols,
       lty = 1, lwd = 5, cex = 0.5)

結(jié)果如下：

最后編輯于：2019.11.15 09:46:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,461評(píng)論 6贊 532
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,538評(píng)論 3贊 417
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,423評(píng)論 0贊 375
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,991評(píng)論 1贊 312
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,761評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,207評(píng)論 1贊 324
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,268評(píng)論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,419評(píng)論 0贊 288
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,959評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,782評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,983評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,528評(píng)論 5贊 359
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,222評(píng)論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,653評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,901評(píng)論 1贊 286
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,678評(píng)論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,978評(píng)論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

層次聚類分析案例（三）

案例三：基因聚類

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频