數(shù)據(jù)挖掘之認(rèn)識(shí)數(shù)據(jù)

本文您將要了解:

1、數(shù)據(jù)由什么類型的屬性或字段組成?

2、每個(gè)屬性具有何種類型的數(shù)據(jù)值?

3、哪些屬性是離散的?哪些是連續(xù)值的?

4、數(shù)據(jù)看上去如何?值如何分布?

5、有什么方法可以可視化地觀察數(shù)據(jù),以便更好地理解它嗎?

6、能夠看出離群點(diǎn)嗎?

7、可以度量某些數(shù)據(jù)對(duì)象與其他數(shù)據(jù)對(duì)象之間的相似性嗎?

? ? ? ? 例如給定溫度屬性,我們可以確定其均值、中位數(shù)、眾數(shù)。這些是中心趨勢(shì)度量,使我們了解分布的”中部“或中心。關(guān)于每個(gè)屬性的這種基本統(tǒng)計(jì)量的知識(shí)有助于在數(shù)據(jù)預(yù)處理時(shí)填補(bǔ)缺失值、光滑噪聲、識(shí)別離群點(diǎn)。分位數(shù)圖、直方圖和散點(diǎn)圖都是顯示基本統(tǒng)計(jì)描述的其他圖形方法。

一、數(shù)據(jù)對(duì)象與屬性類型

? ? ? ? ?屬性是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。

1、標(biāo)稱屬性:

? ? ? ? 一些符號(hào)或事物的名稱。可以用數(shù)字符號(hào)代替,但并不是定量的。

2、二元屬性:

? ? ? ? 一種標(biāo)稱屬性,只有兩個(gè)類別或狀態(tài):0或1,其中0表示該屬性不出現(xiàn),1表示出現(xiàn)。若這兩種狀態(tài)對(duì)應(yīng)true或false,又稱為布爾屬性。若二元屬性是對(duì)稱的,意思是關(guān)于哪個(gè)結(jié)果應(yīng)該用0或1編碼并無(wú)偏好,如男或女。若二元屬性是非對(duì)稱的,我們常用1表示重要數(shù)據(jù),如艾滋病陽(yáng)性。

3、序數(shù)屬性:

? ? ? ? 其可能的值之間具有有異議的序或秩評(píng)定,但相繼值之間的差是未知的。如小中大、助教講師副教授教授、不滿意不太滿意中性滿意很滿意。

? ? ? ? 標(biāo)稱、二元、序數(shù)屬性都是定性的。

4、數(shù)值屬性:

? ? ? ? 定量的,可度量的值,用整數(shù)或?qū)崝?shù)值表示。可以是區(qū)間標(biāo)度的或比率標(biāo)度的。

? ? ? ? 區(qū)間標(biāo)度屬性:用相等的單位尺度度量。如溫度,時(shí)間等,其特點(diǎn)是不能用比率談?wù)撨@些數(shù)值,如不能說(shuō)說(shuō)10度是5度的2倍。沒(méi)有絕對(duì)的零點(diǎn),即0度不是“沒(méi)有溫度”,0年不表示時(shí)間的開始。

? ? ? ? 比率標(biāo)度屬性:具有固定零點(diǎn)的數(shù)值屬性。如果度量是比率標(biāo)度的,則可以說(shuō)一個(gè)值是另一個(gè)倍數(shù)。

? ? ? ? 我們將屬性分為標(biāo)稱、二元、序數(shù)和數(shù)值類型。可以用許多方法來(lái)組織屬性類型,這些類型不是互斥的。

? ? ? ? 機(jī)器學(xué)習(xí)的分類算法將屬性分為離散的或連續(xù)的,每種類型都可以用不同的方法處理。

二、基本統(tǒng)計(jì)描述

? ? ? ??中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù)

? ? ? ? ?散布度量:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差

? ? ? ? ?圖形顯示:分位數(shù)圖、qq圖、直方圖、散點(diǎn)圖

? ? ? ? 中心趨勢(shì)度可以度量數(shù)據(jù)分布的中部或中心位置,主要討論均值、中位數(shù)、眾數(shù)和中列數(shù)。

? ? ? ? 數(shù)據(jù)分散常見度量是數(shù)據(jù)的稽查、四分位數(shù)、四分位數(shù)極差、無(wú)數(shù)概括和盒圖,以及方法和標(biāo)準(zhǔn)差。對(duì)于識(shí)別離群點(diǎn),這些度量是有用的。

1、中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù)

1)均值:

加權(quán)平均:

? ? ? ? 為了抵消少數(shù)極端值的影響,我們使用截尾均值(trimmed mean)。截尾均值是丟棄高低極端值后的平均。如可以對(duì)工資的觀測(cè)值排序,并在計(jì)算均值前去掉高端和低端的2%。

2)中位數(shù)(median):

? ? ? 對(duì)于傾斜(非對(duì)稱)數(shù)據(jù),數(shù)據(jù)中心最好度量是中位數(shù)。

? ? ? 若N是奇數(shù),中位數(shù)為有序集的中間值;若N是偶數(shù),約定中位數(shù)是兩值的平均值。

3)眾數(shù)(mode):

? ? ? ?一個(gè)、兩個(gè)、三個(gè)眾數(shù)的數(shù)據(jù)集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。

4)中列數(shù)(midrange):

? ? ? ? 數(shù)據(jù)集的最大值和最小值的平均數(shù)。

? ? ? ? 正傾斜的數(shù)據(jù),眾數(shù)出現(xiàn)在小于中位數(shù)的值上;負(fù)傾斜的數(shù)據(jù),眾數(shù)出現(xiàn)在大于中位數(shù)的值上。

2、數(shù)據(jù)散布度量:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差

1)極差(range):

? ? ? ? 最大值與最小值之差。

2)分位數(shù)(quantile):

? ? ? ?取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合。

? ? ? ?2-分位數(shù)是一個(gè)數(shù)據(jù)點(diǎn),把數(shù)據(jù)劃分為高低兩半。2-分位數(shù)對(duì)應(yīng)于中位數(shù)。

? ? ? ?4-分位數(shù)是3個(gè)數(shù)據(jù)點(diǎn),把數(shù)據(jù)劃分為4個(gè)相等的部分,使每部分表示數(shù)據(jù)分布的四分之一。通常稱為四分位數(shù)(quartile)。

? ? ? ?100-分位數(shù)吧數(shù)據(jù)分為100個(gè)大小相等的連貫集。通常稱為百分位數(shù)(percentile)。

? ? ? ?中位數(shù)、四分位數(shù)、百分位數(shù)是使用最廣的分位數(shù)。

? ? ? ?第1個(gè)四分位數(shù)記作Q1,是第25個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的25%。第3個(gè)四分位數(shù)記作Q3,是第75個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的75%(或最高的25%)。

? ? ? ?第1個(gè)和第3個(gè)四分位數(shù)之間的距離是散布的一種簡(jiǎn)單度量,給出被數(shù)據(jù)的中間一半所覆蓋的范圍,稱為四分位數(shù)極差(IQR):IQR=Q3-Q1

? ? ? ? 對(duì)于描述傾斜分布,單個(gè)散布數(shù)值度量(如IQR)都不是很有用。

? ? ? ? 識(shí)別可以離群點(diǎn)的通常規(guī)則是:挑選落在第3個(gè)四分位數(shù)之上或第1個(gè)四分位之下至少1.5*IQR處的值。

3)五數(shù)概括(five-number summary):

? ? ? ? 由中位數(shù)、四分位數(shù)Q1和Q3、最小和最大觀測(cè)值組成。按次序Mininum、Q1、Median、Q3、Maximum寫出。

4)盒圖(boxplot):

? ? ? ? 體現(xiàn)了五數(shù)概括:

? ? ? ? 盒的端點(diǎn)一般在四分位數(shù)上,使得盒的長(zhǎng)度是四分位數(shù)極差I(lǐng)QR。

? ? ? ? 中位數(shù)用盒內(nèi)的線標(biāo)記。

? ? ? ? 盒外的兩條線延伸到最小值和最大值。

? ? ? ? 僅當(dāng)最高和最低觀測(cè)值超過(guò)四分位數(shù)不到1.5*IQR時(shí),胡須擴(kuò)展到它們。否則,胡須在出現(xiàn)在四分位數(shù)的1.5*IQR之內(nèi)的最極端的觀測(cè)值終止,剩下的情況個(gè)別繪出。

5)方差(variance)和標(biāo)準(zhǔn)差(standard deviation):

3、圖形顯示

1)分位數(shù)圖:

? ? ? ? 觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效的方法。

2)分位數(shù)-分位數(shù)圖(qq圖):

? ? ? ? 對(duì)著另一個(gè)對(duì)應(yīng)的分位數(shù),繪制一個(gè)單變量分布的分位數(shù)。它是一種強(qiáng)有力的可視化工具,使得用戶可以觀察從一個(gè)分布到另一個(gè)分布是否有漂移。

3)直方圖(頻率直方圖):

4)散點(diǎn)圖:

? ? ? ? 是確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢(shì)的最有效的圖形方法之一。

? ? ? ? 散點(diǎn)圖是一種觀察雙變量數(shù)據(jù)的有用的方法,用于觀察點(diǎn)簇和離群點(diǎn),或考察相關(guān)聯(lián)系的可能性。

三、度量數(shù)據(jù)的相似性和相異性

? ? ? ? 我們拿到數(shù)據(jù)的數(shù)據(jù)幾乎都是多字段屬性的數(shù)據(jù)表,行代表對(duì)象,列代表屬性,通常我們需要比較兩個(gè)對(duì)象的相似性及差別才有意義,本節(jié)將介紹如何比較對(duì)象間的相似性和相異性。

? ? ? ? 有前面的介紹我們知道數(shù)據(jù)有多種類型,不同的數(shù)據(jù)屬性有不同的處理方式。本節(jié)從標(biāo)稱屬性的相異性、二元屬性的相異性及相似性、數(shù)值屬性的相異性、序數(shù)屬性的相異性、混合類型屬性的相異性、余弦相似性介紹不同數(shù)據(jù)屬性的處理方法。

1、標(biāo)稱屬性的近鄰性度量

? ? ? ? 對(duì)于標(biāo)稱屬性,兩個(gè)對(duì)象屬性相異即為1,相同即為0,相異性可以表示為:

? ? ? ? 其中m是相同的屬性屬性,p是所有屬性數(shù)目

? ? ? ? 四個(gè)對(duì)象的相異矩陣可表示為:

? ? ? ? 混合屬性中附相關(guān)例題。

2、二元屬性的鄰近性度量

? ? ? ? 若所有二元都被看做具有相同權(quán)重,其中q是對(duì)象i和對(duì)象j都取1的屬性數(shù)。

? ? ? ? 對(duì)稱的二元相異性:每個(gè)狀態(tài)都同樣重要。若對(duì)象i和j都用對(duì)稱二元屬性刻畫,那么i和j的相異性為

? ? ? ? 非對(duì)稱的二元相異性:每個(gè)狀態(tài)不是同等重要的,如病理化驗(yàn)的陽(yáng)性(1)和陰性(0)。兩個(gè)都取1的情況比兩個(gè)都取0的情況更有意義。因此都取0的情況被認(rèn)為是不重要的,因此忽略:

? ? ? ? 非對(duì)稱的二元相似性:我們用相似性來(lái)度量?jī)蓚€(gè)二元屬性的差別,

? ? ? ? ?sim(i,j)被稱為Jaccard系數(shù)

例題:

3、數(shù)值屬性的相異性:閔可夫斯基距離

? ? ? ? 閔可夫斯基距離:

? ? ? ? 又稱Lp范數(shù),p就是這里的h

? ? ? ? h=1,曼哈頓距離

? ? ? ? ?h=2,歐幾里得距離

4、序數(shù)屬性的近鄰性度量

? ? ? ? 將序數(shù)屬性轉(zhuǎn)換為數(shù)值屬性,再進(jìn)行歸一化處理,之后與數(shù)值屬性處理相類似。

5、混合類型屬性的相異性

? ? ? ? 我們計(jì)算每一個(gè)屬性的相異矩陣,并且排除掉非對(duì)稱性屬性和屬性缺失值,對(duì)已有屬性求平均

例題:

? ? ? ? test-1、test-2、test-3相異性矩陣分別為:

? ? ? ? 由于不存在非對(duì)稱二元屬性和缺失值,因此求均值后得到相異矩陣為:

6、余弦相似性

? ? ? ? 從向量的角度出發(fā),計(jì)算兩向量之間的余弦,余弦值接近于1則相似性大。

? ? ? ? 常用在計(jì)算文本的相似性上。

? ? ? ? 例題:計(jì)算文檔1和文檔2的相似性

兩文檔相似度很高。


最后請(qǐng)回答開頭的幾個(gè)問(wèn)題。



---本文知識(shí)點(diǎn)及例題出自《數(shù)據(jù)挖掘概念與技術(shù)》第3版 ?機(jī)械工業(yè)出版社

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容