[TOC]
探索數據
- 內容:匯總統計、可視化和聯機分析處理(OLAP)
- 作用:數據初步探究,利于選擇合適的數據預處理和數據分析技術。
匯總統計
匯總統計,summary statistics,用單個數或數的小集合捕獲很大的值集的各種特征。
頻率(frequence)和眾數(mode):值x的頻率定義為所有對象中該屬性取值為x的對象比率。眾數定義為具有最高頻率的值。頻率和眾數能反應一個屬性的值的取值情況,但常常對連續變量來說無效,因為連續變量的單個值可能出現次數不過1.
百分位數:在[min,max]區間上劃分百分比點,選出每個點上的數,即為p百分位數。如值區間為[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位數的條件是數據有序。
位置度量——均值和中位數:連續數據常統計均值(mean)和中位數(median),他們是值集位置的度量。均值就是平均數,中位數就是有序序列最中間的某一個值(元素數量為奇數)或中間兩個值的平均值(元素數量為偶數)。受離群點、異常值影響,為此提出截斷均值(trimmed mean),將有序列的P個百分位去除之后再計算均值,顯然這P個百分位會對半分到高端和低端,即去掉最高的百分之0.5P,再去掉最低的百分之0.5P,剩下的數做平均。此處截斷針對的值的個數,如100個實體,截斷百分之10,則排序后,刪除最高5個數,最低5個數。
-
散布度量——極差和方差:極差(range)通俗理解為取值范圍,$$range(x)=max(x)-min(x)$$,顯然極差是極受異常點影響的。而方差(variance)、標準差(standard deviation)通過均值計算而來,均值也是受離群點影響的,故它倆也是對離群點敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而標準差s取方差開方即可。
針對上述離群點影響問題,提出了絕對平均偏差(absolute average deviation,AAD)、中位數絕對偏差(median absolute deviation,MAD)、四分位數極差(interquartile range,IQR)。
$$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$
$$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$
$$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的極差,消除了離群點影響
-
多元匯總統計:之前都是針對單個屬性,若數據對象包含多個屬性(多維、多元數據),數據對象的均值可用每個屬性的均值表示。多元數據中,各個屬性間通常不是獨立的,考慮每個屬性的散布可能作用不大,可以嘗試分析兩兩屬性間聯合的散布情況,即協方差矩陣(covariance matrix,S),矩陣S的第ij個元素表示第i個和第j個屬性的協方差。協方差矩陣給出所有的屬性對之間的散布度量。
$$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分別表示第k個對象的第i個和第j個屬性的值。
協方差矩陣描述了數據集所有數據在各屬性對上的聯合散布情況,體現的是屬性取值的情況,雖然矩陣元素為0表示該屬性對不具有線性關系,但并不能給出關聯程度,需要相關矩陣(correlation matrix)給出各屬性間的相關性。
$r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分別表示$x_i$和$x_j$的方差,R的對角線元素顯然為1(x與x自身的相關性),其他元素在-1到1之間。
可視化
可視化的目標是形成可視化信息的人工解釋和信息的意境模型。
一般概念
- 表示:數據到圖形元素的映射。這是可視化的第一步,將數據信息映射成可視形式。
- 對象的三種表示方式:
- 考慮單個分類屬性:根據該屬性值將對象聚成類。
- 具有多個屬性:將對象顯示為表的一行或列,或顯示為一條線。
- 對象也常常被解釋為n維空間中的點。
- 對于屬性:其表示取決于屬性的類型。每個分類屬性可以映射到不同的位置、顏色、形狀、尺寸等等。
- 難點:可視化的主要難點是確定一種技術,能表達數據的內在聯系,如對象之間、屬性之間的聯系。
- 對象的三種表示方式:
- 項的安排:可視化中,項的安排對圖像的表達起到很大作用,如規則矩陣打亂行列之后可能很難看出其規律性。
- 選擇:數據集很大時,圖像的顯示過密可能會掩蓋數據的信息。因此需要適當的選取數據信息。
- 通常多屬性可以選取屬性子集做表達(通常是兩個屬性),維度不高的時候可以做屬性對(雙屬性)矩陣觀察。選取一對屬性的時候采用維歸約技術,如PCA。
- 數據點多的時候,可以通過樣本抽查方式減少可視化的數據量。
可視化技術
可視化技術通常對于分析的數據是專用性的。
少量屬性的可視化
這里主要討論單個屬性觀測值的分布和兩個屬性值之間的關系。
- 莖葉圖,stem and leaf plot:觀測一維整形或連續數據的分布。類似與橫向的直方圖。
- 直方圖,histogram:對于連續屬性值,通常采用分箱。也叫條形圖(bar plot),每個條形的面積正比于落在該區間的對象的個數。也可演變成相對頻率直方圖(relative frequency histogram),用相對頻率代替值的計數。
- 二維直方圖,two-dimensional histogram:三維圖形,三個正交的軸分別表示兩個屬性值和對應的數據對象的計數。
- 盒裝圖,box plot:用以顯示一維數值屬性分布的方法,實質是表達屬性所有取值區間上的10\25\50\75\90百分位數的取值,以及離群點。通過盒子中間[25,50,90]這三段兩個部分能看出數據的主體分布區間。
- 餅圖,pie chart:用于屬性取值較少的分類屬性,用圓的相對面積表達不同值的相對頻率,相比而言,直方圖更常用。
- 百分位數圖(percentile plot)& 經驗累積分布圖(empirical cumlative function,CDF):百分位圖的兩軸分別為百分位值和該百分值時的屬性取值,再直線連接這一系列點形成折線圖,能看出各百分位的屬性取值。經驗累積分布圖表達各屬性值的累積分布概率,橫軸為值的取值范圍,縱軸表達累計概率([0,1]之間)。
- 散布圖,scatter plot:使用數據對象的兩個屬性值作為坐標軸,每個數據作為平面上的一個點,可以大致看出兩個屬性之間的聯系,或在給出類標號的情況下可以考察兩個屬性將類分開的程度。同時安排所有屬性對的散布圖得到一種散布圖矩陣(scatter plot matrix),可對比觀測出所有屬性對的聯系。當然散布圖還可以拓展為三維散布圖,根據三種屬性的取值情況在空間中繪制數據對象的點。
時間空間數據可視化
- 等高線圖,contour plot:兩個屬性在指定平面上,第三個屬性具有連續性,如溫度、海拔等,可采用等高線圖。
- 曲面圖,surface plot:通常描述數學函數或變化相對較為光滑的物理曲面。
- 矢量場圖,vector field plot:略
- 低維切片:對于時間空間數據集,可用一組圖對某一維度“切片”,如對時間切片,每一幅圖只展現空間和其他數據信息,而時間維度變化可通過一系列圖的對比變化得出。
高維數據可視化
- 矩陣:在用矩陣表達多維數據的時候,若給出類標號,則重新排列數據矩陣的次序是有效的。
- 平行坐標系,parallel coordinates:每個屬性是一個坐標軸,但所有的屬性不正交,而是平行的(類似于直方圖的做法,但粒度和側重不同),對象用線表示。對象每個屬性的值映射到與該屬性關聯的坐標軸上的點,連接這些點,就是該對象的表達。屬性坐標軸的次序對于結論直觀性影響很大。
- 星型坐標和Chernoff臉:略
可視化原則
ACCENT原則,對于可視化方法的選取原則。
- 理解,apprehension
- 清晰,clarity
- 一致,consistency
- 有效,efficientcy
- 必要,necessity
- 真實,truthfulness
OLAP和多維數據分析
OLAP,聯機分析處理,將數據集看做多維數組,每一行表示一個(或一類)對象,每一列是一個屬性。當然可以進行合適的數據聚集等處理。