第三章 數據探索

[TOC]


探索數據

  • 內容:匯總統計、可視化和聯機分析處理(OLAP)
  • 作用:數據初步探究,利于選擇合適的數據預處理和數據分析技術。

匯總統計

匯總統計,summary statistics,用單個數或數的小集合捕獲很大的值集的各種特征。

  • 頻率(frequence)眾數(mode):值x的頻率定義為所有對象中該屬性取值為x的對象比率。眾數定義為具有最高頻率的值。頻率和眾數能反應一個屬性的值的取值情況,但常常對連續變量來說無效,因為連續變量的單個值可能出現次數不過1.

  • 百分位數:在[min,max]區間上劃分百分比點,選出每個點上的數,即為p百分位數。如值區間為[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位數的條件是數據有序。

  • 位置度量——均值和中位數:連續數據常統計均值(mean)和中位數(median),他們是值集位置的度量。均值就是平均數,中位數就是有序序列最中間的某一個值(元素數量為奇數)或中間兩個值的平均值(元素數量為偶數)。受離群點、異常值影響,為此提出截斷均值(trimmed mean),將有序列的P個百分位去除之后再計算均值,顯然這P個百分位會對半分到高端和低端,即去掉最高的百分之0.5P,再去掉最低的百分之0.5P,剩下的數做平均。此處截斷針對的值的個數,如100個實體,截斷百分之10,則排序后,刪除最高5個數,最低5個數。

  • 散布度量——極差和方差:極差(range)通俗理解為取值范圍,$$range(x)=max(x)-min(x)$$,顯然極差是極受異常點影響的。而方差(variance)、標準差(standard deviation)通過均值計算而來,均值也是受離群點影響的,故它倆也是對離群點敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而標準差s取方差開方即可。

    針對上述離群點影響問題,提出了絕對平均偏差(absolute average deviation,AAD)、中位數絕對偏差(median absolute deviation,MAD)、四分位數極差(interquartile range,IQR)

    $$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$

    $$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$

    $$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的極差,消除了離群點影響

  • 多元匯總統計:之前都是針對單個屬性,若數據對象包含多個屬性(多維、多元數據),數據對象的均值可用每個屬性的均值表示。多元數據中,各個屬性間通常不是獨立的,考慮每個屬性的散布可能作用不大,可以嘗試分析兩兩屬性間聯合的散布情況,即協方差矩陣(covariance matrix,S),矩陣S的第ij個元素表示第i個和第j個屬性的協方差。協方差矩陣給出所有的屬性對之間的散布度量。

    $$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分別表示第k個對象的第i個和第j個屬性的值。

    協方差矩陣描述了數據集所有數據在各屬性對上的聯合散布情況,體現的是屬性取值的情況,雖然矩陣元素為0表示該屬性對不具有線性關系,但并不能給出關聯程度,需要相關矩陣(correlation matrix)給出各屬性間的相關性。

    $r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分別表示$x_i$和$x_j$的方差,R的對角線元素顯然為1(x與x自身的相關性),其他元素在-1到1之間。


可視化

可視化的目標是形成可視化信息的人工解釋和信息的意境模型。

一般概念

  • 表示:數據到圖形元素的映射。這是可視化的第一步,將數據信息映射成可視形式。
    • 對象的三種表示方式:
      • 考慮單個分類屬性:根據該屬性值將對象聚成類。
      • 具有多個屬性:將對象顯示為表的一行或列,或顯示為一條線。
      • 對象也常常被解釋為n維空間中的點。
    • 對于屬性:其表示取決于屬性的類型。每個分類屬性可以映射到不同的位置、顏色、形狀、尺寸等等。
    • 難點:可視化的主要難點是確定一種技術,能表達數據的內在聯系,如對象之間、屬性之間的聯系。
  • 項的安排:可視化中,項的安排對圖像的表達起到很大作用,如規則矩陣打亂行列之后可能很難看出其規律性。
  • 選擇:數據集很大時,圖像的顯示過密可能會掩蓋數據的信息。因此需要適當的選取數據信息。
    • 通常多屬性可以選取屬性子集做表達(通常是兩個屬性),維度不高的時候可以做屬性對(雙屬性)矩陣觀察。選取一對屬性的時候采用維歸約技術,如PCA。
    • 數據點多的時候,可以通過樣本抽查方式減少可視化的數據量。

可視化技術

可視化技術通常對于分析的數據是專用性的。

少量屬性的可視化

這里主要討論單個屬性觀測值的分布和兩個屬性值之間的關系。

  • 莖葉圖,stem and leaf plot:觀測一維整形或連續數據的分布。類似與橫向的直方圖。
  • 直方圖,histogram:對于連續屬性值,通常采用分箱。也叫條形圖(bar plot),每個條形的面積正比于落在該區間的對象的個數。也可演變成相對頻率直方圖(relative frequency histogram),用相對頻率代替值的計數。
  • 二維直方圖,two-dimensional histogram:三維圖形,三個正交的軸分別表示兩個屬性值和對應的數據對象的計數。
  • 盒裝圖,box plot:用以顯示一維數值屬性分布的方法,實質是表達屬性所有取值區間上的10\25\50\75\90百分位數的取值,以及離群點。通過盒子中間[25,50,90]這三段兩個部分能看出數據的主體分布區間。
  • 餅圖,pie chart:用于屬性取值較少的分類屬性,用圓的相對面積表達不同值的相對頻率,相比而言,直方圖更常用。
  • 百分位數圖(percentile plot)& 經驗累積分布圖(empirical cumlative function,CDF):百分位圖的兩軸分別為百分位值和該百分值時的屬性取值,再直線連接這一系列點形成折線圖,能看出各百分位的屬性取值。經驗累積分布圖表達各屬性值的累積分布概率,橫軸為值的取值范圍,縱軸表達累計概率([0,1]之間)。
  • 散布圖,scatter plot:使用數據對象的兩個屬性值作為坐標軸,每個數據作為平面上的一個點,可以大致看出兩個屬性之間的聯系,或在給出類標號的情況下可以考察兩個屬性將類分開的程度。同時安排所有屬性對的散布圖得到一種散布圖矩陣(scatter plot matrix),可對比觀測出所有屬性對的聯系。當然散布圖還可以拓展為三維散布圖,根據三種屬性的取值情況在空間中繪制數據對象的點。

時間空間數據可視化

  • 等高線圖,contour plot:兩個屬性在指定平面上,第三個屬性具有連續性,如溫度、海拔等,可采用等高線圖。
  • 曲面圖,surface plot:通常描述數學函數或變化相對較為光滑的物理曲面。
  • 矢量場圖,vector field plot:略
  • 低維切片:對于時間空間數據集,可用一組圖對某一維度“切片”,如對時間切片,每一幅圖只展現空間和其他數據信息,而時間維度變化可通過一系列圖的對比變化得出。

高維數據可視化

  • 矩陣:在用矩陣表達多維數據的時候,若給出類標號,則重新排列數據矩陣的次序是有效的。
  • 平行坐標系,parallel coordinates:每個屬性是一個坐標軸,但所有的屬性不正交,而是平行的(類似于直方圖的做法,但粒度和側重不同),對象用線表示。對象每個屬性的值映射到與該屬性關聯的坐標軸上的點,連接這些點,就是該對象的表達。屬性坐標軸的次序對于結論直觀性影響很大
  • 星型坐標和Chernoff臉:略

可視化原則

ACCENT原則,對于可視化方法的選取原則。

  • 理解,apprehension
  • 清晰,clarity
  • 一致,consistency
  • 有效,efficientcy
  • 必要,necessity
  • 真實,truthfulness

OLAP和多維數據分析

OLAP,聯機分析處理,將數據集看做多維數組,每一行表示一個(或一類)對象,每一列是一個屬性。當然可以進行合適的數據聚集等處理。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,443評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,530評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,407評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,981評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,759評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,204評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,263評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,415評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,955評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,650評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,892評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,675評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,967評論 2 374

推薦閱讀更多精彩內容

  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數據庫 運維 其他...
    Helen_Cat閱讀 3,900評論 1 10
  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,785評論 18 139
  • 國家電網公司企業標準(Q/GDW)- 面向對象的用電信息數據交換協議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 11,052評論 6 13
  • 你不主動,我不主動,然后我們的關系就慢慢消失了,人與人之間沒有誰離不開誰,只有誰不珍惜誰,一個轉身,兩個世界。 一...
    一只貓2閱讀 128評論 0 1
  • 如果一天有32個小時, 工作也只是八個小時, 那夢里的時光就會長很多。 每天晚上, 我們都可以一起悠閑的吃個飯, ...
    苦一笑閱讀 301評論 2 3