接一圖勝千言:數(shù)據(jù)可視化不完全總結(jié)(一)繼續(xù)我們的討論。
4.3.3.3 用于查找相關(guān)性
4.3.3.3.1 散點圖
也稱為“點圖”、“散布圖”或“X-Y 點圖”。所謂的散點圖 (Scatterplot) 就是在笛卡爾座標上放置一系列的數(shù)據(jù)點,用來顯示兩個變量的數(shù)值(每個軸上顯示一個變量),并檢測兩個變量之間的關(guān)系或相關(guān)性是否存在。我們可以通過研究散點圖上所顯示的模式,了解數(shù)據(jù)之間的各種相關(guān)性,如正比(數(shù)值一起增加)、反比(其中一個數(shù)值隨著另一數(shù)值的增加而減小)、零(無相關(guān))、線性、指數(shù)級和 U 形。我們也可以通過查看圖上數(shù)據(jù)點的密度來確定相關(guān)性的強度。遠超出一般聚集區(qū)域的數(shù)據(jù)點稱為“異常值”。圖表中可加入直線或曲線(盡可能靠近所有數(shù)據(jù)點)來輔助分析,并顯示當所有數(shù)據(jù)點凝聚成單行時的模樣,通常稱為“最佳擬合線”或“趨勢線”,用來進行估計(通過插值)。如您有一對數(shù)值數(shù)據(jù),可使用散點圖來查看其中一個變量是否在影響著另一個變量。可是請記住,相關(guān)性并非因果關(guān)系,也有可能存在另一個變量在影響著結(jié)果。
4.3.3.3.2 氣泡圖
氣泡圖是一種包含多個變量的圖表,結(jié)合了散布圖和比例面積圖。跟散布圖一樣,氣泡圖使用笛卡爾雙軸座標來繪制數(shù)值點,其中 X 軸和 Y 軸代表不同變量,但與散布圖不同的是,每一點都會獲分配一個標簽或類別(在旁邊或圖例中顯示)。每個數(shù)值點再以其圓形面積表示第三個變量。此外,也可以用顏色來區(qū)分不同類別或表示別的數(shù)據(jù)變量。至于時間方面,可以把它設為其中一條軸的變量,或者把數(shù)據(jù)變量隨時間的變化制成動畫來顯示。通過利用定位和比例,氣泡圖通常用來比較通常用來比較和顯示已標記/已分類圈圓之間的關(guān)系。氣泡圖可用于分析模式/相關(guān)性。可是,過多氣泡會使圖表難以閱讀,因此氣泡圖的數(shù)據(jù)容量有限。我們可以在圖表中加入交互性功能來解決這個問題(點擊或把鼠標懸停在氣泡上以顯示隱藏信息),也可選擇重組或篩選分組類別。跟比例面積圖一樣,圓圈大小需要按照圓的面積來繪制,而非其半徑或直徑。也就是說,圓圈的大小會呈指數(shù)級變化,而且也會導致人類視覺系統(tǒng)出現(xiàn)誤解。
4.3.3.3.3 不等寬柱狀圖
也稱為“馬賽克圖”。不等寬柱狀圖 (Marimekko Chart) 顯示分類數(shù)據(jù)中一對變量之間的關(guān)系,原理類似雙向的 100% 堆疊式條形圖,但其中所有條形在數(shù)值/標尺軸上具有相等長度,并會被劃分成段。只有在不等寬柱狀圖中,兩軸才會同時成為具有刻度的變量,這決定了每個分段的寬度和高度。我們可以通過這兩個變量來檢測類別與其子類別之間的關(guān)系。不等寬柱狀圖的主要缺點在于難以閱讀,特別是當含有大量分段的時候。此外,我們也很難準確地對每個分段進行比較,因為它們并非沿著共同基線排列在一起。因此,不等寬柱狀圖較為適合提供數(shù)據(jù)概覽。
4.3.3.4 層次結(jié)構(gòu)關(guān)系
4.3.3.4.1 圓堆積
也稱為“圓形樹結(jié)構(gòu)圖”。圓堆積 (Circle Packing) 是樹形結(jié)構(gòu)圖的變體,使用圓形(而非矩形)一層又一層地代表整個層次結(jié)構(gòu):樹木的每個分支由一個圓圈表示,而其子分支則以圓圈內(nèi)的圓圈來表示。每個圓形的面積也可用來表示額外任意數(shù)值,如數(shù)量或文件大小。我們也可用顏色將數(shù)據(jù)進行分類,或通過不同色調(diào)表示另一個變量。雖然圓堆積看起來漂亮,但不及樹形結(jié)構(gòu)圖般節(jié)省空間(因為圓圈內(nèi)會有很多空白處),可是它實際上比樹形結(jié)構(gòu)圖更能有效顯示層次結(jié)構(gòu)。
4.3.3.4.2 旭日圖
也稱為“多層餅形圖”或“徑向樹圖”。這種圖表通過一系列的圓環(huán)顯示層次結(jié)構(gòu),再按不同類別節(jié)點進行切割。每個圓環(huán)代表層次結(jié)構(gòu)中的一個級別,中心圓表示根節(jié)點,層次結(jié)構(gòu)從這點往外推移。之后圓環(huán)會按照其與原屬切片的層次關(guān)系再被分割,分割角度可以是均等平分,或者與某個數(shù)值成比例。我們也可以用不同顏色突出顯示層次分組或特定類別。
4.3.3.4.3 樹形圖
也稱為“組織圖”或“鏈路圖”。樹形圖 (Tree Diagram) 是通過樹狀結(jié)構(gòu)表示層次結(jié)構(gòu)的一種方式,其結(jié)構(gòu)通常由沒有上級/父級成員的元素開始(根節(jié)點),然后加入節(jié)點,再用線連在一起,稱為分支,表示成員之間的關(guān)系和連接。最后是枝葉節(jié)點(或稱為末端節(jié)點),是沒有子節(jié)點的成員。
樹形圖通常用于:
- 表示家庭關(guān)系和血統(tǒng)
- 分類學(分類的實踐和科學
- 進化科學(展示物種起源)
- 計算機科學與數(shù)學
- 企業(yè)和組織的管理工具
4.3.3.4.4 樹形結(jié)構(gòu)圖
樹狀結(jié)構(gòu)圖 (Treemap) 是一種利用嵌套式矩形顯示層次結(jié)構(gòu)的方法,同時通過面積大小顯示每個類別的數(shù)量。每個類別會獲分配一個矩形區(qū)域,而其子類別則由嵌套在其中的小矩形代表。當不同數(shù)量被分配到各個類別時,這些矩形的面積大小會與此數(shù)量成正比顯示:小矩形與小矩形之間(部分對部分)及小矩形與大矩形之間(部分對整體)的面積比例。此外,主類別的面積大小是其所有子類別的總和。如果沒有數(shù)量分配給子類別,那么其面積則是主類別的總面積平均除以子類別的數(shù)目。矩形被劃分成子矩形的方式取決于所使用的平鋪算法。在眾多平鋪算法中,最常用的是將每個矩形盡可能保持為正方形的「方格算法」。Ben Shneiderman 最初開發(fā)樹狀結(jié)構(gòu)圖用來在計算機上顯示大量文件目錄,而不會占用太多屏幕空間,因此樹狀結(jié)構(gòu)圖是一種緊湊而且節(jié)省空間的層次結(jié)構(gòu)顯示方式,可讓人快速了解結(jié)構(gòu)。我們也可以通過比較大小來比較類別之間的比例。
4.3.4 概念
4.3.4.1 腦力激蕩圖
腦力激蕩圖(也稱為“心智圖”)將相關(guān)想法、單詞、圖像和概念聯(lián)合在一起。通常用來產(chǎn)生想法、查找關(guān)聯(lián)、分類想法、組織信息、顯示結(jié)構(gòu)和一般學習的有效工具。腦力激蕩圖經(jīng)常在項目初期使用,并作筆記用途。它們也可以用于協(xié)同工作和建設團隊士氣。腦力激蕩圖的結(jié)構(gòu)如下:從中間位置的主類別開始下筆,其他較小的類別從主類別延伸開來成為子類別,這些子類別也可以各自延伸出自己的相關(guān)子類別。
繪制腦力激蕩圖的簡單指引:
- 從頁面中間開始,寫下項目主題/標題,再用任何形狀圈起來(通常是圓圈或云狀)。
- 想想與主題相關(guān)或任何有用/相關(guān)的單詞或類別。
- 然后從中心標題(往任何方向)開始畫線代表每個類別,并在每條線的末端寫下類別名稱。
- 現(xiàn)在想想每個類別有什么相關(guān)單詞,并如上一步般添加子類別。
- 如有需要,可重復第 4 步加入新的子類別或相關(guān)字詞。
4.3.4.2 流程圖
也稱為“流程地圖”、“流程模型”或“工作流程圖”。流程圖 (Flow Chart) 用于顯示流程中的順序步驟,這種圖表使用一系列相互連接的符號繪制出整個過程,使得過程易于理解,并有助于與其他人溝通。流程圖可用于解釋復雜和/或抽象的過程、系統(tǒng)、概念或算法的運作模式。繪制流程圖還可以幫助規(guī)劃和發(fā)展流程,或改進現(xiàn)有的流程圖。不同符號代表不同意思,每種都具有各自的特定形狀。每個步驟的標簽會寫在符號形狀內(nèi);流程圖以弧形矩形表示流程的開始和結(jié)束;線段或箭頭用于顯示從一個步驟到另一個步驟的方向或流程;簡單的指令或動作用矩形來表示,而當需要作出決定時,則使用鉆石形狀。除此之外,流程圖中還可以使用許多其他符號。流程圖可以是水平或垂直。
4.3.4.3 說明圖
說明圖旨在使用筆記、標簽和圖例來解釋說明所顯示的圖像,以便:
- 解釋概念或方法
- 描述物件或場所
- 顯示事情的運作、移動或變化
- 幫助了解所顯示的主題
所使用的圖像可以是插圖、粗略草圖、線框或照片;圖像可以是象征性、圖像化或真實相片。有時會把圖像放大或使用其橫截面,以更深入分析或顯示更多細節(jié)。
4.3.5 地理空間
4.3.5.1 氣泡地圖
在這種數(shù)據(jù)地圖中,指定地理區(qū)域上方會顯示圓形圖案,圓形面積與其在數(shù)據(jù)集中的數(shù)值會成正比。氣泡地圖適合用來比較不同地理區(qū)域之間的比例,而不會受區(qū)域面積的影響(如地區(qū)分布圖。可是,氣泡地圖的主要缺點在于:過大的氣泡可能會與地圖上其他氣泡或區(qū)域出現(xiàn)重迭。
4.3.5.2 地區(qū)分布圖
地區(qū)分布圖通常用來顯示不同地理分區(qū)或區(qū)域(不同顏色或圖案)與數(shù)據(jù)變量之間的關(guān)系,并把所顯示位置的數(shù)值變化或模式進行可視化處理。我們在地圖上每個區(qū)域以不同深淺度的顏色表示數(shù)據(jù)變量,例如從一種顏色漸變成另一種顏色、單色調(diào)漸進、從透明到不透明、從光到暗,甚至動用整個色譜。使用顏色的其中一個缺點是無法準確讀取或比較地圖中的數(shù)值。此外,較大的地區(qū)會比較小區(qū)域更加顯眼,影響讀者對陰影數(shù)值的感知。繪制地區(qū)分布圖時的常見錯誤:對原始數(shù)據(jù)值(例如人口)進行運算,而不是使用歸一化值(例:計算每平方公里的人口)。
4.3.5.3 連接地圖
連接地圖 (Connection Map) 即是用直線或曲線連接地圖上不同地點的一種圖表。雖然連接地圖非常適合用來顯示地理連接和關(guān)系,但我們也可使用單一連接鏈路來顯示地圖路線。此外,通過研究連接地圖上的連接分布或集中程度,我們也可以用它來顯示空間格局。
4.3.5.4 點示地圖
也稱為“點示分布圖”或“點示密度圖”。點示地圖 (Dot Map) 在地理區(qū)域上放置相等大小的圓點,旨在檢測該地域上的空間布局或數(shù)據(jù)分布。共有兩種點示地圖:一對一(每點代表單一計數(shù)或一件物件)和一對多(每點表示一個特定單位,例如 1 點 = 10棵樹)。點示地圖非常適合用來查看物件在某地域內(nèi)的分布狀況和模式,而且容易掌握,能提供數(shù)據(jù)概覽,可是在檢索精確數(shù)值方面表現(xiàn)則不太理想。
4.3.5.5 流向地圖
流向地圖 (Flow Map) 在地圖上顯示信息或物體從一個位置到另一個位置的移動及其數(shù)量,通常用來顯示人物、動物和產(chǎn)品的遷移數(shù)據(jù)。單一流向線所代表的移動規(guī)模或數(shù)量由其粗幼度表示,有助顯示遷移活動的地理分布。流向地圖的繪制方法:從原點出發(fā),再往外繪制「流向線」。箭頭可用于表示方向,或者移動是進入還是外出。不用箭頭則可以用來代表貿(mào)易往來。建議將流向線合并/捆綁在一起并避免彼此交迭,有助減少地圖上的視覺混亂。
4.3.6 分布
4.3.6.1 顯示頻率及數(shù)據(jù)在某時間段內(nèi)的分布或分組狀況
4.3.6.1.1 箱形圖
箱形圖(又稱為“盒須圖”或“箱線圖”)能方便顯示數(shù)字數(shù)據(jù)組的四分位數(shù)。從盒子兩端延伸出來的線條稱為「晶須」(whiskers),用來表示上、下四分位數(shù)以外的變量。異常值 (Outliers) 有時會以與晶須處于同一水平的單一數(shù)據(jù)點表示。這種箱形圖可以垂直或水平的形式出現(xiàn)。箱形圖通常用于描述性統(tǒng)計,是以圖形方式快速查看一個或多個數(shù)據(jù)集的好方法。雖然與直方圖或密度圖相比似乎有點原始,但它們占用較少空間,當要比較很多組或數(shù)據(jù)集之間的分布時便相當有用。
下面是可以從箱形圖得出的觀察結(jié)果:
- 關(guān)鍵數(shù)值,例如平均值、中位數(shù)和上下四分位數(shù)等。
- 任何異常值(以及它們的數(shù)值)。
- 數(shù)據(jù)分布是否對稱。
- 數(shù)據(jù)分組有多緊密。
- 數(shù)據(jù)分布是否出現(xiàn)偏斜(如果是,往什么方向偏斜)。
最常用的兩種箱形圖:可變寬度和帶凹槽的箱形圖。
4.3.6.1.2 密度圖
又稱為“密度曲線圖”。密度圖 (Density Plot) 用于顯示數(shù)據(jù)在連續(xù)時間段內(nèi)的分布狀況。這種圖表是直方圖的變種,使用平滑曲線來繪制數(shù)值水平,從而得出更平滑的分布。密度圖的峰值顯示數(shù)值在該時間段內(nèi)最為高度集中的位置。密度圖其中一個比直方圖優(yōu)勝的地方,是由于它們不受所使用分組數(shù)量(典型直方圖中所使用的條形)的影響,所以能更好地界定分布形狀 。舉個例子,僅用 4 個條形的直方圖所產(chǎn)生的分布形狀,總不及使用 20 個條形的直方圖般容易解讀。然而,密度圖則不會有這種問題。
4.3.6.1.3 直方圖
直方圖適合用來顯示在連續(xù)間隔或特定時間段內(nèi)的數(shù)據(jù)分布,當中每個條形表示每個間隔/時間段中的頻率。直方圖的總面積也相等于數(shù)據(jù)總量。直方圖有助于估計數(shù)值集中位置、上下限值以及確定是否存在差距或異常值;也可粗略顯示概率分布。
4.3.6.1.4 小提琴圖
小提琴圖 (Violin Plot) 用于顯示數(shù)據(jù)分布及其概率密度。這種圖表結(jié)合了箱形圖和密度圖的特征,主要用來顯示數(shù)據(jù)的分布形狀。中間的黑色粗條表示四分位數(shù)范圍,從其延伸的幼細黑線代表 95% 置信區(qū)間,而白點則為中位數(shù)。箱形圖在數(shù)據(jù)顯示方面受到限制,簡單的設計往往隱藏了有關(guān)數(shù)據(jù)分布的重要細節(jié)。例如使用箱形圖時,我們不能了解數(shù)據(jù)分布是雙模還是多模。雖然小提琴圖可以顯示更多詳情,但它們也可能包含較多干擾信息。
4.3.6.2 按人口年齡和性別顯示分布
4.3.6.2.1 人口金字塔
也稱為“年齡性別金字塔”。人口金字塔 (Population Pyramid) 是彼此背靠背的一對直方圖(每邊代表一個性別),顯示所有年齡組和男女人口的分布情況。X 軸表示人口數(shù)量,Y 軸列出年齡組別。人口金字塔最適合用來檢測人口模式的變化或差異。多個人口金字塔放在一起更可用于比較各國或不同群體之間的人口模式。人口金字塔的形狀可以用來理解人口結(jié)構(gòu)。舉個例子,底部較寬、頂部狹窄的金字塔表示該群體具有很高的生育率和死亡率;相反頂部較寬、底部狹窄的金字塔代表出現(xiàn)人口老齡化,而且生育率低。除此之外,人口金字塔也可用來推測人口的未來發(fā)展。如果人口出現(xiàn)老齡化,而且生育率低,最終會導致沒有足夠后代照顧老人的社會問題。其他理論包括「青年膨脹」,即社會存在大量 16-30 歲的青年(特別是男性),容易導致社會動蕩、戰(zhàn)爭和恐怖主義。因此,人口金字塔對生態(tài)學、社會學和經(jīng)濟學等領域都相當有用。
4.3.7 時間維度
4.3.7.1 某時間段內(nèi)的數(shù)據(jù)趨勢或變化
4.3.7.1.1 甘特圖
甘特圖 (Gantt Chart) 通常用作項目管理的組織工具,顯示活動(或任務)列表和持續(xù)時間,也顯示每項活動何時開始和結(jié)束。甘特圖適合用來規(guī)劃和估計整個項目的所需時間,也可顯示相互重迭的活動。我們采用表格來繪制甘特圖:水平行代表活動,垂直列則是時間刻度。每項活動的持續(xù)時間由沿著時間刻度繪制的條形長度來表示。條形的開始位置代表著活動的開始;而條形的結(jié)束位置則是活動結(jié)束之時。我們可使用不同顏色的條形來將活動分類。要顯示活動完成的百分比,我們可以把條形部分填滿、使用不同深淺度或使用不同顏色,來區(qū)分已完成的內(nèi)容和剩下要完成的內(nèi)容。相連的箭頭可用來顯示哪些任務相互依賴,而關(guān)鍵路徑(完成項目必需的關(guān)鍵活動)也可以通過特別箭頭表示。我們也可在甘特圖內(nèi)使用符號來表示各個里程碑,而垂直穿越圖表的線段則是當前日期標記。
4.3.7.1.2 折線圖
折線圖用于在連續(xù)間隔或時間跨度上顯示定量數(shù)值,最常用來顯示趨勢和關(guān)系(與其他折線組合起來)。此外,折線圖也能給出某時間段內(nèi)的“整體概覽”,看看數(shù)據(jù)在這段時間內(nèi)的發(fā)展情況。要繪制折線圖,先在笛卡爾座標上定出數(shù)據(jù)點,然后用直線把這些點連接起來。通常 Y 軸用于定量數(shù)值,而 X 軸則是分類或順序刻度。負值可以顯示在 X 軸下方。
4.3.7.1.3 螺旋圖
也稱為“時間系列螺旋圖”。這種圖表沿阿基米德螺旋線 (Archimedean spiral) 畫上基于時間的數(shù)據(jù)。圖表從螺旋形的中心點開始往外發(fā)展。螺旋圖十分多變,可使用條形、線條或數(shù)據(jù)點,沿著螺旋路徑顯示。螺旋圖很適合用來顯示大型數(shù)據(jù)集,通常顯示長時間段內(nèi)的數(shù)據(jù)趨勢,因此能有效顯示周期性的模式。我們可以將顏色分配給每個時間段以進行區(qū)分,并允許每個時期之間進行一些比較。舉個例子,如果我們要顯示一年中的數(shù)據(jù),可以在圖表上為每個月分配不同顏色。
4.3.7.1.4 量化波形圖
這種圖表是堆疊式面積圖的一種變體,但其數(shù)值并非沿著固定直線軸來繪制,而是圍繞著不斷變化的中心基線。通過使用流動的有機形狀,量化波形圖 (Stream Graph) 可顯示不同類別的數(shù)據(jù)隨著時間的變化,這些有機形狀有點像河流,因此量化波形圖看起來相當美觀。在量化波形圖中,每個波浪的形狀大小都與每個類別中的數(shù)值成比例。與波形圖平行流動的軸用作時間刻度。我們也可以用不同顏色區(qū)分每個類別,或者通過改變色彩來顯示每個類別的附加定量值。量化波形圖很適合用來顯示大容量的數(shù)據(jù)集,以便查找各種不同類別隨著時間推移的趨勢和模式。舉個例子,波浪形狀中的季節(jié)性峰值和谷值可以代表周期性模式。波形圖也可以用來顯示大量資產(chǎn)在一段時間內(nèi)的波動率。量化波形圖的缺點在于它們存在可讀性的問題,當顯示大型數(shù)據(jù)集時,這類圖就特別顯得混亂。具有較小數(shù)值的類別經(jīng)常會被「淹沒」,以讓出空間來顯示具有更大數(shù)值的類別,使我們不能看到所有數(shù)據(jù)。此外,我們也不可能讀取到波形圖中所顯示的精確數(shù)值,因為它們都是由代碼生成的。因此,波形圖還是比較適合不想花太多時間深入解讀圖表和探索數(shù)據(jù)的人,它適合用來顯示一般表面的數(shù)據(jù)趨勢。此外,當他們以互動形式展示時,比靜態(tài)或印刷出來更有效率。
4.3.7.1.5 面積圖
面積圖 (Area Graph) 是折線圖的一種,但線下面的區(qū)域會由顏色或紋理填滿。要繪制面積圖,首先在笛卡兒雙軸座標上標記各個數(shù)據(jù)點,再用線把它們連起來,最后把線下方的空間填滿。跟折線圖一樣,面積圖可顯示某時間段內(nèi)量化數(shù)值的變化和發(fā)展,最常用來顯示趨勢,而非表示具體數(shù)值。其中兩種較常用的面積圖:分組式和堆疊式面積圖。分組式面積圖在相同的零軸開始,而堆疊式面積圖則從先前數(shù)據(jù)系列的最后數(shù)據(jù)點開始。
4.3.7.1.6 堆疊式面積圖
堆疊式面積圖 (Stacked Area Graph) 的原理與簡單面積圖相同,但它能同時顯示多個數(shù)據(jù)系列,每一個系列的開始點是先前數(shù)據(jù)系列的結(jié)束點。整個圖表代表所有數(shù)據(jù)的總和。堆疊式面積圖使用區(qū)域面積來表示整數(shù),因此不適用于負值。總的來說,它們適合用來比較同一間隔內(nèi)多個變量的變化。
3.7.2 顯示某時間段內(nèi)事件的發(fā)生順序
3.7.2.1 日歷
在人類歷史上,我們曾經(jīng)開發(fā)出各種日歷系統(tǒng)作為組織工具,幫助我們提前做好計劃。我們也把日歷當作可視化工具,適用于顯示不同時間段,以及活動事件的組織情況。時間段通常以不同單位顯示,例如日、周、月和年。任何日期就是這個系統(tǒng)中所指定的單一日子。今天我們最常用的日歷形式是公歷,每個月份的月歷由七個垂直列組成(代表每周七天),另有約五至六行以水平方式代表星期。可是,日歷格式并沒有嚴格規(guī)定,所以市面上有各式各樣不同的設計,只要能以時間順序顯示日期或時間單位便可。
3.7.2.2 時間線
時間線 (Timeline) 是以時間順序顯示一系列事件的圖象化方式。某些時間線甚至按時間長度比例繪制,而其他的則只按順序顯示事件。時間線的主要功能是傳達時間相關(guān)信息,用于分析或呈現(xiàn)歷史故事。如果是按比例繪制的時間線,我們可以通過查看不同事件之間的時間間隔,了解事件發(fā)生的時間或即將在何時發(fā)生,從中查找時間段內(nèi)的事件是否遵循任何模式,或者事件在該時間段內(nèi)如何分布。有時時間線會與圖表相互結(jié)合,顯示定量數(shù)據(jù)隨時間的變化。
3.7.2.3 時間表
時間表 (Timetable) 可用作預定事件、任務和行動的引用和管理工具。使用表格按時間順序和/或字母順序組織數(shù)據(jù),能有助用戶快速進行引用。時間表通常用來顯示列車和其他交通工具的到達和離開時間。
4.4 圖表元素
了解了大部分的圖表類型,下面我們來深入研究一下,一個圖表包含的元素:標尺,坐標系,背景信息和視覺編碼。
4.4.1 標尺
標尺一般出現(xiàn)在圖表的坐標軸上,有四類:線性,分類,百分比和對數(shù)。線性標尺最常見,上面刻度的間距處處相等。分類標尺主要用在分類數(shù)據(jù)上,有序分類要對分類標尺做排序,常見的例子有:年齡段,性別和學歷等。百分比標尺是線性標尺的特殊情況,刻度值為百分比,比如上面提到的堆疊式條形圖中就出現(xiàn)過這種標尺。對數(shù)標尺按照對數(shù)化將坐標軸壓縮,適合數(shù)值跨度非常大的場景,或者需要將分布轉(zhuǎn)為正態(tài)分布的場景。
4.4.2 坐標系
從上面對各種圖表的介紹就知道,圖表中最常見的坐標系就是直角坐標系了,其距離的衡量為歐氏距離。而像餅圖,徑向柱圖等,使用的就是極坐標系,距離的衡量為弧度。地理坐標系常出現(xiàn)在各種地理信息圖表中,距離的衡量是經(jīng)緯度。
4.4.3 背景信息
圖表中往往還包含有背景信息,比如圖例,各種主/副標題,坐標軸標簽以及標記的度量單位。
4.4.4 視覺編碼
上面我們說,數(shù)據(jù)可視化就是將數(shù)據(jù)空間映射到圖形空間。這種映射的關(guān)鍵,就是將數(shù)據(jù)的信息用視覺編碼進行表示,七種最常見的視覺編碼有:
- 位置:趨勢規(guī)律和分布規(guī)律,典型例子:散點圖
- 長度:人眼對于長度的感受往往是最準確的,典型例子:條形圖
- 弧度:弧度越大,值越大,典型例子:餅圖
- 方向:坐標系中一個向量的方向
- 面積/體積:面積/體積大則絕對值大
- 形狀:代表不同的類別
- 色彩與飽和度:不同的顏色通常用來表示分類數(shù)據(jù),飽和度越深代表數(shù)值越大
這些視覺編碼到底哪個更有效?已經(jīng)有學者對其進行過研究,上面這個排序就是按有效性從高到低排列的,放心使用吧。
4.5 設計技巧
有一種數(shù)據(jù)可視化的設計技巧叫做pre-attentive processing,即前意識處理。簡單的說就是我們要用醒目的顏色突出數(shù)據(jù),然后淡化其他的元素,并高亮顯示重點的內(nèi)容。一種增強數(shù)據(jù)比較的方法是提升色階的跨度,即根據(jù)要展示的數(shù)據(jù)合理增大標尺跨度,添加添加參考線(建議采用虛線),參考線作為對比基準,可有效增強數(shù)值與基準的比較。這樣的一些可視化增強的設計技巧既減少了讀者理解的步驟,又合理注解引導,提供了背景信息,分析結(jié)論,又補充了必要的統(tǒng)計學概念,比如圖表的解釋,這方面做的比較好的一個案例是Tableau制作的西班牙首都馬德里可視化面板,面板中為不熟悉的讀者給出了人口金字塔圖表的解釋。
另一種系統(tǒng)地衡量可視化圖表效果的公式叫做數(shù)據(jù)墨水比公式(data-ink ratio),定義為用于描述數(shù)據(jù)的墨水量/用于描述所有其他東西的墨水量。這個比值越高,說明圖表中越多的視覺編碼被用于傳遞真正的信息,而不是出現(xiàn)冗余,或者用于描述一些其他的東西。舉個例子,下面這個展示食物熱量的圖表就是一個典型案例。隨隨便便就能找出圖表中的各種問題:毫無意義的紋理背景,加粗顯示的文字和坐標軸,五顏六色的柱狀圖,各種立體陰影效果,重復呈現(xiàn)的信息……很容易讓人產(chǎn)生視覺疲勞。
按照少即是多的原則,對于這樣的圖表我們要進行一步一步的優(yōu)化,清理各種圖表垃圾:去掉了各種紋理背景,去掉了各種坐標軸,直接將數(shù)值顯示在柱狀圖上,然后對文字進行淡化,并用顏色突出顯示我們想要讀者一眼就看到的類別(培根),去掉了一切立體和陰影的效果,最后得到了下面這個圖表:
對比來看,下面這個圖表的數(shù)據(jù)墨水比是不是比上面要高很多?整個圖表傳達的信息也要清晰很多,讀者幾乎花不了什么時間就能看懂要表達的意思,真正做到了圖簡意賅!另一種常見的公式為失真系數(shù)(lie factor),是用圖表中展示的效果大小/數(shù)據(jù)中展示的效果大小得到的,一般在0.95到1.05之間最佳。
五. 敘事結(jié)構(gòu)
一個好的數(shù)據(jù)可視化,不光要把每一個圖表繪制好,還要把所有的圖表以一種適當?shù)姆绞酱饋恚o觀眾講一個故事。也就是說,好的數(shù)據(jù)可視化一定是一個優(yōu)秀的Story Teller。這種串聯(lián)圖表的方式叫做“敘事結(jié)構(gòu)”,有三種常見的數(shù)據(jù)可視化敘事結(jié)構(gòu):作者驅(qū)動型,讀者驅(qū)動型和馬提尼酒杯型。
5.1 作者驅(qū)動型
作者驅(qū)動型的敘事結(jié)構(gòu)有明確的開頭和結(jié)尾,它以一種線性的方式來講故事,讀者沒有多少自由選擇的余地,它的特點是順序嚴謹,信息量大,具有一定的清晰度和速度。閱讀數(shù)據(jù)可視化的方式和順序已經(jīng)被作者預先設定好了,讀者只能按照這一預先設定來進行。一般來說,這類數(shù)據(jù)可視化通過一個播放按鈕或者按順序組織的頁碼標簽,讀者點擊播放或者按順序一頁一頁的顯示,就能按照作者預設的線性化的思路完成對整個數(shù)據(jù)可視化的解讀。比如關(guān)于Facebook IPO這個可視化圖表就是典型的作者驅(qū)動型。通過點擊上面的按鈕,讀者可以像放幻燈片一樣以嚴格的順序閱讀關(guān)于Facebook首次公開募股有關(guān)信息,每個階段都能看到數(shù)據(jù)的延伸和轉(zhuǎn)換。
5.2 讀者驅(qū)動型
反過來,如果數(shù)據(jù)可視化有明確的開頭,但給予讀者很大的自由去探索數(shù)據(jù),與數(shù)據(jù)自由互動,提出問題,探索故事進展并有機會講述自己的發(fā)現(xiàn)。那么這種數(shù)據(jù)可視化就是讀者驅(qū)動型的。Marid In Detail和LinkedIn Top Skills 2016就屬于這種類型的可視化:沒有任何預先的設定,讀者通過自己點擊面板上的可視化元素完成解讀,每個人解讀的方式不一樣,得到的結(jié)論也就豐富多彩,各有千秋。
5.3 馬提尼酒杯型
最后,我們可以把作者驅(qū)動型和讀者驅(qū)動型結(jié)合起來,構(gòu)造更復雜的敘事結(jié)構(gòu),稱為馬提尼酒杯型敘事結(jié)構(gòu),這種敘事結(jié)構(gòu)跟上面兩種一樣,有一個明確的開頭。但首先讀者要沿著作者預設的單一路徑進行閱讀,隨后當這一過程結(jié)束時,讀者會開始他們自己的自由探索,就像下面這個圖展示的一樣:
馬提尼酒杯型敘事結(jié)構(gòu)的一個典型可視化例子是槍擊死亡人數(shù),整個數(shù)據(jù)可視化背景是黑色的,切合主題給人一種很壓抑的感覺。它首先通過動畫的形式給出了1萬多名受害者,并預測了如果沒有遭遇槍擊,他們可能生存的年數(shù)。它使用計數(shù)器計數(shù)了總的人數(shù),和他們被偷走的年歲,這是可視化之初一個明確的敘事(作者驅(qū)動型),如下圖所示:
然后讀者就可以自由的進行探索了,比如將鼠標移到其中一根拋物線上,然后查看某個受害者的信息:
或者查看實際年齡和預測年齡的分布,很明顯看到的是一個嚴重兩極分化的分布:
六. 什么是好的可視化
邁阿密大學教授Alberto Cairo提出,一個好的數(shù)據(jù)信息的表達應該遵循以下5個原則:真實的,有用的,優(yōu)美的,有見地的,和有啟發(fā)性的。
6.1 真實的(Truthful)
第一條原則,你不能欺騙你自己,你是最容易被騙的人。 ——美國物理學家理查德費曼
我們常常容易犯兩個錯誤。一旦有了一個觀點或假設,就會竭盡全力的去尋找能支持這個觀點的證據(jù),卻選擇性的忽視否定這個觀點的證據(jù),又或者當反對觀點出現(xiàn)的時候,我們總會本能的先開始反駁,而不是先考慮其合理性。為了觀點而做的可視化是有偏見的,帶著觀點去解讀可視化同樣也是有偏見的。除非我們能找到一些數(shù)據(jù)來佐證我們的觀點,否則就不能說“我覺得有就是有”,比如如果問你運動員簽了大合同后是否會影響其競技水平?當然不能說我覺得有不少球員簽了大合同后就廢了,然后再找一些例子來佐證這個觀點。而應該是首先明確多大金額的算是大合同,然后把所有簽了這些合同的球員列出來。選擇多個綜合指標去比較這些球員在簽訂合同前后的幾年間的表現(xiàn)。而且還要排除傷病影響的,是否中間更換過球隊,出場時間差別是否過大等等。
6.2 有用的(Functional)
比如問一個問題:這個周末商場促銷的效果如何?如果只是得出結(jié)論促銷過程中銷售額增長了60%,單看是正確的,但是是不是有用呢?其實沒用,而且還有誤導的嫌疑。要做到有用,是不是應該包含銷售額增長來自哪部分商品?是僅僅來自促銷商品?還是也帶動了其他商品的銷售? 周末促銷是不是應該考慮平時的銷售額也是增長的,實際的增長是不是可能沒有60%那么高?在停止促銷后的幾周里,是不是比促銷前的幾周也做到了持續(xù)增長?深入分析并回答了這些問題,我們才應該算是正確回答了“促銷是不是達到了效果?”這個問題,這才算是有用的。
6.3 優(yōu)美的(Beautiful)
數(shù)據(jù)可視化要簡潔明了,關(guān)鍵是要把不包含信息的元素去掉,把信息冗余的部分合并掉,用比較優(yōu)雅的方式表現(xiàn)。數(shù)據(jù)墨水比越高的可視化圖表越優(yōu)美。
6.4 有見地的(Insightful)
信息圖是為了給人閱讀的,要表達出觀點,而不只是給人看看就結(jié)束了。不光要表達出來,而且最好是有意義. 而不是讓人一看,哇好酷炫!卻得不出任何有意義的結(jié)論。當然在重點要表達的地方可以用文字,或者其他特別的方式標注出來,方便聽眾或讀者迅速的提取信息。
6.5 有啟發(fā)性的(Enlightening)
做好了前面的4點,我們的數(shù)據(jù)可視化就是有啟發(fā)性的。通過數(shù)據(jù)可視化,讀者了解了數(shù)據(jù)背后發(fā)生的原因,以及對未來可能產(chǎn)生的影響。以上就是Alberto所說的關(guān)于信息圖的五個原則:真實的,有用的,優(yōu)美的,有見地的,和有啟發(fā)性的。