圖表思維是數據分析思維中的最簡單和最基本的思維,主要是通過圖形和表格對數據進行轉化。
文字有局限
看到這段話,你會想到什么?
這是15年年初的一個新聞,簡單的看上去,短短的一段話包含了太多的信息。關鍵詞包括國民生產總值,增長,季度,一二三產業,單位也包括了絕對值億元,也包括了相對的增長百分比。乍一眼看上去,非常的復雜,如何梳理一下,就會清晰很多。
首先第一句“2014年全年國內生產總值636463億元,按可比價格計算,比上年增長7.4%。” 描繪了14年國內生產總值全年的情況和相對去年的增福,進一步地通過增幅可以知道去年的具體數值。
第二句“分季度看,一季度同比增長7.4%,二季度增長7.5%,三季度增長7.3%,四季度增長7.3%。”這一句描繪了每個季度的增福,可以知道每個季度的增福大致相同,可以說是增長幅度比較穩定,沒有大起大落的情況,另外可以知道一季度增福最高,三四季度略低。
第三句“分產業看,第一產業增加值58332億元,比上年增長4.1%;第二產業增加值271392億元,增長7.3%;第三產業增加值306739億元,增長8.1%。”描繪了每個產業的絕對值和相對的增福。可以換算出前一年的情況。同時能夠進一步知道,三大產業中,第三產業增長最高,第一產業最低。單就產業增加值而言,第三產業最高,而第一產業最低。
簡單的一段話,其實就是對國民生產總值進行拆分和對比,維度圍繞了季節和產業。然后卻因為所有信息都集中在了一起,讓人不能第一眼就明晰邏輯,因此需要換一種方式讓邏輯提現得更清晰。
表格有條理
剛才已經把一段話,按照總體,季度和產業的維度對國內生產總值進行了梳理。當我們把梳理落實在表格中時,邏輯相比文字清晰了很多,看到表格就一目了然地知道各類數據,而不需要再翻來覆去地進行整理和查找。
表格誠然比文字更加的有邏輯,更加的有條理。但是還有一些不夠目了然的地方,比如對于三個產業的增加值而言,不能夠更直觀地反應出其大小關系來。第二產業增加值在國內生產總值中大概占多少,第三產業是第一產業的大概多少倍,都還需要計算,不能一目了然的看出。
圖形含信息
因此還需要有一種更加直觀的方式,體現出數據的邏輯,是其更容易地進行對比和拆分。當表格變成圖形的時候,我們得到的信息清晰了很多。
第一張圖的橫軸是代表產業,柱子代表國民生產總值的增加值,折線代表同比上年增長率。簡單的從圖形上看,就能夠發現第二、三產業的增加值遠遠大于第一產業,這兩個產業在總的國民生產總值中大概占一半的樣子。當然嚴格按比例算的話,還是比一半略少。同時第三產業略大于第二產業。增長率而言,第三產業大概是第一產業兩倍,也比第二產業高一部分。
第二張圖的橫軸代表季度,柱子代表,同比增長,單從數據上看的話,增長率差別不大,當調整坐標軸后,還是能夠更清晰地發現第二季度在增長率的突出。
相對比表格而言,圖形能夠直觀地體現出對象之間的數量關系,非常容易進行對比,誰大誰小一眼就可以從圖形的差別中識別。各種對象也能按照清晰的邏輯體現出拆分關系,對產業拆分,對季度拆分,整體以及部分之間的關系就一眼能夠看出來。相對表格的孤立而言,圖表能夠進行各種組合,通過多種手段進行展現的時候,可能從圖中產生更多的眼神信息出來。
文不如表,表不如圖
在PPT的高手中,中離不開一句話,那就是“文不如表,表不如圖”。這句話的意思就是,用文字表達信息的效果不如表格,用表格表達信息的效果不如圖形。也正因為有這一句話,所以市面上有很多關于圖形化表達的書籍。同樣,對于數據分析而言,這句話也同樣適用。
對文字而言,雖然包含了太多的信息,但是其中的數據卻沒有整理。有的時候,讀上一段話幾遍,也可能依然不能完全明確里面的思想,因此需要進一步的梳理邏輯,對文字本身進行加工處理才能清晰地獲取其中的信息。表格相對文字而言,信息已經經過了整理,整體的邏輯都梳理得更清楚,然而當表格非常復雜的時候,有太多的行和列時,要清晰地對比各個對象之間的關系就比較困難,有時還會因為看錯行列造成誤讀數據的情況發生。進一步地,當數據從表格展示到按照圖形展示時,就清晰了很多,圖形具備直觀地特性,能夠讓人一眼看出其中的關系。
表格化思考和圖形化思考是數據分析中重要的兩種方式。表格化思考,能夠理清各個對象,以及各個對象上面每個指標的數據,同時能夠借助表格計算出各個對象的一些衍生指標,另外也可以借助表格來對數據進行管理,比如哪些對象中存在缺失值,就可以清晰的知道。表格化思考的模式雖然可能讓數據很清晰,但是在一些數量關系上,表格不能快捷的提現。然而借助圖形,信息就更加的清晰,極大極小值一眼能看出,同時異常值也能清晰發覺。
圖形化思考,是將數據放在圖形中進行思考,每個數據在圖形中都有相應的位置,借助相關的位置關系,能夠發現數據的大小,發展趨勢以及結構特征等等。同時也借助圖形化思考的模式,能夠去發現可以進一步拆分和對比的地方。
一題見圖優
這道應用題大家都應該在高中時代有做過類似的題目,其實就是一個數學規劃問題。一個目標函數,另外兩個約束條件分別限制兩種原料的數量和產品的數量。
某公司生產甲、乙兩種桶裝產品.已知生產甲1桶需耗A原料1千克、B原料2千克;生產乙1桶需耗A原料2千克,B原料1千克.每桶甲的利潤是3萬元,每桶乙的利潤是4萬元.要求每天消耗A、B原料都不超過12千克.求公司共可獲得的最大利潤?
按照常規手段的求解如下:
此外,也有圖形方式求解。
在圖形方式中,X和Y軸分別表示甲乙兩種產品的產量。圖中的兩條灰色直線分別表示AB兩種原料的約束條件,即求解的點一定位于兩條直線的左下方。
另外加上甲乙產品不小于0的約束條件,因此最優點一定落在兩條斜線以及X和Y軸圍城的區域內,即圖中藍色的區域。
根據目標函數的斜率,可行的目標函數是一組于約束區域相交平行線,函數的最大值,在最遠離原點的直線上。當函數直線與兩條原料的約束條件交點相交時,此時的目標函數是最大的。
經過對線性函數的求解,可以知道交點在(4,4)最終的結果也和方程的結果相同。
數形結合的思想光芒
數形結合的思想方法是數學中的經典方法,其意義是在數和型之間互相轉化。在數據分析中,數據結合的方法同樣適用。通過圖形來獲取信息,通過數據在來發現方向。
數型結合中包括了對數化形和以型取數兩個方面。
對數化形,是將數據轉換成圖形的模式,通過圖形能夠非常直觀地發現對象集合中間包含的信息,尤其是總體拆分后的數據更加明顯。可以看到對象對比強烈,哪些對象的數據存在異常,以及哪些對象之間存在明顯的相關性。
當通過發現出相關的信息后,就能夠根據實際需要,進一步地發現需要深入分析的地方。這里就到了以型取數的方面,即基于圖形,進一步啟發對比拆分的方向。進一步的分析包含了去選取新的指標,去拆分相應的變量以及將多個變量進行計算去產生衍生的變量等等。
對數化形和以型取數,并不孤立,而是互相循環運行,一步一步地去不斷深入地分析數據,并從中取獲取越來越多的信息。
圖表分析流程
圖表分析和核心是將零散的數據,轉換成表格,然后進一步地轉換成圖形。
首先第一步是整體數據,明確需要的數據以及指標,并在其中明確輸入的格式。就像開篇的案例一樣,從整段文字中,梳理邏輯,然后提取相關的數據。平時的數據工作中可能不會像開篇一樣,需要在文字中提取數據。然而仍然需要明確從哪些取得哪些數據進行分析,明確數據的規模和變量的設置,明確數據的輸入格式,是絕對值還是相對值,是離散值還是連續值,是否是日期值等等。
明確了數據后,就是將數據錄入到表格的公眾。在錄入的過程中,需要將所有的數據進行標準化的處理,即一個字段的格式都是統一的。表格通常以二維表的形式存在,豎列代表字段,橫列代表每一個對象亦或者記錄。當完成表格的導入后,就可以進一步地生產圖形。
生成圖形的過程中,是圍繞分析的目的通過表格構建圖形,目的明確拆分的方向,是在于看對比的角度,即是對比絕對大小,還是對比相互關系,或者是看時間趨勢。明確目的后,就提取相關的變量和數據,構建合適的圖形,進行對比。
與自己比——看差異:折線圖
折線圖是圖形分析中非常常見的圖表,通常用來分析時間發展的趨勢。
在一張折線圖中,通常X軸表示時間,從左往右依次增加,每一格增加一個時間單位。在特殊的情況下,由于時間窗口太長,也存在時間軸上面相鄰的系列點位不等距的情況。
折線圖的Y軸代表具體指標的數值,Y軸越高,表示數值越大,Y軸和X軸的交點是原點,原點中Y軸的單位可以是0,可以是其他數值。在X軸和Y軸的共同作用下來,就能夠描出各個點位,每一個點位都表示不同的時間下面指標的數值。當多個點位標出后,相鄰兩點之間線段相連,就構成一條折線,折線表示了隨著時間的發展,指標呈現出的變化。變化可以呈現多種形態,可以是簡單的上升下降關系,也可以是呈現出波動的關系,甚至可以是在波動中上升下降。
在數據分析中,時間序列分析就會用到折線圖,在時間序列中既有表示趨勢的維度也存在表示波動周期的維度。
從圖上可以知道,在折線圖中可以只有一條折線,即X軸表示時間,Y軸表示GDP數值。此外也可以有兩條及以上的折線,每條折線用不同的形式表示,同時各指標除了有相同的時間點位,指標之間是互相獨立,即多個指標可以有多個Y軸,Y軸的在原點上的數值可以不同,Y軸的點位之間數值間隔也可以不同。如在圖中,藍色折線表示GDP,黃色折線表示GDP增福,其中GDP的Y軸上的刻度單位為絕對值,而GDP增福的Y軸上的刻度單位是以百分比存在的相對值,兩者的數量級都明顯不同。
與別人比——看差異:柱狀圖
折線圖通常是對比恒定對象在不同階段的情況,當對比不同對象的差異時,就可以用到柱狀圖。
柱狀圖與這些圖類似,也是有X軸和Y軸兩個方向,X軸表示對象,而Y軸表示指標大小,而Y軸上指標的大小用柱子的高度表示,Y軸和X軸的交點可以為0,也可以是其他值。
正如第一張圖,分別有兩個對象中國和美國,兩個國家分別在X軸上不同的位置上,兩個國家的的GDP也對應地在圖中按照不同高度的柱子體現出來。可以看到,美國的GDP要高于中國。
當有多個指標出現時,可以在一個對象上用多根柱子來表示,這些指標互相獨立,因此柱子之間也可以有不同的Y軸單位和Y軸原點。正如下圖,兩個對象上面總共有兩個指標進行對比,分別是GDP和GDP增速,兩者的單位都不同一個是絕對值,另外一個是相對值。從圖中可以看到,盡管中國的GDP低于美國,但是其GDP增速遠遠大于美國,GDP增速的之間的差異明顯大于GDP之間的差異。
柱狀圖不僅可以用于離散的指標中,也能夠處理連續數據。當處理連續數據時,需要對連續數據進行分類分組后,相應的區間分組構建柱狀圖。在連續柱狀圖中,X軸表示連續數據的分組,Y軸表示在X軸中相應區間分組中的對象數量。
正如圖中所示,當看到一張各省市GDP的表格時,會給人一種找不到邊際的感覺,然后進一步地對GDP按照1-2萬億,2-3萬億以及3萬億以上分成三組,接下來再對每組中的省份數量進行記數,并根據分組區間中的省份數量構建連續柱狀圖,X軸表示GDP分組區間,Y軸表示每個區間中的省份數量。從連續柱狀圖中可以發現,大多數省份的GDP聚焦在1-2萬億和2-3萬億的區間中。
與別人比——看差異:條形圖
在對象間進行差異對比的圖形中,條形圖也同樣適用。條形圖的形式與柱狀圖相似,只不過X軸和Y軸表示的東西正好相反。在條形圖中,X軸表示指標的數值,而Y軸表示對象。之所以會用到條形圖,是因為條形圖相比柱狀圖而言,可以放置更多的對象,讓更多的對象進行對比。通常柱狀圖適用于7個及以內的對象,而條形圖承載的對象就可以到達二十個甚至更多。
如圖所示,十八個省份的GDP在圖中顯示,其中X軸是GDP數值,而Y軸就是不同的省份,從圖中可以發現,江蘇的GDP最高,遠遠高出周圍的GDP較高省份,山西的GDP最低,但是還是可以周圍的低GDP的身份相差不大。
都能夠比——看結構:圓餅圖
當對比對象的結構時,就需要將對象進行拆分,拆分后可以用柱形圖或者條形圖對比,這種情況可以提現出拆分后的子對象的絕對指標,不過對于相對指標而言,不能更清晰的顯示。需要提現對象相對值比如,所占比例的情況,就可以用到圓餅圖。
在圓餅圖中只有一個指標參與分析,同時這個指標可以根據參與的對象進行拆分,即不同對象的該指標可以進行相加處理。在圓餅圖中,有多少個對象,就可以分成多少個扇區,每個扇區所占圓形角度的比例代表了對象指標在總體中的占比。當指標是相對比值的時候,如果總體指標加總是100%的話,那么每個扇區所占圓形角度的比例即為指標大小。
在圖中將GDP的按照產業拆分,每個產業GDP在總體中的占比不同,用不同的顏色表示了不同的對象。從圖可以知道,第三產業的占比是最大的,而第一產業的占比是最小的。
都能夠比——看結構:累計圖
圓餅圖在一組對象上進行對比,當有多組對象時,可以用累計柱狀圖的形式對比。
累計柱狀圖可以對比一組對象與另外一組數據在結構上的差異,當具有同樣的結構時,能夠體現出各組成部分的比例情況。在累計柱狀圖中,X軸表示不同組別的對象,Y軸表示各組對象中各對象數據在總體上的占比累計起來,Y軸的最大值為100%。
同時,累計條形圖可也進行多組對象在結構上的對比,只不過X軸和Y軸所代表的意義正好同累計柱狀圖相反,X軸對象數據的累計占比,Y軸為不同組別對象。
在圖中,就是在對比05年和14中,每個產業的占比情況,通過把整體CDP拆分,并分年度進行對比,可以發現,相比05年,到14年時第三產業占比增長,第一第二產業占比下降。
復合圖表——多維度對比
前面的圖表中,不論是趨勢,對象差異還是對象結構,對比的都是只有一個方面。很多情況下,在數據分析的對比工作,需要從多個角度來同時對比,這個時候就將多種形式的圖形糅合起來,在一張圖上進行對方面對比。
復合圖形就可以提供這樣的功能,在復合圖表中往往是將多種形式的圖形進行同時展示,如同時展示柱形圖和折線圖,一個在一個尺度展示一組指標,另外一個在另一個尺度上展示一組指標。又如同時展示累計柱形圖和折線圖,累計柱形圖體現對象的結構,折線圖體現出對象的大小。還可以有圓餅圖和累計條形圖進行對比,圓餅圖在整體上分解結構嗎,累計條形圖對其中的一個對象進行進一步拆分。
圖中通過柱狀圖和折線圖來展示國內生產總值的情況,X軸分別表示三個產業以及總體情況,柱狀圖表示國內生產總值的數值,折線圖表示環比增幅。可以發第三產業增幅現最大,在國內生產總值上第二三產業數值相當。
圖表思維總結
數據分析思維中的圖表思維,這也是數據分析思維中最淺顯易懂的。有一個很貼切的說法,就是字不如表,表不如圖。把手邊的數據轉換成表格的形式,雜亂的數據就有了邏輯和相關和層次,盡管清晰度還不夠,但是已經能夠進行解讀。更進一步的把表格轉換成圖形以后,數據之間的大小和關系會突出許多,讓人非常直觀的能夠看出數據之中蘊含的信息。借助圖形能夠非常便捷地進行拆分和對比的工作。
不同的分析目的適用不同的圖形來表達,選擇正確的圖形有助于正確理解和解讀數據。在時間上分析趨勢,通常可以用折線圖。在空間上分析差異,可以用柱狀圖,同時當分析對象過多是條形圖是更好偶的選擇。分析比例上的差異,使用圓餅圖,當碰到多組數據對比結構差異時,累計柱狀圖或者條形圖是非常好的懸著。當多個維度需要分析是,就可以用符合圖表,如用柱狀圖表示絕對值數據,用條形圖表示相對值數據。
圖表一方面可以進行分析,另外一方面也可以進行數據分展示。對數據圖表而言,能夠使用的也不僅僅是上文介紹的,更多的圖形表達方案可以查閱數據可視化的資料,里面的一些復雜圖表會更加生動和清晰。
原文轉發,功德無量!