“人人都是數據分析師”,這句話并不是空穴來風,而是隨著大數據的深入落地,每個產業都會以數據驅動的模式經營。因此,這要求產業中的每個人都必須能夠分析數據。同時,伴隨著技術的發展,也會有很多簡單的工具供大家使用。
當打開招聘網站中數據分析師的崗位介紹時,能夠發現數據分析師的要求離不開做模型、能夠使用分析軟件、統計分析等幾個關鍵詞,一眼看去會給人一種這是一個技術要求很高,對數學要求很高的工作,數據分析很難上手一樣。其實,事實并不是是這樣,盡管數據分析有一些高級的方法和技術,然而每個人依然能夠輕松上手,駕輕就熟地開展數據分析工作。數據分析看起來是件難事,但是只要掌握了數據分析的心法、手法還有利器后,就很容易進入駕馭手邊數據的門檻,并且還有機會步步深入。
數據分析的心法,其實就是指做分析的思想,思想并不像數學證明一樣晦澀難懂,反而更多的是會依靠嘗試。心法之下是手法,手法就是數據分析方法論,有了思想的指引,再加上方法的入手,相信每個人能夠對數據分析學得一招半式。利器就是指分析的工具,有道是“工欲做其事,必先利其器”,掌握了數據分析的工具,能夠更快的得出分析結果,同時也能夠更容易分析維度更多,記錄更長的數據。
心法——做分析的思想
心法是數據分析的基礎,也是對數據分析最精煉和最有高度的總結。做分析的思想,可以一分為三,其一為商業認識,其二為業務理解,其三為分析思路。
從商業認識就可以看出,這里說的數據分析是在商業領域的,相對廣泛的分析場景和分析對象而言,只能算是狹義的數據分析。數據分析不僅僅是用于商業領域,還可以用于其他多個領域,例如生物中的基因檢測,電子信息中的信號檢測等等。當然在這里就以商業為例,來解釋分析的思想。商業認識是在在商業領域中的基本思想,其在管理學和經濟學中都有涉及,例如戰略領域中的SWOT分析,PEST分析,在營銷領域的4P、4C、4R等等。這些商業思想早已成熟,并且在定性的領域得到了廣泛應用和有效性驗證。對數據分析而言,利用商業領域的基本思想的目的和意義就是在于構建分析的邏輯,在的指導下,明確分析什么數據,從哪些角度分析。并且相關理論也在指導應該選取哪些方法來分析。商業思想的價值讓數據分析能夠有一個清晰的路徑,在思想上保證分析流程的效率。
分析思想的第二項是業務理解,業務理解用一句話來解釋就是“無業務不分析”,只有在正確理解了業務的基礎上,才能得到有效和可靠的分析,業務理解包括了理解目標客戶,理解業務流程等等。在數據分析中,只有數字的堆砌是沒有價值的,一定要放到業務環境中去理解。例如一個數字20,這里一點意義都沒有。如果加上一個單位:20噸,其實就是蘊含了重量的信息,然而這個重量的信息依然要放在具體領域去理解。如果在航空領域,可以是20噸的飛機載重重量,這種場景下就有了理解數據的基礎。更進一步的,如果是一架戰斗機的載彈量20噸,在這種情況,更能夠通過這個20噸的載彈量帶來載彈量是大還是小,在領域內排名如何,有無改進空間等等信息。一個數字從加上單位,再進入特定領域,同時更進一步的有特定的對象,這樣一步一步就讓數據能夠帶來越來越多的信息,數據價值的體現也越來越重要。
分析思想的第三項是分析思路,在各個領域中總有各種各樣的分析思路在數據分析中體現,例如層次分析,加權比較,關聯分析,決策樹等等,有些思想簡單,有些的思想非常復雜,然而對所有的數據分析思路而言,可以總結為四個字兩個詞:對比和拆分。對比就是比大小,這是數學最基本的功能:哪個數大哪個數小,哪個數比哪個多幾個,哪個比哪個多百分之多少等等,這些都是比較。而拆分,就是把數據分開了比,是對對比的深化,如像手術刀一樣其剖析分析對象結構,往往更能發現問題所在。
對比和拆分的思路,既可淺顯,簡單的幾個動作就能得出數據價值,也可高深,在對比和拆分思想的基礎上能夠延伸出無數的方法,用于處理各種復雜問題。就對比而言,只要選擇不同的對比對象,就可以產生各種信息。就拆分而言,只要選取不同的維度,就可以發揮不同的作用。
在對比上,可以選取的對象實在太多。首先是和自己比,可以在時間的維度上展開和自己的對比,例如對比過去和現在的情況。我們時常能在新聞中看到這樣的報道,當前的經濟相比改革開放初期增長了多少,GDP要在21世紀比1980年翻兩翻等等。其實這些都是通過對比不同時代的中國經濟數據,以展現出改革開放取得的成果。其次可以把自己和別人展開對比,這種方式在對標競爭對手的過程中常常看見。比如兩家公司的在年報發布以后,就可以對比在銷售收入和利潤上的差異,各個經濟指標一經比較,頓時高下立見。放大對比,是將自己和更大的宏觀對象進行比較,比如對比一家公司和整個行業的情況,通過比較諸如某公司銷售利潤和行業平均利潤的方式,頓時就能夠知道這家公司在行業內部經營如何,是靠前還是靠后,還有沒有上升空間等等信息。縮小對比,是將自身和更微觀的對象進行比較,與一家公司對比整個行業相反,可以將這家公司的經營情況和其下屬子公司甚至部門一一進行比較,這樣就知道了哪些子公司的產生巨大貢獻,哪些子公司還在拖后腿。在有了如下信息的基礎上,就可以決策到底應該對優勢子公司加大投入,還是對落后子公司進行裁撤。對比的思想不會僅僅只有自身、他人、放大和縮小四種情況,只要是平常能夠想到的,都可以通過對比相關數據后,得出有價值的信息。
拆分是對比的擴展和延伸,也是數據分析邏輯展開的重要部分。通過對數據的拆分,能夠將分析的對象一步步細化,在抽絲剝繭中獲取有價值的發現。例如可以把一個數據拆分成不同的對象,例如全國的GDP就可以拆分成為不同的省市,再通過不同省市間的對比,一下子就知道哪些省市領先哪些省市落后。又如在新聞中常說的房地產對GDP的貢獻是多少,其實也是將全國的GDP按照產業進行拆分,然后得出的房地產對GDP的貢獻。同時拆分可以分時間進行拆分,把一年分成12個月,通過月度的拆分就可能看到一年期間每個月的數據變化。例如在天氣預報上常常看見1月降雨量和7月降雨量兩個指標,這兩個指標就揭示了一年中降雨最少的時候和最多的時候有多少,這個按月對全年降雨量的拆分方式就會比單單一個全年降雨量數據帶來更多信息。此外,還可以按照相關的指標進行拆分,通常這些指標都有一定的邏輯關系,能夠通過對指標的展開揭示出更多的信息。例如對利潤可以通過公式“利潤=收入-成本”的方式進行拆分,這樣一下子就知道收入和成本的利潤的影響程度。又例如對路程按照“距離=時間*速度”進行拆分,就能夠知道移動的距離更多來源于速度快還是時間長。拆分的思路,也同對比的一樣,不僅僅局限于對象、時間和指標,只要在邏輯上能夠展開,都能夠進行拆分。
對比和拆分的思路可以同時應用,這樣可以帶來更多的價值。例如在對比兩家公司的利潤時,就可以將兩家的利潤拆分成收入和成本,就能夠在利潤的基礎上,對比出兩家公司的收入和成本哪個更具備優勢。又例如在對比一家公司兩年的收入情況時,就可以將兩年的收入分別拆分成12月的情況,這樣分月對比,可以帶來收入是否具有周期性,以及收入的變化是否具有穩定性等等諸多信息。
對比和拆分是數據分析的基本思路,基于這兩個思路,可以衍生出更多的方法,往往對數據的金礦挖掘,就是從對比和拆分中開啟的。
手法——數據分析方法論
數據分析的手法是指數據分析方法論,即實施數據分析的通用方法。在數據分析中,有一套嚴格的分析流程,任何一個分析項目或者任何一項分析工作就都是圍繞這個流程展開的。
數據分析的總體流程的一條主線依次是:確定分析目標、業務理解,數據提取,數據整理,數據分析和結果展現,另外在數據提取的步驟以前,還會經歷數據采集和數據儲存的過程。
從整個流程可以看出,數據分析的起點是在分析目標上,而并非數據本身,這也說明了數據分析并不是以數據為導向的,反而是以業務為導向的。數據分析的流程是以確定分析目標開始的,其目的就于明確分析的目的、對象和邊界。只要有數據確實可以帶來許多的信息,依次也更需要把問題聚焦,明確通過數據分析,需要去解決什么問題。對一家公司而言,分析其成本對利潤的影響還是銷售對收入的影響都是不同的命題。因而只有確定了要分析的問題,才會去安排后續的工作。
業務理解是將確定了的分析問題落地的過程,這里其實就是要將業務問題轉換成數學問題,把業務的各個環節抽離出來,通過定量的方式來表現和構架。這句話看起來很抽象,也很復雜,其實簡單的來說,就是明確通過分析哪些數據來得到結果,以及明確所分析數據之間的邏輯關系。在業務理解中會確定分析思路,從中明確將那些定性的工具按照定量的方式來使用,明確要對比那些數據,明確要從哪些維度上面將數據進行拆分。因為,業務理解是數據分析的關鍵步驟之一,也是數據分析工作的中樞,數據分析的是否具有嚴密的邏輯,是否能夠深入都是來自于對業務理解程度上。例如分析一家公司的盈利情況,就需要在業務理論的環節中,考慮應該按年進行拆分還是按月進行拆分,是重點看收入還是重點看成本,是否要分產品形態和業務板塊來進行拆分。在業務理解的環節中,只有數據分析的能力是不夠的,還必須要能夠理解業務,要明白應該從哪些方向去拆分數據,從哪些方向去構建分析的過程,還有從哪些維度去解讀數據。
數據提取就是指把在業務理解中明確要分析的數據提取出來,這里的數據有可能是企業內部數據庫已經儲存好的二手數據,在后面經過加工后,就可以直接使用。另外也有可能是當前企業還不具備這些數據,需要從企業內外部去獲取。因此這里就是涉及到了數據采集,自己去獲取一手數據,在獲取一手數據以后,需要將按照相關標準的形式儲存下來,因此也涉及到了數據儲存。
數據整理是對數據加工的工程,即將原始數據提取出來后,形成可以供分析標準形式,為后續的數據分析打造基礎。數據分析是從數據中獲取信息的過程,在數據分析的過程就是實施對比和拆分的過程。通過對比和拆分,從數據中提取出信息,并進行解讀。數據分析既可以是簡單的計算,也可以進一步地使用統計學、數據挖掘、機器學習甚至深度學習的相關算法和工具,這些都取決于對分析的精度、方法的要求以及所分析數據的復雜程度。
結果展現是把數據分析的結果通過圖表化的方式展現。通過圖表,使人看到的不是冰冷的數字,而是生動的圖表,這樣更容易理解數據呈現的信息。
在數據分析的流程中,分析目標和業務理解是由業務驅動的,考察的是對問題背景的認識和解決問題的邏輯。而其他的部分則是更多地由數據驅動,考察著數據分析的方法和技術。在著重考察數據分析方法和技術的步驟中,數據采集、數據整理、數據分析和結果展現是比較關鍵的幾個步驟。
數據采集是獲取數據的過程,也是整個數據分析過程中輸入的源頭,如果沒有數據就一切無從談起。數據的來源可以有很多,最簡單的就是手工記錄,不論是遠古時期的結繩記事還是選舉時畫“正”字,都是屬于手工記錄。有時我們會在大街上偶遇手持調查表的調查人員,還有我們在辦理銀行卡時填的表單也都是屬于手工記錄,只不過當完成了手工記錄的步驟后,還需要通過電腦或者其他終端的形式,錄入到系統中去。手工記錄是一種低效而且容易出錯的方式,對于產生大量數據的環節來說,這并不是最好的方法。因此,也會在產生數據的環節中,采取由系統自動記錄的方式采集數據:每個人每個月的通話清單就是由電信運營商的系統自動記錄的,還有每個人上網的每個點擊和瀏覽的動作也會被記錄在相關網站后臺和自身電腦的網絡日志中。自動獲取數據的還可以通過網絡爬蟲的模式,即編寫一個代碼,讓機器模擬成人一樣,去訪問各個網站,同時記錄網站上面的信息。爬蟲具備適用范圍廣以及效率高的特點,所以深受數據采集人員的喜愛。在數據采集環節中,除了自己去獲取數據外,還可以通過對外購買和交換數據的方式,如貴陽大數據交易中心就在提供購買和交換數據的服務。
數據整理是數據分析前的重要準備環節,其目的主要是把數據按照相應的字段整理成可供分析的標準格式。由于數據采集和記錄過程中有可能會存在部分質量問題,因此需要對數據按照質量進行規范化的操作,這里包括了處理缺失值,即對數據缺失的部分是考慮剔除還是用其他值來代替;處理錯誤值,對明顯錯誤的數據如何處理,比如個人存款存在負數的情況,是看調整為零還是剔除處理;處理異常值,即一些過大或者過大的數值應該如何處理,例如針對一個人行走的速度是70km/h的數據,需要考慮是否調整為7km/h。除了處理數值以外,在數據整理中還需要考慮變量的問題,一方面由于原始數據中維度太多,不一定全部進入數據分析環節,因此需要考慮選取哪些變量進行分析。另外一方面,也有所需要的數據要通過對原始數據中變量進行計算產生的情況,因此會涉及到對衍生變量的計算。當原始數據中只有時間和距離的變量,同時需要速度的數據時,就要通過“速度=距離/時間”的公式計算速度這個衍生變量。
在對數據完成了整理工作后,就進入了數據分析環節。數據分析就是通過數學模型對數據進行拆分和對比的過程,這也是整個數據分析總體流程中的核心環節。數據分析的過程中,分析模型可以很簡單,簡單的拆分和對比就能夠得出結論。同時,模型也可以特別復雜,需要花費大量的計算資源。通常來說,分析模型有三種類型,首先是描述統計,例如計算平均值、中位數、方差、分位點等等。稍微復雜一點,會涉及到統計學更高級的部分,即探索性分析,例如假設檢驗、方差分析等等。更進一步地,就會用到數據挖掘的相關技術和方法了,包括決策樹分類、回歸分析、聚類分析,關聯分析等等工具,當然還有更復雜的使用深度學習技術。對于模型的復雜程度的選擇,取決于問題本身的復雜程度和數據本身的復雜程度。
結果展現是對數據分析結果按照相關的圖表進行展示。數據分析的結果往往也是數據,因此用圖表展示數據,有更好的可讀性和可理解性。圖表也是一個拆分對比的過程,在拆分對比中可以分為絕對比較,相對比較和綜合比較三種模式。絕對比較是直接比較數字的數值大小,通常使用條形圖,直方圖和折線圖可以清晰地反映出各部分大小和趨勢。相對比較是比較數據的相對大小情況,例如圓餅圖就可能展示出在一個總體中,各個分類所占的比例。綜合比較,會從多個角度同時來對數據進行比較,比如蛛網圖就可以在多個指標上面同時對比多個維度進行絕對或相對比較,又如氣泡圖可以從3-4個維度上對比多組數據,即按照X軸,Y軸,氣泡大小,顏色深度的形式體現出數據差異。結果展現是對數據藝術化的表現,并不拘泥于一種圖表,往往會有各種生動的數據可視化形式,當前常見的信息圖就是其中的有效又美觀的展現方式。
利器——分析工具
對數據分析而言,有了思想和方法就基本具備了通過分析數據并從中解決問題的能力。在這個基礎上,掌握好數據分析的相關分析工具,就能夠更高效地分析數量更大的數據,從而快速提升數據分析的效率和體量。數據分析工具是專門用戶分析數據的軟件,也被稱為數據分析的利器,這是因為機器的計算能力遠遠大于手工計算,借助機器,可以實現對多維度、體量數據的快速計算。在有了正確的思想指導和方法準備的基礎上,諸多復雜問題都可以在分析軟件的協助下,迎刃而解。
當前市面上有眾多的數據分析軟件,從任何電腦都能用的單價計算到需要借助聯機處理的分布式處理平臺都有覆蓋。簡單地說,數據分析最普遍和最基礎的軟件就是電子表格,其代表性的就微軟OFFICE套件中EXCEL。EXCEL在每臺電腦上都能夠使用,可以勝任平常人使用的數據分析任務,再加上有諸多的擴展功能,也會有各種各樣的使用場景,因此這被稱為數據分析的第一神器。市場上除了微軟外,還有諸多的廠商出品類似EXCEL的電子表格工具,而且許多都是開源和免費的,因此對電子表格軟件而言,每個人的獲取成本的都可以為零。
EXCEL是通常用于數據分析的辦公軟件,并不是專門的數據分析軟件。對數據分析而言,專業的軟件有很多,首先是IBM的SPSS軟件,SPSS包括了SPSS統計和SPSS MODELER,兩種軟件都就具有平緩的學習曲線,因此也是屬于數據分析的入門級軟件。
再向上是諸如SAS,MATALAB,PYTHON,R等專業軟件,能夠熟練使用其中一種軟件是當前對數據分析師的專業要求,因此在絕大多數數據分析師的招聘啟事中,都有這些的軟件要求。
對單機分析而言,除了使用數據分析專業軟件,還可以使用例如C語言,JAVA等編程語言。這些語言很多情況是開發人員用于把相關數據分析的算法和過程,嵌入到軟件和系統中去。當然使用這類語言進行數據分析對編程的要求更高,因此又被稱為數據分析的掃地僧級工具。
除了單機分析外,還可以進行聯機分析,即多臺機器同時承擔一項分析任務,當前最熱門的分布式計算就是數據聯機分析的范疇。對聯機分析而言,就需要搭建相關的高速平臺來實現。例如HADOOP就是現在常用的分布式計算架構,SPARK是高效的分布式數據分析引擎。
各種數據分析軟件對數據的處理能力都不一樣,其功能也各有千秋。
對數據分析的第一神器EXCEL來說,其主要用于處理1萬-10萬條內的數據。03版本的EXCEL能夠處理6萬多條數據,在07版本以后,EXCEL能夠處理上百萬條數據,但是由于計算性能的原因,通常EXCEL處理的數據更多在10萬條以內。Excel功能強大,在數據有限的情況下,幾乎可以替代任何分析軟件。
首先EXCEL具有非常強大的數據采集功能,除了對數據手工錄入和復制粘貼外,EXCEL能夠從網頁中的數據表格按照原格式采集。同時EXCEL能導入文本文件,因此在數據分析中常用的csv文件就能夠導入進EXCEL,同時EXCEL還支持SQL語句從數據庫中導入數據。總之常見的數據格式,都能夠導入進EXCEL中去。
同時,EXCEL的運算功能非常強大,對于EXCEL自身而言,就有大量的函數可以進行數學運算,從統計到三角函數,從科學計算再到財務計算都有覆蓋。利用EXCEL函數,也能夠實現數據的快速匹配和查找功能。在EXCEL的運算功能中,可以利用VBA編寫相關的宏代碼,這讓相關的算法都能夠嵌入到EXCEL中去。因此,借助VBA,EXCEL能夠實現任何計算。
EXCEL還具備數據鉆取功能。數據透視表是EXCEL中一個非常實用的工具,透視能夠讓EXCEL將一張二維表格,按照不同的變量從多個角度來構建想要匯總表格,同時還能夠實現指標之間的計算。因此,借助數據透視表,分析數據時,能夠很方便地從多個維度來拆分數據進行對比。
另外,EXCEL還有極其高效的數據展現功能,EXCEL自身就帶有大量的圖表,其包括了折線圖,直方圖,餅圖等等基礎圖表,以及氣泡圖、蛛網圖等復合圖表。加上還支持多個圖表之間的組合,因而EXCEL能夠做出各式各樣既能夠準確表明數據同時又很美觀的數據圖表,如風車圖、南丁格爾圖等等。在當前最熱門的信息圖的繪制,都可以通過EXCEL來完成。還有在最新的EXCEL中,已經能夠導入地理信息,這讓數據地圖能夠在EXCEL中實現。
EXCEL是辦公軟件,由于其具有良好的數據處理和計算功能,所以常被在數據分析中使用。對于數據分析,還有一些專業的軟件和工具可供使用,這些軟件和工具功能更強大,因此也可以算作是數據分析的高級武器。
在眾多的高級武器中,IBM的SPSS具備操作簡便容易學習的特性,算是入門級軟件。相比其他分析軟件而言,SPSS是圖形化界面,可以像excel一樣,直接通過菜單操作,而不需要編寫代碼。比EXCEL更高級的是,SPSS除了可以使用描述性統計外,還能便捷地使用驗證性統計和探索性統計,進一步地,在SPSS MODELER中能夠實施數據挖掘。SPSS還具備代碼功能,因此對于數據分析具有較高的拓展性和自主性。
SPSS具有易操作,能分析的優良的特性,但是對于大規模多維度的數據分析,就需要用更專業的數據分析軟件,例如當前市面上常見SAS、MATLAB、PYTHON和R等分析軟件。同時,這些也是較主流的分析軟件。與EXCEL和SPSS不同的是,這類軟件需要通過代碼來完成數據分析的操作,因而這在一定程度上也能夠作為編程軟件來使用。這些軟件數據處理能力強大,處理的數據能夠達到上億條,數據的大小能夠達到GB級。此外,這類軟件能夠以通過表格的方式展示數據,便于使用者隨便查看正在處理的數據的情況。
在數據分析中,還有用到C語言,JAVA等專業編程語言的情況。這些編程語言,往往是在相關的軟件和系統中,將數據分析的相關算法進行嵌入和封裝,其目的是讓軟件和系統實現數據分析的功能。這類軟件在數據分析領域中的使用,更依賴于前期對數據分析算法的邏輯的正確梳理以及對環境中數據結構的正確對接。在當前的數據分析招聘啟示中,能夠時常看到對C和JAVA的要求,這些都說明了在軟件的開發工作中,數據分析的重要作用。
SPARK,HADOOP是當前主流的大數據處理和平臺和引擎,其能夠處理的數據量已經能夠到達PB級甚至更高。通過并行計算的機制,即多臺機器同時處理數據,能夠實現對大量數據的高速分析。同時,他們也具備多種語言的接口,這使其處理的數據能夠在JAVA等編程語言以及R等專業分析軟件被調用,因而極大地擴展了大數據處理的范圍和場景。
在對數據分析工具的而言,從簡單易用的EXCEL到復雜而功能強大的大數據分析平臺都有覆蓋,對于大多數人來說,EXCEL就已經足夠,如果還有更高的數據分析要求,就可以切換到其他更高級的工具上去,讓更專業的人員來完成相應的分析工作。
數據分析之三重境界
數據分析的軟件和工具其實就是用于處理和分析數據的神兵利器,是每個要分析數據的人都需要能夠使用的。對于這些軟件的使用,可深可淺,只要能夠解決問題就行。不過,伴隨著軟件技能的提升,能夠處理問題的復雜度和數據的復雜度也會相應提升。
對于數據分析,共有三重境界,第一重:眼中有表,心中沒表,第二重:眼中有表,心中有表,第三重:眼中沒表,心中有表。每一重境界,都含有“表”字,其實這也說明了,這些軟件都是把數據進行表格化的操作和處理。基本在每個軟件中,數據都是以二維表的形式存在,每一列代表不同的變量即不同的維度,而每一行代表不同的記錄即每一條記錄了各個維度數據的個體。就這樣,在行列之間,各種運算和轉換,最終實現了數據分析的功能。
首先對第一重境界眼中有表,心中沒表而言,主要是指對數據的基本操作,這些操作都是EXCEL的基本應用,像一些基本的函數計算,例如求和、求平均值等等,以及對數據用簡單的圖表進行展示。在這重境界中,操作只是集中在眼前表格上,不會有更多的變換和更深層次的結果輸出。在日常的工作中,這種境界的操作非常常見,比如計算一個班的一門學科的平均分,只需要把一張記錄了這個班學生和單科成績的二維表,對這表所有成績求和后除以人數就能得出結果,因此也不需要更多的表格介入進來。
對第二重境界眼中有表,心中有表而言,操作的復雜程度和難度都遠遠高于第一重,在EXCEL中是對透視表的操作,能夠通過各種維度靈活分解和匯總數據,以及能夠從多個表格中把數據鏈接到一起,這種技術在數據庫的操作中也非常常見。在這重境界與前一重境界不同于心,盡管眼前的表還是簡簡單單的一張數據表了,但是心中卻不僅僅是這張表,各種表格存在于心,可以依照心中表格對眼前的表格進行各種轉換和改造,既可以以當前這張數據表為載體,從多個維度來展示數據,也可以以這張表為核心,匹配其他表格中的數據,以擴展本表的信息,總之只要數據足夠,各種花樣都能夠玩出來。還是以學生成績為例,一張表包含了學生的姓名,性別、年級、班級,性別,考試科目,成績等等數據。在第一重層的境界中,只能對所有成績進行平均以及求和等操作。然而在第二重境界中,就能夠按照班級、性別、年級、科目等對考試成績分類求平均值,同時能夠從不同的維度交叉展示,如展示各班分性別展示,各年級分科目展示等等。同時在取得了不同時間的成績表格后,也能夠把個張成績表上都存在學生單獨提出來,在原有維度數據的基礎上再匹配出包含時間的新表出來,這樣就可以進一步地分時間來展示數據了。
第三重境界是眼中沒表,心中有表,這一重境界較前一重不同在“眼”,前兩重的境界還需要看著表進行操作,而在這一重境界中則已經脫離了眼前的表格,可以不看表就能處理數據,因而這一重境界也是走向更高水平必須經歷的環節,也是成為高手必須到達的階梯。達到了這一重境界,數據分析的操作能夠擺脫EXCEL,使用功能更強大的諸如R、SAS等工具上,通過代碼實現EXCEL中對數據的操作。更進一步地,在使用諸如Hadoop等大數據工具上,都需要達到這種境界,將心中需要呈現的表格,通過代碼進行實現。第三重境界,重點在心,與前兩重相比,需要更高的結構化思維和整體思維,才能準確地把腦海中構想的表格,在工具中實現。
數據分析的三重境界,表面上看是對不同軟件應用熟悉程度的區別,而在背后是對數據分析思想的理解以及對數據分析方法的掌握。軟件操作學會容易,然后對分析思想和分析方法就需要長期的積累和沉淀。其實,數據分析工作就像睡蓮,做出的成果都是浮在水面上的看得到的花朵,而決定花朵是否燦爛的,還是取決于水下的根基和吸取的養分,根基和養分其實就是思想的參悟、方法的理解以及工具的熟練,這些不在一時之快,而在日積月累。
總而言之,數據分析,人可皆會,心之不同里,境界不同,百般變化,在乎一心。
原文轉發,功德無量!