《深入淺出數據分析》,輕松入門數據分析!

如今,數據分析在各行各業中都扮演著非常重要的角色。工作的需要使得很多小白開始自學數據分析了!其實數據分析不像很多人想的那樣高深莫測,留心工作,處處有數據,處處有分析!

如果你是想要入門數據分析的小白,很推薦豆瓣高分入門書籍《深入淺出數據分析》。這本書用職場中常見的場景,來表達什么是數據分析,如何做分析,以及好用的分析工具。這本書對小白非常友好,簡單易懂,大多是用插畫、圖表等形式表達要點。

二刷這本書,深受啟發,梳理了這本書的精要內容,在這里分享給大家,希望大家能快速入門!

第1章:數據分析引言-分解數據

數據分析流程圖

1. 數據分析流程

1)確定:通過與客戶溝通,確定問題

2)分解:將問題劃分為可管理、可解決的組塊

3)評估:評估分解組塊的關鍵就是比較

4)決策:將分析形成報表,供制定決策

2. 反思心智模型,開始新一輪分析

分析過程中的錯誤或不完整信息,會導致決策失誤。而這些信息是源于個人對外界的假設和確信的觀點,也就是心智模型。因此,需要盡量明確你的心智模型,仔細斟酌各類影響因素。更重要的是,要基于數據得出觀點,而不是個人猜想。在進一步明確數據和信息后,可以按照上述的數據分析流程開始新一輪的分析啦!

第2章:實驗-檢驗你的理論

咖啡銷量下滑原因及應對策略分析

1. 咖啡銷量下滑原因分析

1)提出問題:在過去半年里,星巴仕銷量持續下降,原因是什么????

2)數據來源:市場客戶調查,邀請客戶對影響銷量的五個因素(選址、咖啡溫度、員工熱情、咖啡價值、偏愛去處)進行打分。

3)數據分析:利用比較法得出,咖啡價值得分一落千丈!

4)得出結論:咖啡價值的下降導致銷量下降。

問題來了!Soho區是一個富人區,區經理認為這里沒有人認為星巴仕缺乏價值。哪里出現了問題?是觀察分析法中的混雜因素!

混雜因素就是研究對象的個人差異,它們不是你試圖進行比較的因素,但會導致分析結果的敏感性變差。本例中的混雜因素是店址。也就說,不同店址客戶對五因素的評分傾向是不同的,比如Soho富人區的咖啡價值得分明顯高于其他區域。因此,要分區域來重新審視數據,發現東岸區的價值感得分最低,Soho區則一切正常,其他區域在一定范圍內波動。現在最重要的問題是,采取哪種策略能夠有效提高銷量?記得采用控制變量法,排除混雜因素!

2. 咖啡銷量下滑策略分析

1)目的:驗證哪種策略最有效,策略一為降價,策略二為游說顧客“星巴仕很有價值”;

2)分組:將大的地理區域分成小的地理區域,隨機將這些微區域分成控制組和實驗組;

3)實驗:控制組維持現狀一個月,實驗組1降價一個月,實驗組2游說顧客一個月;

4)結果:控制組與實驗組1的營業收入持平,實驗組2的收入立即上升。

第3章:最優化-尋找最大值

1. 利潤最大化問題

我們的橡膠夠生產500只橡皮鴨或400條橡皮魚,我們的時間夠用來生產400只橡皮鴨或300條橡皮魚。如果想讓產品在下個月上架銷售,我們的產量都不會高于400只橡皮鴨和300條橡皮魚。每只橡皮鴨的利潤是5美元,每條橡皮魚的利潤是4美元,求如何安排橡皮鴨和橡皮魚的產量才能使得利潤最高?

解:設橡皮鴨數量為X只,橡皮魚數量為Y條

目標函數:Z=5X+4Y

約束條件:X≤400,Y≤300, 0.8X+Y≤400

求解工具:Excel的求解器(solver)

2. 按照分析目標校正假設

上述的利潤最大化問題分析看似完整,但實際利潤卻跌穿地板!由于其約束條件對實際情況進行了簡化,當缺失某一個重要的假設條件,分析結果就可能毀掉。而上述問題恰好忽略了人們的需求偏好,導致分析結果不盡人意。

現在,觀察近年來橡皮鴨和橡皮魚的銷量情況,發現橡皮魚的銷量一般不超過50條。在完善約束條件后,重新求得最優解。

第4章:數據圖形化-圖形讓你更精明

1) 畫圖前提:準備數據,若數據過于龐雜,只須記住目標,目光停留在和目標有關的數據上,無視其他。

2) 畫圖目的:數據圖形化的根本在于正確比較,其意義在于圖片中隱含的數據,而不是炫目的設計。

3) 畫圖進階:圖形多元化,優秀的圖形都是多元圖形,即對3個以上的變量進行比較。

4) 畫圖工具:R

第5章:假設檢驗-假設并非如此

1. 問題

電膚公司是一家手機“皮膚”制造商。手機巨頭Podphone公司即將發布一款手機,時間待定。電膚公司必須在手機發布前的一個月開始生產手機皮膚,才能趕上手機銷售的第一波。當前的任務是電膚公司何時生產新手機皮膚?

2. 搜集證據

通過搜集產品發布信息,梳理這些信息中體現的變量關系,分為正相關和負相關關系。

信息中的變量關系

3. 提出假設

新產品發布假設

4. 假設檢驗

1)假設檢驗的核心是證偽,即剔除無法證實的假設,排除錯誤假設。

根據資料可排除1和假設5

2)對于假設2-4,借助診斷法找出否定性最小的假設,判定哪個假設最強。

基于診斷法的假設判定

得出假設3為最強假設

3)新證據來了:Podphone公司召開了新手機打樣慶祝會,新證據使得假設2變為最強假設!

4)根據最新分析結果采取行動吧!

第6章:貝葉斯統計-穿越第一關

1. 條件概率與貝葉斯規則—蜥蜴流感病毒案例

研究表明總人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感,試驗結果為陽性的概率為90%,若某人未患蜥蜴流感,試驗結果為陽性的概率為9%。假定以1000人為基礎進行計算:

蜥蜴流感病毒案例分析

2. 回憶貝葉斯公式P(B_i/A)=P(B_i)P(A/B_i)/\sum\nolimits_{j=1}^n P(B_j )P(A/B_j)

這個公式看似復雜,但在實際應用中,n一般為2,也就是說把B劃分為正反兩面,情況就簡化很多了。另一方面,要熟記一個公式:P(B/A)=P(AB)/P(A),這個條件概率公式簡單好記,應用廣泛,且有助于理解貝葉斯公式!

條件概率形象化

第7章:主觀概率-信念數字化

信念數字化與圖形化

1. 問題

投資公司的分析師們對投資計劃的分歧很大,分歧主要體現在六個方面:(1)俄羅斯下一季是否會補貼石油業?2)俄羅斯是否會收購歐航航空公司?3)越南今年是否會減稅?4)越南今年是否會鼓勵外國投資?5)印尼旅游業今年是否會翻身?6)印尼政府是否會投資生態旅游?

分析師們對這六個方面的判斷不同,眾說紛紜,爭論越發激烈。他們對這六個假設的用詞有:可能,極不可能,可能性更大,有可能,可能不,不可能。。。如何讓概率用詞更精確?分析師們的觀點是否真的差異巨大?

2. 用主觀概率體現信念

主觀概率是指個人對某事的確認程度,一般用于預測孤立事件但缺乏可靠數據的情況下。現在,需要將各種說法轉換為數據!

分析師們的猜想數據化

接著,可以用圖形(如散點圖)直觀表現每一種說法的概率傾向。同時,可以用“標準偏差”分析數據點與平均值的差距。主觀概率偏離平均值的標準偏差越大,分析師們在假設成立的可能性方面的分歧越大。

3. 新的消息改變初始概率

最新消息:俄羅斯宣布售出所有油田,稱對商業失去了信心。這條新聞可能會導致投資價值大幅縮水,降低假設一的主觀概率,另一方面,這個新聞可能只是俄羅斯的一種策略,實際上他們并不打算出售油田。接下來,要確定在得到這條消息的前提下,分析師們對假設一的概率會有什么變化?

貝葉斯規則是修正主觀概率的好辦法:H代表俄羅斯會(不會)補貼石油業,E代表新的證據。則:

P(H/E)=P(H)P(E/H)/[(P(H)P(E/H)+P(-H)P(E/-H)]

拿到新的數據后,重新分析~

第8章:啟發法-憑人類的天性做分析

1. 問題

邋遢集是由數據邦市市政府資助的一個非盈利團體,他們進行公開宣傳,勸說人們不要亂扔垃圾。他們把最近的工作結果匯報給了市政府,但市政府需要知道垃圾量減少了多少,否則就會削減資金!

2.難題

難題是垃圾量的減少無法定量計算出來,沒有一個統一的散亂垃圾計量模型。垃圾的定量計算看似走不通。

3. 方法

基于啟發法的發散式思維

人們以極快速度作出的決定或不憑借任何數據作出的決定,往往靠的是直覺,直覺一般看到的只有一個選項。通過發散式思維的思考,即啟發法,可以得出多個選項。現在用啟發法確定用哪些變量分析能夠更全面地描述邋遢集的績效。

基于啟發法的邋遢集績效描述變量確定

站在市議員的角度考慮他們會如何評估邋遢集的工作,用啟發法構思如下:

基于啟發法的工作評估

在利用啟發法確定重要因素后,搜集數據,包括環衛工人問卷、公眾問卷等。給市議員一個定量的報告和回復。

第9-11章:加薪要求分析

第9章到11章都是圍繞加薪問題展開地。第9章基于源數據來分析主動提出加薪要求是否有利于提高加薪幅度;第10章利用散點圖和回歸方程分析了提出多高的加薪幅度比較合適;第11章則對回歸分析的誤差和改善提出了建議。三章之間的關系如思維圖所示,思維圖下面則是對每一章重點的提煉。

加薪要求分析

第九章:直方圖-數字的形狀

1. 問題描述

年底了,星巴仕的員工希望加薪,但他們不確定是否應該主動提出加薪要求,想要通過研究進行加薪結果預測。現在手頭有歷年加薪記錄的數據,包括員工的編號、得到的加薪幅度、性別、年份、是否提出過加薪等字段。

2. 數據處理

1)提取并匯總數據。即從總數據中提取信息,將數據分解成易于管理的較小數據塊。在該例中,得出加薪幅度、性別、年份等有用字段。

2)數據圖形化。直方圖是一種功能強大的圖形,它可以顯示出數據點在數值范圍內的分布情況。在該例中,直方圖顯示出了獲得每種加薪幅度的有多少人。

3)直方圖描繪工具。用R繪制加薪幅度的頻數分布直方圖,分析了不同年份的加薪幅度、不同性別的加薪幅度、是否主動提出過加薪要求下的加薪幅度等情況。

4)得出結論。對加薪數據的不同子集進行直方圖分析后,看得出獲得大幅度加薪全靠提要求。

第十章:回歸-預測

1. 問題

在確定了要提出加薪之后,下一個關鍵問題是該提出多少的加薪幅度呢?員工需要一個“加薪計算器”來預測加薪幅度。

2. 基于散點圖的回歸分析

每一個員工的要求加薪幅度和實際加薪幅度是一個數據點,這些數據點可以畫出散點圖。在散點圖中用回歸線(最準確地貫穿數據點的一條線)來表現要求加薪與實際加薪之間的關系,并得出回歸方程:Y=2.3+0.7X,其中,X代表要求加薪幅度,Y代表實際加薪幅度。

3. 基于回歸方程的預測

上述的回歸方程可以預測人們的實際加薪幅度,“加薪計算器”設計完成!

第十一章:誤差-合理誤差

1. 問題

員工根據回歸方程的預測向老板提出加薪要求,但員工們收到的反饋卻差異很大。A員工要求5%,結果加了10%;B員工要求8%,結果加了7%;C員工要求25%,結果加了0%。這是哪里出現了問題?回歸方程是否靠譜?

2. 原因分析

不管多優秀的預測模型,都會存在偏差,我們把這種實際結果與預測結果之間的偏差叫做機會誤差,又稱為殘差。而對殘差的分析是優秀的統計模型的核心。首先我們分析殘差存在的原因:

1)源數據不全面:我們是從源數據得出回歸方程,源數據的“要求加薪幅度”字段并沒有超過22%的例子。因此,該回歸方程也不適用于要求加薪幅度超過22%的員工。問題描述里的C員工要求加薪幅度為25%,顯然超出了模型的預測范圍。

2)回歸線的貼合程度差異:在加薪幅度低于10%的時候,該回歸線與數據的貼合程度很高。而加薪幅度在10%到22%的區間,該回歸線便與數據點有較大的偏移。因此,對于要求加薪幅度在10%以上的員工,該回歸方程的預測準確度會降低。

3. 優化方法

1)定量地指出誤差:我們需要一個統計值來體現數據點與回歸線的平均偏移量。均方根誤差描述的了回歸線周圍的分布情況,有了均方根誤差,就能告訴客戶實際結果與預測結果之間可能有多大差距。通過R計算均方根誤差為2.5%,這時可以在回歸方程下方備注:該公式只在加薪要求介于0%到22%之間時有效。大部分加薪結果都會落在高于或低于預測結果2.5%的范圍內。

2)分割方程來管理誤差:由于要求加薪在0%-10%之間的數據與回歸線的重合程度較高,而10%以上的數據與回歸線的貼合程度很低。可以以10%為分界線,建立兩個回歸方程,即:當要求加薪幅度低于10%,使用公式1(Y=0.8+0.9X);當要求加薪幅度高于10%,使用公式2 (Y=7.8+0.3X),同時注明兩個方程的誤差范圍。

第12章:關系數據庫-你能關聯么?

雜志銷量與文章數量的關系分析

1.? 問題描述

《數據邦新聞》雜志社想找出在每一期刊物上刊登文章的最優數量。

2.? 問題分析

1)源數據獲取:現有四張獨立的電子表格,分別是銷量(期號和銷量)、期數(期號和出版日期)、文章(文章編號、期號、)、作者。他們之間是相互關聯的。

2)關聯比較對象:我們的目的是對比不同文章數量對銷量的影響,因此,再數據庫管理軟件中,通過“期刊”表將“銷量”表與“文章”表關聯起來。

3)分析比較對象:利用散點圖描述文章數和銷量之間的關系。

第13章:整理數據-井然有序

數據管理步驟

這本書是數據分析的入門書籍,沒有難懂的技術與理論,而是分析生活中的實際問題,輕松易懂!但若要深入學習數據分析,這恐怕是遠遠不夠的,需要我們在實踐中進步了,加油吧!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容