Excel數據分析實戰

一、數據處理

根據數據分析目的將搜集到的數據用適當處理方法加工處理,占80%,必不可少的階段。

1、數據規范

所具備規范和要求:

第一,數據表由標題行(字段)和數據部分(記錄)組成;

第二,數據表第一行是表的字段名稱,不能重復;

第三,第二行起是數據部分,每一行稱為記錄,不允許出現空白行和空白列,保持完整性;

第四,一個單元格只記錄一個屬性的數據,切勿重復;

第五,數據表不能有合并單元格;

第六,數據表需要一維表的形式。一維表也叫流水線表格,每一行是否為獨立的變量

數據處理——將原始表處理為便于分析的一維表形式。

2、數據導入

第一,文本導入

出現亂碼,語言改為簡體中文,設置數據格式,數據放置位置

第二,數據庫導入

如果數據庫的數據超出Excel范圍不可選擇導入,通常選擇導入數據透視表

第三,網站導入

復制網址,自網站,粘貼網址,導入;單擊鼠標右鍵,刷新數據,也可選擇刷新頻率

3、數據清洗

第一,重復數據處理

數據透視表法、菜單刪除法、條件格式標識法、高級篩選法

函數法(countif)、

第二,缺失數據處理

取消合并單元格后,定位條件:Ctrl+G或F5,=加向上箭頭,自動填充:Ctrl+Enter

第三,空格數據處理

查找替換:Ctrl+H,函數法:Trim

4、數據抽取

保留原數據表中某些字段記錄的部分信息,形成新字段新紀錄,數據拆分。

第一,字段拆分

菜單法:數據-分列;

函數法:MID、LEFT、RIGHT

第二,記錄拆分

隨機抽樣:RAND+RANK+填充(去除公式)+VLOOKUP

按字段拆分:常用工具7.3

5、數據合并

包含字段合并、字段匹配、記錄合并三大類

第一,字段合并

函數法:CONCATENATE(字符型)、&(字符型)、DATE(數值型)

第二、字段匹配

單條件:VLOOKUP(精確匹配)

注意事項:匹配范圍中關鍵字段必須在第一列,第三個參數表示關鍵字段為參照的列數,注意字段類型要一致。

思考:如何進行多條件匹配?

6、數據計算

簡單計算:加、減、乘、除

函數計算:日期計算、數據標準化、加權求和、數據分組等

第一,日期計算

函數法:DATEDIF(起始日期,結束日期, "日期格式參數")

日期格式參數:Y-年,M-月,D-天

*DATEDIF函數無法查找,只能手動輸入;日期格式參數必須在英文雙引號里;參數大小寫不影響

第二,數據標準化

將數據按照比例縮放,使其落入特定區間,消除變量間因不同單位造成的差異,使數據具有可比性。

*常用的數據標準化方法為0-1標準化,公式:X*=(X-min)/(max-min)

第三,加權求和

權重:該指標在整個指標評價體系中的相對重要程度,表示在其他指標不變的情況下,該指標的變化對結果的影響程度。

*函數法:SUMPRODUCT(區域1,區域2)

第四,數據分組-IF函數

函數法:IF(條件,滿足條件結果,不滿足條件結果)

IF函數有嵌套層數限制;對邏輯思維能力要求高,編寫麻煩,易出錯;

第五,數據分組-VLOOKUP函數

VLOOKUP模糊匹配

首先需要準備數據分組對應表,主要由閾值和分組標簽組成,閾值必須進行升序排序,否則會出錯

7、數據轉換

第一,行列轉置

選擇性粘貼-轉置

第二,數據類型轉換

l文本→數值:選擇性粘貼-運算,智能標記-轉換為數字,數據-分列(優先選擇)

l數值→文本:數據-分列,TEXT函數

l數值→日期:設置單元格格式-日期、數據-分列

第三,二維表轉一維表

數據透視表法:多重合并計算(Alt+D,+P)

*作業:三維表轉一維表

二、數據分析

1、對比分析

將兩個或兩個以上的數據比較,分析差異性,發現事物發展變化情況和規律。

日期分組,環比計算,同比計算

2、結構分析

分組的基礎上計算各組成部分所占比重,進而分析總體的內部結構比重,比如市場占有率。

定性分組:按業務的屬性劃分、占比計算

3、分布分析

根據分析目的將數值型數據進行等距不等距的分組,消費、收入、年齡等分布分析。

定量分組:VLOOKUP函數,數據透視表

*柱狀圖的順序必須從小到大,不能改變X軸的順序

數據透視表可以快速實現分組,不可以進行不等距分組;

VLOOKUP函數可以實現不等距分組,并且可以生成一個實際字段供使用者選擇和分析。

因此,拿到一組數據后,在不知道具體分許特征的情況下,可以先用數據透視表快速了解數據分布特征,然后利用VLOOKUP進行針對性分組,劃分更適合的分組范圍。

*作業:如何統計購買日期間隔分布?數據存在一個用戶多條購買日期數據。

4、交叉分析

用于分析兩個或兩個以上分組變量間的關系,并以交叉表的方式進行變量之間的對比分析。

l定量、定量分組交叉

l定量、定性分組交叉

l定性、定性分組交叉

*分組可以兩個以上,但分組變量越多,越難以發現規律;因此,一般兩個分組變量足以。

*在數據透視表中雙擊單元格可以得到用戶明細表

5、矩陣分析

根據兩個重要屬性作為分析依據進行關聯分析,找出問題解決辦法。

分四個象限,做矩陣圖不要選擇表頭和標簽

6、多表關聯分析

根據各個表共有的關鍵字段進行數據記錄的一一對應,相當于VLOOKUP的匹配功能,2013版以上才有

通過兩個表之間的共有字段,進行關聯分析

7、RFM分析

相當于三個維度的交叉分析

三、數據展現

1、用圖表說話,把分析結果用合適的圖形或表格展現給讀者或聽眾,使其更容易理解作者的觀點。

成分:首選餅圖

排序:首選柱形圖,若標簽太長可考慮條形圖

分布:首選柱形圖

趨勢:首選折線圖

相關:首選散點圖

2、雙坐標軸圖

當數據序列為兩個或兩個以上,并且單位不同或者數據量級差別較大,可使用雙坐標軸。

3、目標完成率圖

反應業務目標完成情況。需要用到XY Chart

Labeler插件

4、雷達圖

當數據的項目和序列大于兩個時,用柱形圖非常不直觀,建議使用雷達圖

5、矩陣圖

用法同矩陣分析。矩陣圖基于散點圖繪制

*注:制作矩陣圖,不要選擇標簽和數據對應的表頭,只需選擇數據本身。

6、漏斗圖

對業務流程最直觀的表現形式,可快速發現業務流程中出現問題的環節。

漏斗圖在堆積條形圖的基礎上繪制,需要計算占位數據*公式=(總數據-該環節數據)/2*

7、旋風圖

第一,用于兩個數據序列不同指標或不同項目之間的對比;

第二,表示兩個數據之間的相關關系

8、帕累托圖

也被稱為排列圖、主次圖,主要用于質量分析,原因定位等,原理來自于帕累托原則——二八法則。先繪制直方圖,累計百分比做折線圖

9、迷你圖

起到快速查看數據趨勢和分布,不用繪制出折線圖或柱形圖,是2010版以上才具有的功能。

條件格式(可自定義規則):數據條、色階、圖標集

10、圖表美化

三大原則

字體統一:大小、顏色、字體

排版簡潔:最大化數據墨水比原則,即保留有效元素,去除無效元素,淡化非主要元素

配色協調:不超過三種,把握不準可只使用一種顏色

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容