一、數據處理
根據數據分析目的將搜集到的數據用適當處理方法加工處理,占80%,必不可少的階段。
1、數據規范
所具備規范和要求:
第一,數據表由標題行(字段)和數據部分(記錄)組成;
第二,數據表第一行是表的字段名稱,不能重復;
第三,第二行起是數據部分,每一行稱為記錄,不允許出現空白行和空白列,保持完整性;
第四,一個單元格只記錄一個屬性的數據,切勿重復;
第五,數據表不能有合并單元格;
第六,數據表需要一維表的形式。一維表也叫流水線表格,每一行是否為獨立的變量
數據處理——將原始表處理為便于分析的一維表形式。
2、數據導入
第一,文本導入
出現亂碼,語言改為簡體中文,設置數據格式,數據放置位置
第二,數據庫導入
如果數據庫的數據超出Excel范圍不可選擇導入表,通常選擇導入數據透視表
第三,網站導入
復制網址,自網站,粘貼網址,導入;單擊鼠標右鍵,刷新數據,也可選擇刷新頻率
3、數據清洗
第一,重復數據處理
數據透視表法、菜單刪除法、條件格式標識法、高級篩選法
函數法(countif)、
第二,缺失數據處理
取消合并單元格后,定位條件:Ctrl+G或F5,=加向上箭頭,自動填充:Ctrl+Enter
第三,空格數據處理
查找替換:Ctrl+H,函數法:Trim
4、數據抽取
保留原數據表中某些字段記錄的部分信息,形成新字段新紀錄,數據拆分。
第一,字段拆分
菜單法:數據-分列;
函數法:MID、LEFT、RIGHT
第二,記錄拆分
隨機抽樣:RAND+RANK+填充(去除公式)+VLOOKUP
按字段拆分:常用工具7.3
5、數據合并
包含字段合并、字段匹配、記錄合并三大類
第一,字段合并
函數法:CONCATENATE(字符型)、&(字符型)、DATE(數值型)
第二、字段匹配
單條件:VLOOKUP(精確匹配)
注意事項:匹配范圍中關鍵字段必須在第一列,第三個參數表示關鍵字段為參照的列數,注意字段類型要一致。
思考:如何進行多條件匹配?
6、數據計算
簡單計算:加、減、乘、除
函數計算:日期計算、數據標準化、加權求和、數據分組等
第一,日期計算
函數法:DATEDIF(起始日期,結束日期, "日期格式參數")
日期格式參數:Y-年,M-月,D-天
*DATEDIF函數無法查找,只能手動輸入;日期格式參數必須在英文雙引號里;參數大小寫不影響
第二,數據標準化
將數據按照比例縮放,使其落入特定區間,消除變量間因不同單位造成的差異,使數據具有可比性。
*常用的數據標準化方法為0-1標準化,公式:X*=(X-min)/(max-min)
第三,加權求和
權重:該指標在整個指標評價體系中的相對重要程度,表示在其他指標不變的情況下,該指標的變化對結果的影響程度。
*函數法:SUMPRODUCT(區域1,區域2)
第四,數據分組-IF函數
函數法:IF(條件,滿足條件結果,不滿足條件結果)
IF函數有嵌套層數限制;對邏輯思維能力要求高,編寫麻煩,易出錯;
第五,數據分組-VLOOKUP函數
VLOOKUP模糊匹配
首先需要準備數據分組對應表,主要由閾值和分組標簽組成,閾值必須進行升序排序,否則會出錯。
7、數據轉換
第一,行列轉置
選擇性粘貼-轉置
第二,數據類型轉換
l文本→數值:選擇性粘貼-運算,智能標記-轉換為數字,數據-分列(優先選擇)
l數值→文本:數據-分列,TEXT函數
l數值→日期:設置單元格格式-日期、數據-分列
第三,二維表轉一維表
數據透視表法:多重合并計算(Alt+D,+P)
*作業:三維表轉一維表
二、數據分析
1、對比分析
將兩個或兩個以上的數據比較,分析差異性,發現事物發展變化情況和規律。
日期分組,環比計算,同比計算
2、結構分析
分組的基礎上計算各組成部分所占比重,進而分析總體的內部結構比重,比如市場占有率。
定性分組:按業務的屬性劃分、占比計算
3、分布分析
根據分析目的將數值型數據進行等距或不等距的分組,消費、收入、年齡等分布分析。
定量分組:VLOOKUP函數,數據透視表
*柱狀圖的順序必須從小到大,不能改變X軸的順序
數據透視表可以快速實現分組,不可以進行不等距分組;
VLOOKUP函數可以實現不等距分組,并且可以生成一個實際字段供使用者選擇和分析。
因此,拿到一組數據后,在不知道具體分許特征的情況下,可以先用數據透視表快速了解數據分布特征,然后利用VLOOKUP進行針對性分組,劃分更適合的分組范圍。
*作業:如何統計購買日期間隔分布?數據存在一個用戶多條購買日期數據。
4、交叉分析
用于分析兩個或兩個以上分組變量間的關系,并以交叉表的方式進行變量之間的對比分析。
l定量、定量分組交叉
l定量、定性分組交叉
l定性、定性分組交叉
*分組可以兩個以上,但分組變量越多,越難以發現規律;因此,一般兩個分組變量足以。
*在數據透視表中雙擊單元格可以得到用戶明細表
5、矩陣分析
根據兩個重要屬性作為分析依據進行關聯分析,找出問題解決辦法。
分四個象限,做矩陣圖不要選擇表頭和標簽
6、多表關聯分析
根據各個表共有的關鍵字段進行數據記錄的一一對應,相當于VLOOKUP的匹配功能,2013版以上才有
通過兩個表之間的共有字段,進行關聯分析
7、RFM分析
相當于三個維度的交叉分析
三、數據展現
1、用圖表說話,把分析結果用合適的圖形或表格展現給讀者或聽眾,使其更容易理解作者的觀點。
成分:首選餅圖
排序:首選柱形圖,若標簽太長可考慮條形圖
分布:首選柱形圖
趨勢:首選折線圖
相關:首選散點圖
2、雙坐標軸圖
當數據序列為兩個或兩個以上,并且單位不同或者數據量級差別較大,可使用雙坐標軸。
3、目標完成率圖
反應業務目標完成情況。需要用到XY Chart
Labeler插件
4、雷達圖
當數據的項目和序列大于兩個時,用柱形圖非常不直觀,建議使用雷達圖
5、矩陣圖
用法同矩陣分析。矩陣圖基于散點圖繪制
*注:制作矩陣圖,不要選擇標簽和數據對應的表頭,只需選擇數據本身。
6、漏斗圖
對業務流程最直觀的表現形式,可快速發現業務流程中出現問題的環節。
漏斗圖在堆積條形圖的基礎上繪制,需要計算占位數據*公式=(總數據-該環節數據)/2*。
7、旋風圖
第一,用于兩個數據序列不同指標或不同項目之間的對比;
第二,表示兩個數據之間的相關關系
8、帕累托圖
也被稱為排列圖、主次圖,主要用于質量分析,原因定位等,原理來自于帕累托原則——二八法則。先繪制直方圖,累計百分比做折線圖
9、迷你圖
起到快速查看數據趨勢和分布,不用繪制出折線圖或柱形圖,是2010版以上才具有的功能。
條件格式(可自定義規則):數據條、色階、圖標集
10、圖表美化
三大原則
字體統一:大小、顏色、字體
排版簡潔:最大化數據墨水比原則,即保留有效元素,去除無效元素,淡化非主要元素
配色協調:不超過三種,把握不準可只使用一種顏色