讀《誰(shuí)說菜鳥不會(huì)數(shù)據(jù)分析》2016-05-04

第四章 數(shù)據(jù)處理

前面說了,在進(jìn)行數(shù)據(jù)分析前要對(duì)我們的數(shù)據(jù)進(jìn)行處理,處理是分析前很重要的工作

1. 數(shù)據(jù)分析人應(yīng)該有的心態(tài):“三心二意”

信心:在沒有看到任何積極反饋信息時(shí),依然充滿信心,堅(jiān)持前行

細(xì)心:在歷史上無數(shù)事例告訴我們一個(gè)小數(shù)點(diǎn)可能引起一場(chǎng)大災(zāi)難,1%的錯(cuò)誤=100%的錯(cuò)誤,所以一定要細(xì)心,對(duì)于某些差異性較大的數(shù)據(jù)要有敏感心

平常心:爭(zhēng)取做到“眾人皆醉我獨(dú)醒,眾人皆濁我獨(dú)清”,寧?kù)o致遠(yuǎn),洞悉事物本質(zhì),做事實(shí)事求是

誠(chéng)意:嚴(yán)謹(jǐn)真誠(chéng)

合意:分析的結(jié)果要滿足相關(guān)需求人員的滿意,達(dá)到他們的分析目的。這就說明在分析前就要清楚他們需要什么,隨時(shí)向他們反映分析的細(xì)節(jié)和進(jìn)度,以便隨時(shí)溝通了解需求

2.第一步:數(shù)據(jù)清洗

數(shù)據(jù)處理中,先要對(duì)數(shù)據(jù)進(jìn)行清洗,包括三步:去重/補(bǔ)缺/檢查邏輯

去重:找到多余重復(fù)的數(shù)據(jù)刪除,這里先說如何找到重復(fù)數(shù)據(jù)

找重法1)函數(shù)法:識(shí)別重復(fù)數(shù)據(jù) 使用Excel里的countif函數(shù)對(duì)滿足耽擱條件的單元格計(jì)數(shù)

countif(range,criteria),兩個(gè)參數(shù)為要計(jì)數(shù)的單元格,計(jì)數(shù)條件

法2)高級(jí)篩選:直接利用[數(shù)據(jù)]中的[排序和篩選]中[高級(jí)]選擇[選擇不重復(fù)的記錄]

法3)條件格式:Excel 里設(shè)置了標(biāo)識(shí)重復(fù)值的功能,[開始]中的[條件格式]中的[突出單元格規(guī)則]中選[重復(fù)值]

法4)數(shù)據(jù)透視表:將要查的屬性放入行標(biāo)簽,再放入值標(biāo)簽就可以看到重復(fù)的數(shù)據(jù)

刪重法1)利用菜單:[數(shù)據(jù)]中的[刪除重復(fù)項(xiàng)]

法2)通過排序:利用函數(shù)識(shí)別出重復(fù)值后針對(duì)計(jì)數(shù)行排序后刪除重復(fù)[開始]里的[編輯部分]的[排序與的篩選]

法3)通過篩選,基本操作大致同上

補(bǔ)缺:一般我們要使用定位輸入,先用定位輸入找出缺失值為空的單元格,則利用”定位輸入”找到所有空白的單元格,[開始]中的[編輯]中單擊下拉里的[定位條件]中的[空值]找到所有空值,可以通過4種方法處理缺失

法1):用一個(gè)樣本統(tǒng)計(jì)量的值代替缺失,一般使用樣本的平均值

法2):用一個(gè)統(tǒng)計(jì)模型計(jì)算出值代替缺失,常用模型為“回歸模型,判別模型”,使用專業(yè)的分析軟件

法3):刪除缺失值記錄(會(huì)減少樣本量)

法4):將所有的缺失的記錄保留,僅在相應(yīng)的分析中做必要的排除,變量間邏輯關(guān)系簡(jiǎn)單,缺失值較少時(shí)可以使用

此時(shí)定位出所有缺失值,在其中一個(gè)單元格輸入平均值,然后ctrl+enter直接一次填入所有的缺失單元格

查找ctrl+F 替換ctrl+H

檢查邏輯:錯(cuò)誤數(shù)據(jù)分為:輸入錯(cuò)誤/錄入錯(cuò)誤

對(duì)于錯(cuò)誤數(shù)據(jù),首先利用if檢查,錯(cuò)誤數(shù)據(jù)返回“false”正確數(shù)據(jù)返回“true",再利用[條件格式]檢查第二類錯(cuò)誤,如輸入的數(shù)字只能為“0”,“1”,錄入其他數(shù)字,將單元格突出

if(logical_test,value_if_true,value_if_false),第一個(gè)參數(shù)表示表達(dá)式,第二個(gè)結(jié)果“真”返回值,第三個(gè)為結(jié)果“假”返回值

檢查邏輯錯(cuò)誤,[開始]中的[條件格式]中的[突出單元格]的[其他規(guī)則]的[使用公式確定單元格]中輸入“=or函數(shù)()=false”判斷,意思是如果單元格的值不是不啦不拉,就突出單元格

or(logical1,logical2,...)

and(logical1,logical2,...)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容