利用pandas庫(kù)統(tǒng)計(jì)一個(gè)數(shù)據(jù)集中每個(gè)字段下缺失值數(shù)目與所占比例

pandas對(duì)數(shù)組的操作是非常方便的,這里主要用到一個(gè)DataFrame.count函數(shù),自動(dòng)統(tǒng)計(jì)非缺失數(shù)據(jù)數(shù)量

下面是腳本代碼

import pandas as pd

a=pd.read_csv(r'路徑\數(shù)據(jù)集.csv',encoding="utf-8") #這里路徑盡量用英文,我用中文做路徑的時(shí)候各種報(bào)錯(cuò)

data=pd.DataFrame()

dd=[]
cc=[]
rr=[]

for i in a.columns:
    d=len(a)-a[i].count()
    r=(d/len(a))*100
    rate='%.2f%%' % r
    print('字段名為:',str(i).ljust(10),'缺失值數(shù)量:',str(d).ljust(4),'缺失數(shù)量占比:',rate) #這里print主要是為了在腳本中觀察是否獲取到想要的數(shù)據(jù),方便調(diào)試。
    dd.append(i)
    cc.append(d)
    rr.append(rate)

data[u'字段名為']=dd
data[u'缺失值數(shù)量']=cc
data[u'缺失數(shù)量占比']=rr

outfile=r'輸出路徑\處理后數(shù)據(jù).xls' 
data.to_excel(outfile) #同樣輸出路徑盡量用英文,輸出為xls格式
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容