pandas對(duì)數(shù)組的操作是非常方便的,這里主要用到一個(gè)DataFrame.count函數(shù),自動(dòng)統(tǒng)計(jì)非缺失數(shù)據(jù)數(shù)量
下面是腳本代碼
import pandas as pd
a=pd.read_csv(r'路徑\數(shù)據(jù)集.csv',encoding="utf-8") #這里路徑盡量用英文,我用中文做路徑的時(shí)候各種報(bào)錯(cuò)
data=pd.DataFrame()
dd=[]
cc=[]
rr=[]
for i in a.columns:
d=len(a)-a[i].count()
r=(d/len(a))*100
rate='%.2f%%' % r
print('字段名為:',str(i).ljust(10),'缺失值數(shù)量:',str(d).ljust(4),'缺失數(shù)量占比:',rate) #這里print主要是為了在腳本中觀察是否獲取到想要的數(shù)據(jù),方便調(diào)試。
dd.append(i)
cc.append(d)
rr.append(rate)
data[u'字段名為']=dd
data[u'缺失值數(shù)量']=cc
data[u'缺失數(shù)量占比']=rr
outfile=r'輸出路徑\處理后數(shù)據(jù).xls'
data.to_excel(outfile) #同樣輸出路徑盡量用英文,輸出為xls格式