清洗臟數據

雖然一直強調規范表格、規范數據的重要性,但是始終無法避免臟數據的產生。因此本文簡單介紹一下哪些數據需要清洗,轉換成規范數據和表格。

每一列的數據類型和數據格式。上一篇已經提到,同一列的數據是同一種數據類型,避免在同一列混用多種類型。

空格和不可見字符。常見于從系統導出的表格,用眼睛無法觀察到,雙擊單元格進入編輯模式,或者使用單元格可以識別出來。

部分中文字符轉換為英文字符。數字中的中文逗號、時間中的中文冒號等。

重復數據。刪除會影響計算結果的重復數據。

空白行空白列。通常由不良的操作系統產生的,比如在數據行列中插入的空白行空白列;操作單元格時習慣性選擇整行整列,進行設置格式或者填充顏色,導致沒有數據的空單元格也變成已使用的單元格。

處理合并單元格。除了結果報表,避免的表格中使用合并單元格。

填充空單元格。比如取消合并單元格后,會出現大量空單元格,需要填充對應的值。

數字。用于計算的數字,將文本型數字轉換為數值型;類似產品型號、編碼等不用于計算的數字,轉換為文本值。

日期。短橫線“-”分隔,如“2022-11-04”“2022-11”;斜杠“/”分隔,如“2022/11/04”“2022/11”;)使用中文年月日,如“2022年11月04日”“2022年11月”。

時間。時間的小時、分隔和秒數用英文冒號“:”分隔如“22:04:10”“22:04”。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容