當把數據導入PowerQuery之后,有很多選擇可以拿來作為第一步,比如將首行不需要的數據刪除,選擇需要的列并刪除其他的,給PowerQuery步驟命名等,這些操作作為第一步都對。
但是我個人認為,數據導入到PowerQuery之后,第一步應該仔細選擇要保留的列的數據格式。原因在于:其他那些“第一步”操作不會導致后續操作出現嚴重錯誤;但是如果我們忽略了數據格式,將在后面某一步驟出現致命錯誤:“無法將xx類型轉換成xxx類型”,從而導致PowerQuery操作中斷。
舉個簡單例子:手機號碼,我們一般從不會將它看成數字(盡管看起來它是由數字組成),二是將其看作為本文,我們從不想對手機號碼作數學運算。但是PowerQuery會自作聰明地將手機號碼看成整數;如果這一列全是手機號碼,也就罷了;如果中間還包含不是手機號碼的其他文本,對不起,當你后面對這列進行“分組后展開”,“合并后展開”這樣的操作時,PowerQuery就會報錯,提示:“無法將xx類型轉換成xxx類型”,從而導致PowerQuery操作中斷。
當然,為了減少內存使用量,當表格很大、列數又很多的時候,性能可能成為關鍵因素,這時首先要做的是清除那些不必要的列和行,只保留要處理的數據,然后再來檢查并設定列格式。