openrefine介紹
目的:用于數據清理,特別是非業務數據庫來源的數據。
http://blog.csdn.net/chszs/article/details/20046083
數據剖析Data Profiling:也叫做數據考古(Data Archeology),是數據集(Data Set)內部為達一致性、單值性和邏輯性而進行的數值質量的統計分析及評估。數據剖析是Olson于2003年提出的概念,使用分析技術來發現正確的、結構化的、有內容、有質量的數據。換句話說,它是評估你的數據和信息的當前狀態以及包含了多少錯誤的方法。
數據清洗Data Cleaning:是嘗試通過移除空的數據行或重復的數據行、過濾數據行、聚集或轉換數據值、分開多值單元等,以半自動化的方式修復錯誤數據的過程。數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對于是否過濾,是否修正一般要求客戶確認。
IDTs:Interactive Data Transformation tools,交互數據轉換工具,它可以對大數據進行快速、廉價的操作,使用單個的集成接口。
OpenRefine就是這樣的IDT工具,可以觀察和操縱數據的工具。它類似于傳統Excel的表格處理軟件,但是工作方式更像是數據庫,以列和字段的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對新的行數據進行編碼,而且功能還極為強大。