當我們做數據分析或數據挖掘的時候,常常需要對數據的分析過程和結果做可視化展示。數據可視化可以更加清晰地向聽眾傳達想要表達的信息,同時也降低了大家理解數據的門檻。Python和R作為數據挖掘領域的倚天屠龍,其本身自帶的可視化包可以很方便地讓大家對自己的數據進行展示。如Python中的matplotlib,seaborn庫,R中的ggplot庫。Excel是我們工作和學習中用到的最多的數據處理工具,我們使用它存儲數據,處理數據,分析展示數據。Excel的主要問題在于,數據量較大的時候,打開表格和處理起來都比較耗時。對于數據量不大的數據集,Excel就足夠了。下面幾種數據可視化工具是我經常用到的,使用起來也比較方便。
1.Tableau
Tableau是一款通過對數據進行拖拽的交互式的可視化工具,可以繪制各種圖表,儀表板,故事等。Tableau的學習是比較簡單的,掌握了常用的基本操作,就可以繪制出各種簡潔美觀的圖表了。
Tableau專業版軟件是收費的,Tableau public是免費的,對于一般的數據分析工作,Tableau public是完全夠用的。點擊下面的鏈接,輸入自己的郵箱即可下載Tableau public。
Tableau public下載
關于Tableau的教程,B站上有非常多的視頻。在此我推薦一個:
同濟大學張子豪Tableau微課
2.MLDemos
MLDemos是機器學習模型的可視化軟件,可以直觀的讓我們理解分類,回歸,聚類等算法模型。在學習算法的時候,我們往往是先學習其數學推理,然后學習其工具包的調用,整個過程在邏輯上是非常嚴密的。為了更加直觀的展示建模過程,我們可以一些可視化工具。在MLDemos中,我們可以自己創建數據,也可導入我們的數據。下圖是一個二分類算法的模型,MLDemos可以清楚的展示出模型的分類邊界。
MLDemos的下載也非常的簡單,有空的時候,多在上面做一些嘗試,基本上就會使用了。
MLDemos下載
3.Visualizing K-Means/DBSCAN clustering
K-Means和DBSCAN是兩種非常有代表性的算法,而且這兩種算法是沒有什么數學上的推理的,理解這兩種算法的關鍵在于理解整個聚類的過程。此時借助可視化工具,可以幫助我們更加地容易理解K-Means聚類中心的更新過程和DBSCAN的同類點的更新過程。下圖分別展示K-Means和DBSCAN的例子。
K-Means和DBSCAN的演示是網頁版,多嘗試操作幾次,還是非常有趣的,其鏈接如下:
聚類可視化
4.Embedding projector
Embeeding projector是Google開源的網頁版高維大數據可視化工具,借助Embedding,我們可以直觀的了解高維數據的空間分布狀態。Embedding為我們提供了5個默認的數據集,可供我們展示使用。同時我們也可導入自己的本地數據集,在Embedding中做可視化展示。Embedding為我們提供了2種降維方法T-SNE和PCA,我們可以根據自己的需求選擇合適的降維方法和需要下降的維度。
下圖展示的是鳶尾花數據集中三種鳶尾花數據在空間中的分布,降維方法選擇PCA。
Embedding projector