受到 podcast Data Stories 的 2019年總結 這期節目的啟發,失蹤人口 Kayyyy 決定冒個泡,簡單寫一點關于 2019 年可視化的個人回顧。
許多可視化領域的大咖已經從多個角度,相當全面地總結了 2019 年可視化領域的亮點、趨勢和挑戰,我就不多重復了,以下僅從幾個個人比較關注或覺得有趣的角度進行分享。
關鍵詞一:機器學習/深度學習
可視化在機器學習/深度學習領域的應用,以及反之,機器學習/深度學習技術在可視化領域的應用,有愈發受到關注的趨勢。前者恰好也是我近一年多來工作中常常打交道的內容:從一開始的機器學習小白,到自學基本概念、了解該領域的常用可視化方法,到與數據科學家合作設計可視化,不可謂不是充滿挑戰又收獲滿滿的旅程。我總結出了可視化在機器學習/深度學習領域比較常見的應用場景,供有意了解這個方向的小伙伴參考:
- 數據集的分析及探索(包括特征分析)
- 模型訓練過程的監控
- 模型訓練結果展示與評估
- 模型可解釋性
其中,目前許多工具或平臺都還不具備的,最具挑戰性的競爭熱點是 模型可解釋性 方面的可視化。模型可解釋性指對模型內部機制的理解以及對模型結果的理解,通過可視化方法打開模型的“黑盒”,有利于開發人員優化調整模型,以及提高決策者使用模型預測結果時對模型的信任,因此是相當重要的一環。在此推薦 Christoph Molnar 的非常棒的電子書 可解釋的機器學習(Interpretable Machine Learning),頗為系統全面地介紹了許多前沿的模型解釋可視化方法,涵蓋了傳統機器學習及深度學習領域,是這個方向很不錯的導引材料。
此外,在跟領域專家的合作過程中,還有一點小小的心得:雖然使用的往往都是常見的圖表形式,但是在學術領域當中,許多圖表有它們特定的一些習慣或規范;例如混淆矩陣(Confusion Matrix)通常以熱力圖的形式呈現,但并不是任意樣式的熱力圖,什么數據放哪個軸,軸上文字以及圖例的擺放等都有講究,因此不妨參考學術文章中圖表的形式,從而在降低數據及模型的理解門檻的同時,保持專業性與貼近有專業背景的讀者的習慣。
關鍵詞二:個性化/私人化
2019年是傳說中“數據可視化成為主流”的一年(yayyy!),也是數據可視化越來越接地氣、個性化和生活化的一年。其中不乏有趣的“100天的數據可視化漫畫”項目,以及越來越多平臺推出的個人數據的可視化,個人最喜歡的是豆瓣 App 的書影音檔案可視化(可能是 Github style 引起程序員高度舒適哈哈),在移動端小小的屏幕空間中,清晰地展示了電影、書籍和音樂的記錄日期和頻率高低等多維度的數據,高效傳達數據的同時有利于提升用戶添加記錄、去“點亮”那一個個方格的積極性,從而提高用戶的粘性。這就是可視化的魅力吧!
關鍵詞三:可視化理論基礎
是的,可視化理論基礎依然是我最感興趣的方向之一。為什么呢?可能是因為“知其然”固然很棒,“知其所以然”常常更讓人激動不已。這一年中,我又再一次驚嘆于這話題(坑)的深與廣,就拿可視化色彩理論來說,由于色彩相關的理論在漫長的歷史發展過程中有許多不同體系和版本,而且交織著源于物理、感知等不同層面的影響,各種概念錯綜復雜,宛如一張越引越大的漁網。限于篇幅在此暫不展開,以后有機會再作單獨分享,先給感興趣的小伙伴推薦一門這方面的線上課程:Colors for Data Science A-Z: Data Visualization Color Theory,要付費但日常打折,概念講解深入淺出,舉例豐富而生動,是個人覺得挺實用,甚至有點令人驚艷的課程。
說來慚愧,2019年立的 flag 早就倒了一地,但對可視化依然是充滿熱愛與敬畏,看到數據可視化社區的發展壯大甚是開心,希望2020年能多做一點微小的貢獻吧。