智慧不是接收來的,我們必須自己去尋找。
——馬塞爾? 普魯斯特
要想完全實現數據可視化的深遠潛力,需要廣泛的技巧、能力和知識。從許多具有不同背景和視角的人身上,我總結出了一些觀察成果,其中包括數據科學家、統計學家、畫家和作家。我希望我的讀者也具有這樣的多元性。我們需要不同的視角。
歧義、矛盾和不確定性經常會造就奇妙的故事。用編碼的語言講,雙重意義有時并不是bug,而是特性。例如在科學領域中,一些最偉大的見解和發現都是意料之外的。
1、數據洪流與數據涓流:統計學家約翰? 博斯利的觀點
計算的目的是洞察力,而非數字。
——理查德? 哈明
基于多種正當的理由,不少人都把時間和精力花費在管理大數據(如果不深究用詞的明確性和準確性,大數據可不僅僅只是“大”而已)所形成的數據洪流上。不過,一些特定類型的數據實際上是一小段一小段匯入其他數據的(如圖1-18 所示)。有時,對于某一興趣領域,人們除了依賴為數不多的可用小數據外,別無選擇。
統計學家及可用性顧問約翰? 博斯利與美國勞工統計局合作,花費多年時間,圍繞美國經濟的多個方面分析了大小不一的數據集,這些方面包括:就業率及失業率、工資、物價以及生產力等。并非所有重要的數據集都是大數據——博斯利注意到一些與人類起源和進化有關的原始數據,它們的數據量極小。那些記錄了數百萬年以來人類祖先進化史的化石記錄,在他看來基本上小到可以“存放進一輛皮卡車的車廂里”。基于這個微小的數據集合,單憑一個新發現,就能令人信服地修正我們對于人類進化過程中如何進入智人階段的關鍵認知。
其他的小數據集合也許還保存在一些決策中心中,例如瀕危物種保護中心。在這些案例中,有效采樣往往是成敗的關鍵。這其中也會有運氣的成分,也就是說,樣本數據的偶然性很大(是某個時刻碰巧收集到的數據)。任何數據集合(不論規模大小)間都可能會有巨大的差異,這種差異往往是計算機的計算能力所無法解決的。試想以下情形:一位形單影只的古生物學家沿著河谷進行科考,從巖石和泥土中發現了一塊骨骼化石。這也許是收集有關數據的唯一方法。
許多數據收集起來不僅不易,而且代價不菲。例如,收集新治療方法的臨床試驗數據不僅要持續多年,還會花費上百萬美元。博斯利還說了自己的一個親身經歷:“之前見過一位醫科專家,她起初想讓我服用一種‘新型改良’藥物,但是隨后發現該藥物不在醫保范圍之內。另外,她查了該藥的零售成本,隨即說道:‘不對,這個藥只在200 位患者身上做過試驗,看來眼下還不能用。’”博斯利認為“全國每天有成千上萬人要面對這樣的決策”。在這個有關新藥物的案例中,統計學家博斯利認同了那位醫生的邏輯。不過,博斯利也承認許多患者或許不會認同醫生的想法和決定。博斯利認為“數據越少,引起分歧的幾率就會越大”。
有時,只有將“大”數據和“小”數據結合起來,才會呈現出最清晰的圖像,傳達最完整的信息。舉例來說,也許政府的情報分析師每天都通過爬網程序收集大量網絡數據,但一些關鍵數據則必須經過人工處理才能得出。收集這些數據非常不易,誰都不知道會在什么情況下收集到這些數據。隨后,確認或取消決策與行動也是如此,只能根據不同類型的數據所反映出的證據來進行決策或付諸行動。
也許是由于計算能力的不斷提升,人們對數據挖掘一類的技術越來越感興趣,因此在技術社區中,大數據也受到了越來越多的關注。這是因為大數據更易于用技術方法進行處理。然而,特定類型的數據處理也取決于人們處理和收集數據的方法。正如心理學家亞伯拉罕? 馬斯洛提出的著名的“工具定律”:如果你只有一把錘子,那么所有東西看起來都像是釘子。在這個以“強大的計算能力”為主角的世界中,在探討大數據及相關處理工具的時候,我們自然而然地會忽略只能通過人工處理才能獲得的重要的、補充性的小數據。
2、留下哪些,刪掉哪些:對話新聞學教授及科技企業家倫恩? 塞勒斯
通過何種技術和實踐,人們可以將迥然不同的客觀現實整合在一起,以便將其以一定形式組織起來,反映出這個世界準確、有趣、重要的一面?這個問題有不少答案,但只有從新聞業的角度回答,才能徹底解決這個問題。雖然傳統新聞業前景黯淡,但要將數據變成引人入勝的故事,并且和數據可視化取得聯系,新聞業的相關技巧必不可少。
新聞學教授、統計學家以及科技企業家倫恩? 塞勒斯先后從事傳統出版業和數字媒體業工作,多年來一直在思考這個問題。他認為對于記者和編輯來說,主要的一項挑戰就如同鮑勃?西格的歌詞:“留下哪些,刪掉哪些。”(What to leave in and what to leave out.)塞勒斯說:“出于本能,最優秀的編輯能從讀者的角度考慮問題,想到讀者可能會發出的疑問。”這項技能源于天賦、后天訓練以及經驗。新聞記者需要努力追尋的目標是:“我需要掌握哪些信息,才能更為全面地看待問題?”
塞勒斯說,在管理舊金山的數字設計機構睿域時,他的設計師也持同樣的態度,即把所有元素放在一起,仔細觀察,然后移除一些元素,看看設計是否還保持原樣。不過,這并不意味著作者、編輯和設計師就可以或者應該提前對所有事物作出預判,完全掌控要表達的內容:“在工作中,應該讓讀者和觀眾自行判斷,得出結論。”為了闡明這一觀點,塞勒斯舉例說,一位負責報道當地政治新聞的記者在文章中不會使用主觀性詞匯,例如文章中不會出現“今天市議會作出了十分愚蠢的決策,修改了區劃法”。即使該文章作者并未有意使用主觀性評語,但只要報道中包含、排除、排序或重新整理了某條新聞的細節,本身就屬于帶有強烈主觀性評論的文章。
看到模式,發現故事
塞勒斯的部分學術訓練還包括統計學,他認為自己在做記者的時候,統計學幫了他不少忙:“優秀的新聞記者能告訴你報道中數據的誤差幅度,我可是那種關注每一處細節的讀者。”塞勒斯說他會梳理文章中的數據,尋找相關模式,為自己寫文章積累素材:“模式如同故事或文章的梗概一樣。”雖然許多相關數據本身毫無意義,但有時在其他諸多元素之中,模式也會反映出為我們展現有趣關系的相關數據(如圖1-24 所示)。“雖然花費時間再分析數據很困難,但正是在分析的過程中,我們才發覺了數據的真正含義。”
3、與Splunk 公司首席信息官道格? 哈爾深入機器數據
錯誤像稻草,漂浮在水面。欲覓珍珠者,須往水下潛。
——約翰? 德萊頓
無論是用手機給朋友打電話還是在線預訂旅行車票,在數不勝數的交互行為中,電子交易的進程都會產生“機器數據”。大多數情況下,這些數據并不引人注目,屬于用戶和計算機發生交互行為之后留下的痕跡。乍看之下,這些數據似乎沒有特別的用途,但在特定情況下,基于不同的目的,它們能提供相當重要的視角。我們來簡單形象地解釋一下這個觀點。試想一下,如果你遭遇海難,流落到了一座荒島上。你沿著沙灘行走,尋找船的蹤跡,與此同時,在沙灘上留下了的腳印。你并不是有意留下這串痕跡的,它們只是你在行走、構思計劃或者尋求幫助的時候自然形成的。然而,救援者則會順著這些無意中留下的痕跡找到你(如圖1-39 所示)。
機器數據就像這些沙灘上的腳印一樣,在特定的環境下會非常有用。當然,和那些腳印一樣,機器數據的生命周期也很短暫。如果不加干預,它們會自行消失。這種非結構化數據的數量、種類以及復雜程度都在上升,這也讓找到這些數據創造者的機會越來越多。
道格? 哈爾是Splunk 公司的首席信息官(CIO)。Splunk 是一家致力于機器數據挖掘和可視化的公司,其業務范圍正屬于“大數據”行業,一些大型項目每天能處理TB 級別的數據。哈爾說這種機器數據的價值在于“機器數據不再局限于表層的交互,例如在特定的時間預訂或購買東西”,相反,“機器數據的價值不僅僅是展示上述交易怎樣進行,交易體驗如何以及交易時間有多長。企業客戶想知道的是那些能反映信用卡誠信度,或者其用戶是否有欺詐行為的數據”。
【旁注:我們會不時用到二維碼,以便快速鏈接到網上的內容以及一些交互實例。】
這些企業以網站日志的形式形成了龐大的數據池,因此他們發現可以從這些數據池中提取數據,開發新形式的網站分析和商業智能(BI)。哈爾認為:“這種商業智能和傳統商業智能的區別在于無需進行預先規劃(對數據庫組織和結構的描述),實際上也用不到預先規劃。”相反,這些企業可以先將數據加入到數據池中,再觀察哪些是有用的數據。哈爾還補充了一位同事的看法:“甚至還有些問題是你根本無法想到的。”他認為,無論如何也沒有辦法系統地規劃所有機器數據,因為這種方法要涉及太多的格式。他還認為:
這與傳統的商業智能幾乎完全對立。通過這種新型的商業智能,我們可以審慎地規劃要加入的表格,再對數據進行轉換、加載以及清除。在這個場景中,我們可以打開數據池,查找有趣的數據,將這些數據組織起來,并且決定其生命周期的長度。我們可以緊緊盯著數據,隨著數據的變化找到新的發現,即使不知道這些發現有何用途時也是一樣。我們可以進行初步嘗試,不斷試圖從數據中找到全新的視角,直到找到引人注目、令人信服的發現為止。這是一個全新的領域,因此我們必須接受先入者的發明,而且肯定也免不了進行大量的試錯。我們與客戶常常注意到,一般由系統管理員下載并運行軟件,然后查看軟件運行結果。隨后,他們會將自己的發現和結論分享給同事。這些結論經過數據池中的諸多筒倉,最終上報首席信息官或其他能發現數據有何用途的高管。
哈爾認為,系統管理員“能成為獨具慧眼的英雄,對于某個事物能獲得全新的理解;對于整個企業來說,他們可以發現能使企業產生變化的關鍵視角,而非僅僅局限于IT部門”。這些新的視角可以從財務上節省大量金錢。舉例來說,某家龍頭電信公司要開始檢查詳細通話記錄,并根據通話路由線路查看費率表。他們將費率數據與路由數據放在一起,創建出一種實時的通話成本圖表,用以標識他們在哪些地方花了冤枉錢。這樣,通過對系統進行調整,電信公司就可以節省數百萬美元。
盡管獲取、存儲以及檢索數據的技術在迅速發展,但這些技術終究有限。從基礎的物理條件到預算的限制,都顯示出了其局限性,因此決定存儲哪些數據是很有必要的。對于決定哪些機器數據最為有用以及這些數據有何用途,縝密的分析和討論不可或缺。哈爾說道:“盡管‘數據重生’理念要求先保存所有數據,再決定數據用途,但縝密的分析和規劃在整個過程中仍然至關重要。”
哈爾指出,諸如網站日志和應用日志之類的機器數據十分有用,因此一般可以被認為是“穩賺不賠的賭注”。遺留在這些日志中的數字印記能反映出訪客訪問網站的路徑,并且對于不同種類的分析來說也相當有用。數字印記能提供重要的視角,例如在人物、內容、地點、時間、方式相關的問題上融入全新的重要視角,有時也許還能反映用戶某些特定行為的原因。由于機器數據的各種元素代表著存儲、服務器以及網絡使用,所以數據本身也能反映重要的客戶和系統之間的交互。對于想要對客戶有更好了解以及內部有特殊技術基礎設施的企業來說,這些數據都值得保留。
除了識別這些明顯有用的數據之外,對于一些模棱兩可的灰色區域來說,要找出哪些數據值得保留并探索還需要不懈的努力。哈爾說:“針對機器數據的用途開發架構還有不少要注意的地方。”這個進程包括與客戶一起找出有價值、值得保存的數據,并使其更易快速存取(如圖1-40 所示)。哈爾稱:“有時我們會和客戶一起開會協商,他們可能不知道有哪些可能性,因此我們會在大屏幕上顯示出數據,互相交流一下意見,研究研究數據:‘我們能從這些數據中得到什么,又能用那些數據做些什么?’”
根據哈爾的觀點,另一種使得機器數據流可管理且有用的方法是創建一種“快照”。他解釋道:“先選擇機器數據的一個子集,然后創建一種子集信息的匯總索引,在特定的時段將該子集索引記錄下來,并將自己認為最有用的部分(而非全部子集)保留下來。”
我并不想說這里的每一個觀點都是絕對的,或者旨在回答每一個可能的批評。恰恰相反,文中被采訪人的意見和觀察結果并不一定完全與我的一致。我們的目標在于激發你自己的思考和想象,鼓勵交流。有些辯論是協作的一個重要方面。
本文摘自《洞悉數據:用可視化方法發掘數據真義》,點擊書名查看試讀。
作者:Hunter Whitney
譯者:劉云濤
? ? ● 人機交互領域大牛Ben Shneiderman推薦
? ? ● 可視化領域特別作品,Amazon 4.6星好評
? ? ● 資深用戶體驗設計師Hunter Whitney作品
這是一本神奇的圖書,不信?!來看下目錄。
自己好不是真的好,大家好才是真的好!所以,好的東西就要分享出來,你說是不是。。