人類知識的保存對文明的進展至關重要,現在和未來皆然。由于絕大多數的新數據都以數字化的方式存在,因此對于可靠的數字存儲需求比以往任何一個時候都要更加強烈。因此數據存儲成為移動互聯網大趨勢中的一個重大的挑戰。而公子義認為的解決之道,在于透過新興且正快速成長的領域——大數據分析。
由于每年數據存儲量快速增長,對可靠的數據儲存需求顯得格外迫切。的確,移動互聯網時代大數據的產出量較實際被存儲的要多更多,例如歐洲核子研究組織(CERN) 的大型強子對撞機以光速進行粒子對撞時,每秒產生的數據量將近有1PB (petabyte);但是這類的數據,CERN每年只能儲存大約25PB,約當于8,333個3TB的硬盤。
當數字存儲器被制造時,其運作就像智慧傳感器,能夠感知自身的狀態和質量,而且能夠將自身的感測日志儲存起來。數字存儲器將會進行許多天的測試,期間并產出好幾個MB的測試、診斷、配置數據,每個數字存儲器所記錄的變量多達1,000個。此外,數字存儲器中每個重要零件的信息都會被收集起來,例如零件是如何被組裝、每個零件和數字存儲器是何時何地被制造、使用哪一種韌體、銷售給誰、以及其他許許多多的各種信息。
將這些參數、特性和量測數據集結起來,可產生數十萬個組合和相互依存的參數。無論是針對單一組合還是進行總體分析,都需要新方法、新工具,將重要的參數和信息從噪聲中萃取出來。影響數字存儲器質量、可靠性和效能的變量和參數非常多,傳統的數據分析方法已無法處理制造過程中所產出和收集的數據。
那么我們要如何因應數字存儲器質量和可靠性所面臨的挑戰呢?
透過大數據分析所具備的先進統計分析和機器學習技術,可以將傳統分析方法無法從大量數據或瑣碎的執行數據中洞察到的答案分析出來。利用大數據分析處理大量可得的數據,可協助監控產品質量及盡快排除問題。
公子義認為,為了利用大數據分析確保數字存儲器的可靠性,我們要做的第一件事,就是建立一套強大的、連貫的、端對端的數據采集流程,以捕捉所有重要的信息并進一步分析。這些數據應該隨需即得、觸手可及。而所謂的連貫性,是指必要時所有片段數據都能組合起來。每個數字存儲器都必須符合這個流程,從工廠里每個主要零件的制造日和制造地開始,到組裝生產線、配置和測試的天數、利用它們來組裝計算機或儲存系統的客戶、直到最終使用者等涵蓋數字存儲器所有生命周期的數據。
其次,我們需要儲存架構和一套適用于大數據分析和復雜數據挖掘的生態體系。亦即,傳統用來運行關系數據庫的EnterpriseData Warehouse架構,必須輔以適用于分布式分析和平行運算的解決方案,提供一個現代化的生態體系,支持SQL數據庫,以及盡可能儲存所有型態的數據(包括結構式與非結構式)和優化并行存取效能。
第三,需要大數據分析運算和解決方案的專業人員:真正的大數據科學家能利用最先進的機器學習技術,處理極大的數據集,并無縫連結所有最好的編程環境和語言、機器學習庫、以及將高度分散的儲存和分析生態體系串連起來。綜合這些能力,他們可以了解測試時所產生的復雜數據,確保最高的產品質量、可靠性和效能。
目前數字存儲器已經實行的方法,而且已經顯著地協助我們增進產品質量—這意味著有更多數據可以被保留下來,供未來擷取和使用。
現代的挑戰,需要用現代化的方法解決。如果沒有大數據分析和機器學習技術,要制造能夠儲存全球所有數據的高可靠性儲存裝置,并且達到每季出高達數千萬臺的產量,將是不可能的任務。
公子義【微信號gongzi348】80后,90后心理研究專家,4年心理學,9年大數據研究者,專注于移動互聯網,大數據究狂熱愛好者,熱愛寫作。未經許可,嚴禁轉載,違者追究法律責任。