這些內容和后面的數據管理很抽象和乏味,大部分人可能沒有直觀感受,所以,我盡可能地記錄詳細,便于深入后回顧,我相信持之以恒的堅持和經歷項目后就會發現這些是彌足珍貴的。
這篇筆記講會說一說
- 大數據時代和三大主要數據源。
- Machines
- People
- Organizations
- 總結與每個來源相關的數量,種類,速度和真實性問題;
- 解釋五步數據科學過程,從大數據中獲取價值。
![Uploading image_999460.png . . .]
- 了解Hadoop Stack的主要元素(Pig,Hive,zookeeper等)。
大三主要數據源
在list1-Getting Started with BigData解釋了為何隨時隨地處理數據的云數據結合云計算功能的大量數據一直是大數據時代發布的核心。
大量數據通常歸結為機器,人員和機器生成數據組織生成的幾種數據。我們參考從實時感覺和工業機械或車輛產生的數據。在線跟蹤用戶行為的Web日志。而我的心理傳感器,個人健康追蹤器等眾多其他有意義的數據來源。
通過人工生成的數據,比如大量的社交媒體數據,狀態更新,推文,照片和視頻。
通過組織生成的數據,我們引用更傳統的數據類型,包括經常存儲在數據倉庫中的交易信息數據庫和結構數據。
請注意,大數據可以被結構化,半結構化和非結構化。這在后面的筆記會詳細總結的。
無論您的大數據應用程序和所使用的大數據類型如何,真正的價值將來自集成不同類型的數據源并進行規模分析??傮w而言,即使在我們開始分析之前,通過建模,管理和整合不同的流來改善業務并增加我們的大數據的價值。
作為建模和管理大數據的一部分,重點關注規模可用性的維度,并考慮與此維度相關的挑戰來選擇正確的工具。
體積,品種和速度是我們描述大數據并描述其挑戰的主要方面。我們有大量不同格式的數據,質量不同,必須快速處理。真實性是指數據的偏差,噪聲和異常,或不可測量的確定性在于數據的真實性和可信度,價格是指大數據的連通性。如圖形網絡的形式。
每個星期的大數據主要是大小,復雜性,速度,質量和連續性的挑戰性維度。雖然我們可以根據上下文列出一些其他的v'我們寧愿把這五個列為這個大數據專業化幫助您工作的基本維度。此外,我們一定要永遠忘記第六個價值觀,大數據挑戰的核心在于把所有其他方面都轉化為真正有用的商業價值。
大數據將如何使您和您的組織受益匪淺?處理所有這些大數據的想法首先在于為現有問題帶來價值。我們需要采取大數據工程和可擴展數據科學的步驟,從大數據中產生價值。我們都聽說過了。數據符號將大數據轉化為內部甚至行動。
但這是什么意思?數據符號可以被教導為實證研究的基礎。像數據一樣用來誘導觀測資料。這些觀察數據主要是數據。在我們的案例中,大數據涉及到一個企業或科學用例。
內部是我們用來指數據科學數據產品的術語。它通過探索性數據分析和建模的組合從不同數量的數據中提取出來。這些問題有時不那么具體,它可能需要仔細查看其中的模式的數據來提出一個具體的問題。數據科學不是靜態的一次性分析。它涉及一個過程,其中生成的模型給我們的見解不斷改進,進一步和前傳的證據和迭代。
summary big data 2 數據科學五個步驟
有很多方法來觀察這個過程。將其視為兩個不同的活動的一種方式。我喜歡稱之為大數據工程和大數據分析,或計算大數據科學,因為不僅僅是簡單的分析。
查看該過程的更詳細的方法揭示了數據科學過程的五個步驟或活動,即獲取,準備,分析,報告和行為。
我們可以簡單地說,數據科學發生在所有步驟的邊界。理想情況下,這個過程應該支持實驗性的工作,這些實驗工作經常被迭代,并導致更多的科學探索,以及在大數據和俱樂部平臺上使用動態可擴展性在這些探索過程中產生可操作的結果。
如果我們將不同工具的依賴關系相互添加,則這五步過程可以以現實生活中的大數據應用程序的替代方式使用。大數據的影響推動了流程每一步的替代可擴展性方法。收購包括幫助我們檢索數據的任何內容,包括查找,訪問,獲取和移動數據。它包括對所有相關數據的識別和認證訪問,以及從源到目的地的數據傳輸。
將數據分組和匹配到感興趣的地區或時間的方法,我們有時將其稱為地理空間查
我們根據活動的性質將準備數據步驟劃分為兩個子步驟。
數據準備的第一步是探索數據來了解其性質,意義,質量和格式。它經常需要對數據或數據樣本進行初步分析來了解它。這就是為什么這個主要步驟稱為準備。
一旦我們通過探索性分析了解更多數據,下一步就是預處理數據進行分析。
- 它包括清理數據,子集或過濾數據以及創建數據,哪些程序可以通過將原始數據建模為更定義的數據模型或使用特定數據格式進行打包來讀取和理解。
后面筆記也更多地總結數據模型和數據格式。
如果涉及多個數據集,此步驟還包括不同數據源或流的集成、準備好的數據將傳遞給分析步驟,其中包括選擇使用的分析技術,構建數據模型和分析結果。
此步驟可以自行進行幾次迭代,以不同的方式獲取更多數據或打包數據。所以,探索永遠不會結束。
傳達結果的第4步包括對分析結果的評估,以視覺方式呈現,創建報告,其中包括對成功標準的結果評估。此步驟中的活動通常可以用諸如解釋,總結,可視化和后處理等術語來引用。最后一步讓我們回到了我們做數據科學的第一個原因。
根據您最初定義的目的,分析分析和確定行動的洞察力,我們稱之為行為步驟。
我們現在已經看到了典型數據科學過程中的所有步驟。請注意,這是一個迭代過程,一步的發現可能需要重復以前的步驟,但需要信息,從而進一步探索和應用這些步驟。這個過程對大數據分析的可擴展性需要使用像Hadoop這樣的大數據平臺。
3、
Hadoop生態系統框架和應用程序通過幾個主要的主題和目標來提供這些功能。
首先,它們提供可擴展性,以便在商品硬件上存儲大量數據。隨著系統數量的增加,崩潰和硬件故障的機會也會增加。他們處理容錯,以從這些問題中恢復正常。此外,它們旨在處理大數據量和壓縮文本文件,社交網絡圖,流傳感器數據和光柵圖像。我們可以添加更多的數據類型到這個品種。
對于任何給定的數據類型,您可以在支持它的生態系統中找到多個項目。最后,它們便于共享環境,允許多個作業同時執行。此外,Hadoop生態系統還包括一個由大型活躍社區支持的廣泛的開源項目。這些項目可以免費使用,易于查找。
今天有超過100個大數據開源項目,而且這個繼續增長,很多依賴于Hadoop,但有些則是獨立的。這是一種查看Hadoop生態系統工具的一個子集的方式。
上面圖片是基于接口垂直組織。
底層和高級語言的存儲和調度的下層接口,頂部的交互性。Hadoop分布式文件系統或HDFS是許多大型數據框架的基礎,因為它提供了可擴展和可靠的存儲。隨著數據量的增加,您可以將商品硬件添加到HDFS以增加存儲容量。所以它使我們稱之為擴展您的資源。
Hadoop YARN為HTFS存儲提供靈活的調度和資源管理。YARN用于雅虎在40,000臺服務器上安排工作。
MapReduce是一種簡化并行計算的編程模型。而不是處理同步和調度的復雜性,您只需要給MapReduce兩個函數映射和減少。這個編程模型非常強大,以前Google已經將其用于索引網站。 MapReduce只承擔一個有限的模型來表達數據。 Hive和Pig是MapReduce之上的兩個附加編程模型,分別用關系代數和數據流建模來增加MapReduce的數據建模。
Hive在Facebook上創建,使用MapReduce在HDFS中的數據上發出類似SQL的查詢。
Pig在雅虎創建,使用MapReduce建立基于數據流的程序。感謝YARNs管理資源的能力,不僅僅是為了MapReduce而是其他編程模型。 Giraph是為了有效地處理大規模圖形而建立的。
例如,Facebook使用Giraph來分析其用戶的社交圖。類似地,Storm,Spark和Flink是為實時和內存處理大數據而構建的。在YARN資源調度程序和HDFS之上。內存中處理是運行大數據應用程序的一種強大方式,甚至更快,為某些任務實現了100倍更好的性能。有時您的數據處理或任務不能使用存儲的文件和目錄模型輕松或有效地進行表示,其中包括鍵值集合或大型稀疏表。
Cassandra MongoDB和HBase等NoSQL項目都處理了所有這些情況,Cassandra在Facebook創建,Facebook也使用HBase作為其消息平臺。
最后,運行所有這些工具需要集中管理系統進行同步,配置和確保高可用性。
由雅虎創建的Zookeeper以動物命名的服務來執行這些任務。只需查看少量的Hadoop堆棧組件,我們就可以看到,它們大都是專門用于數據建模的。管理和高效處理數據。在本課程的其余部分,我們將為您提供如何開始建模和管理數據的基礎知識和一些實踐技能,并從大量數據工具中為此活動挑選出適合的工具。