各種大數據的名詞簡介

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。
HDFS(Hadoop Distributed File System):HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。

MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。

HBase (Hadoop Database),是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統(File System)所提供的分布式數據存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。

Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。

ZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
使用Spark的公司有:亞馬遜,雅虎,NASA JPL,eBay還有百度等。

Storm為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用于“連續計算”(continuous computation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。

使用Storm的公司有:Twitter,雅虎,Spotify還有The Weather Channel等。

NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,是一項全新的數據庫革命性運動。包含四大類:
鍵值(Key-Value)存儲數據庫,如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
列存儲數據庫,如:Cassandra, HBase, Riak.
文檔型數據庫,如:CouchDB, MongoDb
圖形(Graph)數據庫如:Neo4J, InfoGrid, Infinite Grap
NoSQL數據庫在以下的這幾種情況下比較適用:1、數據模型比較簡單;2、需要靈活性更強的IT系統;3、對數據庫性能要求較高;4、不需要高度的數據一致性;5、對于給定key,比較容易映射復雜值的環境。

MongoDB 是由C++語言編寫的,是一個基于分布式文件存儲的開源數據庫系統。MongoDB 將數據存儲為一個文檔,數據結構由鍵值(key=>value)對組成。MongoDB 文檔類似于 JSON 對象。

Redis是一個開源的使用ANSI C語言編寫、支持網絡、可基于內存亦可持久化的日志型、Key-Value數據庫,并提供多種語言的API。目前,Vmware在資助著redis項目的開發和維護。

Cassandra是一套開源分布式NoSQL數據庫系統。它最初由Facebook開發,用于儲存收件箱等簡單格式數據,集GoogleBigTable的數據模型與Amazon Dynamo的完全分布式的架構于一身,Facebook于2008將 Cassandra 開源,此后,由于Cassandra良好的可擴展性,被Digg、Twitter等知名Web 2.0網站所采納,成為了一種流行的分布式結構化數據存儲方案。

CouchDB(Cluster Of Unreliable Commodity Hardware) 是一個開源的面向文檔的數據庫管理系統,可以通過 RESTful JavaScript Object Notation (JSON) API 訪問。

HANA(High-Performance Analytic Appliance ),HANA是一個軟硬件結合體,提供高性能的數據查詢功能,用戶可以直接對大量實時業務數據進行查詢和分析,而不需要對業務數據進行建模、聚合等。SAP HANA是集結了SAP與IBM、惠普、思科、富士通、英特爾等硬件商一起合作的結晶,優化的軟硬件合成產品將基于內存的計算植入到了業務應用的核心。

Oracle Exadata 是核心由Database Machine(數據庫服務器) 與 Exadata Storage Server (存儲服務器) 組成的一體機硬件平臺。

關系數據庫,是建立在關系模型基礎上的數據庫,借助于集合代數等數學概念和方法來處理數據庫中的數據。關系模型就是指二維表格模型,因而一個關系型數據庫就是由二維表及其之間的聯系組成的一個數據組織。當前主流的關系型數據庫有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL等。

結構化查詢語言(Structured Query Language)簡稱SQL(發音:/?es kju? ?el/ "S-Q-L"),是一種特殊目的的編程語言,是一種數據庫查詢和程序設計語言,用于存取數據以及查詢、更新和管理關系數據庫系統。

半結構化數據(semi-structured data )和普通純文本相比,半結構化數據具有一定的結構性,但和具有嚴格理論模型的關系數據庫的數據相比。OEM(Object exchange Model)是一種典型的半結構化數據模型.它是結構化的數據,但是結構變化很大。因為要了解數據的細節所以不能將數據簡單的組織成一個文件按照非結構化數據處理,由于結構變化很大也不能夠簡單的建立一個表和他對應。

非結構化數據
像圖片、聲音、視頻等等。這類信息我們通常無法直接知道他的內容。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容