E
ETL:ETL 代表提取、轉換和加載。它指的是這一個過程:「提取」原始數據,通過清洗/豐富的手段,把數據「轉換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使 ETL 源自數據倉庫,但是這個過程在獲取數據的時候也在被使用,例如,在大數據系統(tǒng)中從外部源獲得數據。
企業(yè)級應用(Enterprise applications):其實是一個軟件行業(yè)內部通用的一個術語。如果解釋成通俗易懂的話來說,那就是一個企業(yè)范圍內所使用的、基于計算機的穩(wěn)定的、安全的和高效的分布式信息管理系統(tǒng)。
探索性分析(Exploratory analysis) :在沒有標準的流程或方法的情況下從數據中發(fā)掘模式。是一種發(fā)掘數據和數據集主要特性的一種方法
E字節(jié)(EB: Exabytes):約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB。
提取-轉換-加載(ETL: Extract, Transform and Load) – 是一種用于數據庫或者數據倉庫的處理過程。即從各種不同的數據源提取(E)數據,并轉換(T)成能滿足業(yè)務需要的數據,最后將其加載(L)到數據庫。
企業(yè)生產力(Enterrrise productivity):企業(yè)在一定時期為社會提供某種產品或勞務的能力。
F
模糊邏輯(Fuzzy logic):我們有多少次對一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數據聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。
故障切換(Failover) :當系統(tǒng)中某個服務器發(fā)生故障時,能自動地將運行任務切換到另一個可用服務器或節(jié)點上。
架構(Framework):又名軟件架構,是有關軟件整體結構與組件的抽象描述,用于指導大型軟件系統(tǒng)各個方面的設計。
流量監(jiān)控(Flow monitoring): 流量監(jiān)控指的是對數據流進行的監(jiān)控,通常包括出數據、入數據的速度、總流量。微信用戶可以在騰訊手機管家4.7上實現流量的精準監(jiān)控。
容錯設計(Fault-tolerant design) :一個支持容錯設計的系統(tǒng)應該能夠做到當某一部分出現故障也能繼續(xù)運行。
金融(Finance):是人們在不確定環(huán)境中進行資源跨期的最優(yōu)配置決策的行為。
G
游戲化(Gamification) :在其他非游戲領域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創(chuàng)建和偵測,非常有效。
圖形數據庫(Graph Databases) :運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數據,這種圖形存儲結構包括邊緣、屬性和節(jié)點。它提供了相鄰節(jié)點間的自由索引功能,也就是說,數據庫中每個元素間都與其他相鄰元素直接關聯(lián)。
網格計算(Grid computing) :將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。
H
Hadoop 用戶體驗(Hadoop User Experience /Hue):Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務設計;它有能夠調度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。
人力資本(Human capital):是指勞動者受到教育、培訓、實踐經驗、遷移、保健等方面的投資而獲得的知識和技能的積累,亦稱“非物力資本”。
硬件設施(Hardware): 計算機系統(tǒng)中由電子,機械和光電元件等組成的各種物理裝置的總稱。
高性能分析應用(HANA):這是 SAP 公司為大數據傳輸和分析設計的一個軟硬件內存平臺。
HBase: 一個分布式的面向列的數據庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。
Hadoop – 一個開源的分布式系統(tǒng)基礎框架,可用于開發(fā)分布式程序,進行大數據的運算與存儲。
Hadoop數據庫(HBase) :一個開源的、非關系型、分布式數據庫,與Hadoop框架共同使用。
分布式文件系統(tǒng)(Hadoop Distributed File System):是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。
高性能計算(HPC: High-Performance-Computing) :使用超級計算機來解決極其復雜的計算問題。
部署在云上的Hadoop(Hadoop in the cloud):某些云解決方案完全基于某個特定服務,該服務將會加載并處理數據。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一個 MapReduce 服務,該服務可以處理高達 20GB 的信息。但 Hadoop 服務的大小、配置與復雜性是不可配置的。其他基于服務的解決方案也提供同樣類別的復雜性。
I
基礎設施即服務(Infrastructure As a Service):消費者通過Internet 可以從完善的計算機基礎設施獲得服務。這類服務稱為基礎設施即服務。
基礎設施即代碼(Infrastructure As a Code):一種通過源代碼就可以解析計算和網絡架構的一種方式,然后就可以認為是任何一種軟件系統(tǒng)。這些代碼可以在源代碼管理中被保存以確保可審性和再塑性,受限于測試實踐和持續(xù)交付的所有準則。這是十幾年前就被用在處理成長中的云計算平臺的方法,也將會是日后處理計算架構的主要方式。
內存計算(In-memory computing):通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把所有的工作數據集都移動到集群的集體內存中,避免了在計算過程中向磁盤寫入中間結果。Apache Spark 就是一個內存計算的系統(tǒng),它相對 Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢。
物聯(lián)網(IoT):最新的流行語就是物聯(lián)網(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備通過英特網的互聯(lián),它們能夠收發(fā)數據。物聯(lián)網生成了海量的數據,帶來了很多大數據分析的機遇。
內存數據庫(IMDB: In-memory) :一種數據庫管理系統(tǒng),與普通數據庫管理系統(tǒng)不同之處在于,它用主存來存儲數據,而非硬盤。其特點在于能高速地進行數據的處理和存取。
法律上的數據一致性(Juridical data compliance) :當你使用的云計算解決方案,將你的數據存儲于不同的國家或不同的大陸時,就會與這個概念扯上關系了。你需要留意這些存儲在不同國家的數據是否符合當地的法律。