(一)數據庫與數據庫系統
數據庫系統(DBS
)是一個采用了數據庫技術,有組織、動態地存儲大量相關數據,方便多用戶訪問的計算機系統。
組成:
- 數據庫(
DB
)
數據庫是統一管理的、長期存儲在計算機內的、有組織的相關數據的集合。 - 硬件
硬件是構成計算機系統的各種物理設備,包括存儲數據所需的外部設備。 - 軟件
軟件包括操作系統、數據庫管理系統及應用程序。 - 人員
分為系統分析員和數據庫設計人員、應用程序員、最終用戶、數據庫管理員。
(二)數據庫管理系統的功能
數據庫管理系統(DBMS
)主要實現對共享數據有效地組織、管理和存取。
具有的六項功能:
- 數據定義
數據定義語言(DDL
),用戶可以對數據庫的結構進行描述,包括外模式、模式和內模式的定義;數據庫的完整性定義;安全保密定義,如口令、級別和存取權限等。 - 數據庫操作
數據操作語言(DML
),實現對數據庫中數據的基本操作,例如檢索、插入、修改和刪除。
DML
分為兩類:- 宿主型
宿主型是指DML
語句嵌入某種主語言(C、COBOL等
)中使用。 - 自含型
自含型是指可以單獨使用DML
語句,供用戶交互使用。
- 宿主型
- 數據庫運行管理
數據庫在運行期間多用戶環境下的并發控制、安全性檢查和存取控制、完整性檢查和執行、運行日志的組織管理、事務管理和自動恢復等是重要組成部分。 - 數據的組織、存儲和管理
包括數據字典、用戶數據和存取路徑等。 - 數據庫的建立和維護
包括數據庫的初始建立、數據的轉換、數據庫的轉儲和恢復、數據庫的重組和重構、性能監測和分析等。 - 其他功能
包括網絡通信功能,一個DBMS
與另一個DBMAS
或文件系統的數據轉換功能,異構數據庫之間的互訪和互操作能力等。
(三)數據管理系統的特征及分類
1. DBMS的特征
通過DBMS
來管理數據具有以下特點:
- 數據結構化且統一管理
數據庫中的數據由DBMS
統一管理。數據庫系統采用復雜的數據模型表示數據結構,數據模型不僅描述數據本身的特點,還描述數據之間的聯系。 - 有較高的數據獨立性
數據的獨立性是指數據與程序獨立,將數據的定義從程序中分離出去,由DBMS
負責數據的存儲,應用程序關心的只是數據的邏輯結構,無須了解數據在磁盤上的數據庫中的存儲形式,從而簡化應用程序,大大減少了應用程序編制的工作量。
數據的獨立性包括數據的物理獨立性和數據的邏輯獨立性。 - 數據控制功能
- 數據庫的安全性
是指保護數據庫以防止不合法的使用所造成的數據泄漏、更改或破壞。 - 數據庫的完整性
是指數據庫的正確性和相容性,是防止合法用戶使用數據庫時向數據庫加入不符合語義的數據,保證數據庫中的數據是正確的,避免非法的更新。 - 并發控制
負責協調并發事務的執行,保證數據庫的完整性不受破壞,避免用戶得到不正確的數據。 - 故障恢復
數據庫中的四類故障是事務內部故障、系統故障、介質故障及計算機病毒。
故障恢復主要是指恢復數據庫本身,即在故障引起數據庫當前狀態不一致時將數據庫恢復到某個正確狀態或一致狀態。
恢復的原理是建立冗余數據,冗余是物理級的,通常認為邏輯級是沒有冗余的。
- 數據庫的安全性
2. DBMS的分類
DBMS
通常分為三類:
- 關系數據庫系統(
RDBS
)
關系數據庫系統是建立在關系數據庫模型基礎上的數據庫,借助于集合代數等概念和方法來處理數據庫中的數據。
主流關系型數據庫有:Orcale、Mysql、Sybase
等。
在關系模型中,實體以及實體間的聯系都是用關系來表示的。所有實體及實體之間聯系的關系的集合構成一個關系數據庫。 - 面向對象的數據庫系統(
OODBS
)
面向對象的數據庫系統是支持以對象形式對數據建模的數據庫管理系統,包括對對象的類、類屬性的繼承和子類的支持。
面向對象數據庫系統的特點:- 面向對象數據模型能完整地描述現實世界的數據結構,能表達數據間的嵌套、遞歸聯系;
- 具有面向對象技術的封裝性和繼承性提高了軟件的可重用性。
- 對象關系數據庫系統(
ORDBS
)
對象關系數據庫系統是在傳統的關系數據模型基礎上提供元組、數據、集合等更為豐富的數據類型以及處理新的數據類型操作的能力。
(四)數據庫系統的體系結構
數據庫系統的體系結構受數據庫運行所在的計算機系統的影響很大,尤其是受計算機體系結構中的連網、并行和分布的影響。
從最終用戶的角度看,數據庫系統體系結構分為集中式、分布式、C/S
(客戶端/服務器)和并行結構。
從數據庫管理系統的角度看,數據庫系統體系結構一般采用三級模式結構。
1. 集中式數據庫系統
數據是集中的,數據的管理也是集中的,數據庫系統的所有功能都集中在DBMS
所在的計算機上。
目前這種系統還在使用。
2. 客戶端/服務器結構
在這種結構中,一個處理機(客戶端)的請求被送到另一個處理機(服務器)上執行。
客戶端主要負責數據表示服務,服務器主要負責數據庫服務。
數據庫服務器一般可分為:
- 事務服務器
也稱為查詢服務器,它提供一個接口,使得客戶端可以發出執行一個動作的請求,服務器響應客戶端請求,并將執行結果返回給客戶端。 - 數據服務器
數據服務器系統使得客戶端可以與服務器交互,以文件或頁面為單位對數據進行讀取或更新。
3. 并行數據庫系統
并行數據庫系統分為:
-
共享內存式多處理器
共享內存式多處理器是指一臺計算機上同時有多個活動的CPU
,它們共享單個內存和一個公共磁盤接口。
共享式多處理器體系結構 -
無共享式并行體系結構
無共享式并行體系結構是指一臺計算機上同時有多個活動的C PU
,并且它們都有自己的內存和磁盤。
無共享式并行體系結構
4. 分布式數據庫系統
分布式數據庫系統分為:
- 物理上分布、邏輯上集中的分布式數據庫結構
把單位的數據模式按數據來源和用途合理地分布在系統的多個結點上,使大部分數據可以就地或就近存取。數據在物理上分布后,由系統統一管理,使用戶不感到數據的分布。 - 物理上分布、邏輯上分布的分布式數據庫結構
一般由兩部分組成:一是本結點的數據模式,二是本結點共享的其他結點上有關的數據模式。結點間的數據共享由雙方協商確定。這種數據庫結構有利于數據庫的集成、擴展和重新配置。
(五)數據庫的三級模式結構
數據的存儲結構各不相同,但體系結構基本上都具有相同的特征,采用“三級模式和兩級映像”。如下圖所示:
數據庫系統采用三級模式結構,這是數據庫管理系統內部的系統結構。
數據庫有“型”和“值”的概念,“型”是指對某一數據的結構和屬性的說明,“值”是型的一個具體賦值。
數據庫系統設計人員可以在視圖層、邏輯層和物理層對數據進行抽象,通過外模式、概念模式和內模式來描述不同層次上的數據特性。
1. 概念模式
概念模式也稱為模式,它是數據庫中全部數據的邏輯結構和特征的描述,由若干個概念記錄類型組成,只涉及型的描述,不涉及具體的值。
概念模式的一個具體值稱為模式的一個實例,同一個模式可以有很多實例。
概念模式反映的是數據庫的結構及其聯系,所以的相對穩定的;而實例反映的是數據庫某一時刻的狀態,所以是相對變動的。
描述概念模式的數據定義語言稱為“模式DDL
”。
2. 外模式
外模式也稱為用戶模式或子模式,是用戶與數據庫系統的接口,是用戶用到的那部分數據的描述。
它由若干個外部記錄類型組成。用戶使用數據操作語言對數據庫進行操作,實際上是對外模式的外部記錄進行操作。
描述外模式的數據定義語言稱為“外模式DDL
”。
3. 內模式
內模式也稱為存儲模式,是數據物理機構和存儲方式的描述,是數據在數據庫內部的表示方式,定義所有的內部記錄類型、索引和文件的組織方式,以及數據控制方面的細節。
描述內模式的數據定義語言稱為“內模式DDL
”。
4. 兩級映像
數據庫系統在三級模式之間提供了兩級映像:
- 模式/內模式映像
- 外模式/模式映像
正因為這兩級映像保證了數據庫中的數據具有較高的邏輯獨立性和物理獨立性。
數據的物理獨立性是指當數據庫的內模式發生改變時,數據的邏輯結構不變。
數據的邏輯獨立性是指用戶的應用程序與數據庫的邏輯結構是相互獨立的。
(六)大數據
1. 大數據產生的背景
大數據是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合”。
產生的背景:
- 數據來源和承載方式的變革
- 全球數據量出現爆炸式增長
- 大數據已經成為一種自然資源
- 大數據日益重要,不被利用就是成本
2. 大數據的特征
業界通常用“4V
”來概況大數據的特征:
- 大量化指數據體量巨大
- 多樣化指數據類型繁多
- 價值密度低指大量的不相關信息導致價值密度的高低與數據總量的大小成反比
- 快速化指處理速度快
3. 理解大數據
大數據不僅僅是指海量的信息,更強調人類對信息的篩選、處理,保留有價值的信息,即讓大數據更有意義,挖掘其潛在的“大價值”這才是對大數據的正確理解。
需要解決的問題包括:
- 高并發數據存取的性能要求及數據存儲的橫向擴展問題
- 實現大數據資源化、知識化、普適化的問題,解決這些問題的關鍵是對非結構化數據的內容理解
- 非結構化海量信息的智能化處理問題,主要解決自然語言理解、多媒體內容理解、機器學習等問題
大數據時代面臨的三大挑戰:
- 軟件和數據處理能力
- 資源和共享管理
- 數據處理的可信力
4. 大數據產生的安全風險
安全風險:
- 大數據成為網絡攻擊的顯著目標
- 大數據加大了隱私泄露風險
- 大數據威脅現有的存儲和安防措施
- 大數據技術成為黑客的攻擊手段
- 大數據成為高級可持續攻擊的載體
- 大數據技術為信息安全提供新支撐