引言
事務,體現的是部分與整體的思想,多個部分組成一個整體,要么全部生效,要么全部失效。事務就是實現這種效果的一個抽象概念。這種實現反映到數據庫中,就是多條SQL語句,要么所有執行成功,要么所有執行失敗。
ACID
在數據庫當中,一個事務必須同時滿足4個特性即:原子性(Atomic)、一致性(Consistency)、隔離性(Isolation)和持久性(Durabiliy)簡稱ACID。
原子性:表示組成一個事務的多個數據庫操作是一個不可分割的原子單元,只有所有的操作執行成功,整個事務才提交。事務中的任何一個數據庫操作失敗,已經執行的任何操作都必須撤銷,讓數據庫返回到初始狀態。
一致性:事務執行的結果必須是使數據庫從一個一致性狀態變到另一個一致性狀態。
假設數據庫的初始狀態為C0,事務T1的提交就會導致數據庫狀態從C0轉變成C1,執行事務T2的時候數據庫狀態就從C1變成C2了,以此類推,執行T(n)次事務的時候數據庫狀態就從C(n-1)變成C(n)了。
定義一致性主要有2個方面,一致讀和一致寫。
一致寫: 事務執行的數據變更只能基于上一個一致的狀態,且只能體現在一個狀態中。T(n)的變更結果只能基于C(n-1),C(n-2),...C(1)狀態,且只能體現在C(n)狀態中。也就是說,一個狀態只能有一個事務變更數據,不允許有2個或者2個以上事務在一個狀態中變量數據。至于具體一致寫基于哪個狀態,需要判斷T(n)事務是否和T(n-1),T(n-2),....T1有無依賴關系。
例如:
定義100個事務T(1)...T(100)實現相同的邏輯 update table set i=i+1,i的初始值是0,那么并發執行這100個事務之后i的值是多少?
可能很容易想到是100。那么怎么從一致性角度去理解呢?
數據庫隨機調度到T(50)執行,此時數據庫狀態是C(0),而其它事務都和T(50)有依賴關系,根據寫一致性原理,其它事務必須等到T(50)執行完畢后數據庫狀態變為C(1)才可以執行。因此數據庫利用鎖機制阻塞其它事務的執行。直到T(50)執行完畢,數據庫狀態從C(0)遷移到C(1)。數據庫喚醒其它事務后隨機調度到T(89)執行,以此類推直到所有事務調度執行完畢,數據庫狀態最終變為C(100)。
一致讀:事務讀取數據只能從一個狀態中讀取,不能從2個或者2個以上的狀態讀取。也就是T(n)只能從C(n-1),C(n-2)....C1中的一個狀態讀取數據,不能一部分數據讀取自C(n-1),而另一部分數據讀取自C(n-2)。
例如:
還是上面的例子,假設T(1)...T(100)順序執行,在不同的時機執行select i from table,我們看到i的值是什么?
1、T(1)的執行過程中。數據庫狀態尚未遷移,讀到的i=0
2、T(1)執行完畢,T(2)的執行過程中,數據庫狀態遷移至C(1),讀到的i=1隔離性:在并發數據操作時,不同的事務擁有各自的數據空間,它們的操作不會對對方產生干擾。準確地說,并非要求做到完全不干擾。數據庫規定了多種事務隔離級別,不同的隔離級別對應不同的干擾程度,隔離級別越高,數據一致性越好,但并發性越弱。
持久性:一旦事務提交成功后,事務中所有的數據操作都必須被持久化到數據庫中。即使在提交事務后,數據庫馬上崩潰,在數據庫重啟時,也必須保證能夠通過某種機制恢復數據。
在這些事務特性中,數據“一致性”是最終目標,其他特性都是為達到這個目標而采取的措施,要求或手段。
數據庫管理系統一般采用重執行日志來保證原子性、一致性、持久性。重執行日志記錄了數據庫變化的每一個動作,數據庫在一個事務中執行一部分操作后發生錯誤退出,數據庫即可根據重執行日志撤銷已經執行的操作,此外,對于已經提交的事務,即使數據庫崩潰,在重啟數據庫時也能夠根據日志對尚未持久化的數據進行相應的重執行操作。
采用數據庫鎖機制 保證事務的隔離性。當多個事務試圖對相同的數據進行操作時,只有持有鎖的事務才能操作數據,直到前一個事務完成后,后面的事務才有機會對數據進行操作。
并發
一個數據庫可能擁有多個訪問客戶端,這些客戶端都可用并發的方式訪問數據庫。數據庫中的相同數據可能同時被多個事務訪問,如果沒有采取必要的隔離措施,就會導致各種并發問題,破壞數據的完整性。這些問題可以歸結為讀與寫兩類操作上。
讀并發
1、臟讀
A事務讀取B事務尚未提交的更改數據,并在這個數據的基礎上進行操作。如果恰巧B事務回滾,那么A事務讀到的數據根本是不被承認的,如下:
在這個場景中,B希望取款500元,而后又撤消了動作,而A往相同的賬戶中轉賬100元,就因為A事務讀取了B事務尚未提交的數據,因而造成賬戶白白丟失了500元。
2、不可重復讀
不可重復讀是指A事務讀取了B事務已經提交的更改數據。假設A在取款事務的過程中,B往該賬戶轉賬100元,A兩次讀取賬戶的余額發生不一致。
在同一事務中,T4時間點和T7時間點讀取的賬戶存款余額不一致。
3、幻象讀
A事務讀取B事務提交的新增數據,這時A事務將出現幻象讀的問題。幻象讀一般發生在計算統計數據的事務中。如下:
在這個場景中,假設銀行系統在同一個事務中兩次統計存款賬戶的總金額,在兩次統計過程中,剛好新增了一個存款賬戶,并存入100元,這時兩次統計的總金額將不一致。
注:
不可重復讀是指讀到了已經提交事務的更改數據(UPDATE 或DELETE),只需對操作的數據添加行鎖就可以解決了。
幻象讀是指讀到了其他已經提交事務的新增數據(INSERT),而為了防止讀到新增的數據,往往需要添加表鎖,將整張表鎖定。
寫并發
1、第一類丟失更新(回滾丟失更新)
A事務撤消時,把已經提交的B事務的更新數據覆蓋了。這種錯誤可能造成很嚴重的問題,如下:
A事務在撤銷時,“不小心”將B事務已經轉入賬戶的金額給抹去了。
2、第二類丟失更新(提交丟失更新)
A事務覆蓋B事務已經提交的數據,造成B事務所做的操作丟失。
在上面這個場景中,由于支票轉賬事務覆蓋了取款事務對存款余額所做的更新,導致銀行最后損失了100元。相反,如果轉賬事務先提交,那么用戶賬戶將損失100元。
隔離級別
要解決上面的問題,我們很容易想到的解決辦法可能就是給數據加鎖,但如果直接給數據加鎖是非常麻煩的,而且容易出錯,因此數據庫為用戶提供了自動鎖機制,這種自動鎖機制就是我們常說的事務隔離級別,只要用戶指定會話的事務隔離級別,數據庫就會分析事務中的SQL語句,然后自動為事務操作的數據資源添加適合的鎖。
ANSI/ISO SQL92標準定義了4個等級的事務隔離級別,在相同的數據環境下,使用相同的輸入,執行相同的工作,根據不同的隔離級別,可能導致不同的結果。如下所示:
注:
事務的隔離級別和數據庫并發性是對立的。隔離級別越高并發性和吞吐量越低,發生的問題也就越少。
參考資料
1、《精通Spring4.x 企業應用開發實戰--第11章 Spring的事務管理》
2、知乎--如何理解數據庫事務中的一致性的概念?
3、《Hibernate5講義》