分布式算法

分布式架構

架構演變

最開始,由于某些想法,于是在互聯網上搭建了一個網站,這個時候甚至有可能主機都是租借的,但由于這篇文章我們只關注架構的演變歷程,因此就假設這個時候已經是托管了一臺主機,并且有一定的帶寬了,這個時候由于網站具備了一定的特色,吸引了部分人訪問,逐漸你發現系統的壓力越來越高,響應速度越來越慢,而這個時候比較明顯的是數據庫和應用互相影響,應用出問題了,數據庫也很容易出現問題,而數據庫出問題的時候,應用也容易出問題,于是進入了第一步演變階段:將應用和數據庫從物理上分離,變成了兩臺機器,這個時候技術上沒有什么新的要求,但你發現確實起到效果了,系統又恢復到以前的響應速度了,并且支撐住了更高的流量,并且不會因為數據庫和應用形成互相的影響。

這一步架構演變對技術上的知識體系基本沒有要求。

架構演變第二步:增加頁面緩存

好景不長,隨著訪問的人越來越多,你發現響應速度又開始變慢了,查找原因,發現是訪問數據庫的操作太多,導致數據連接競爭激烈,所以響應變慢,但數據庫連接又不能開太多,否則數據庫機器壓力會很高,因此考慮采用緩存機制來減少數據庫連接資源的競爭和對數據庫讀的壓力,這個時候首先也許會選擇采用squid 等類似的機制來將系統中相對靜態的頁面(例如一兩天才會有更新的頁面)進行緩存(當然,也可以采用將頁面靜態化的方案),這樣程序上可以不做修改,就能夠很好的減少對webserver的壓力以及減少數據庫連接資源的競爭,OK,于是開始采用squid來做相對靜態的頁面的緩存。
前端頁面緩存技術,例如squid,如想用好的話還得深入掌握下squid的實現方式以及緩存的失效算法等。

架構演變第三步:增加頁面片段緩存

增加了squid做緩存后,整體系統的速度確實是提升了,webserver的壓力也開始下降了,但隨著訪問量的增加,發現系統又開始變的有些慢了,在嘗到了squid之類的動態緩存帶來的好處后,開始想能不能讓現在那些動態頁面里相對靜態的部分也緩存起來呢,因此考慮采用類似ESI之類的頁面片段緩存策略,OK,于是開始采用ESI來做動態頁面中相對靜態的片段部分的緩存。
這一步涉及到了這些知識體系:
頁面片段緩存技術,例如ESI等,想用好的話同樣需要掌握ESI的實現方式等;

架構演變第四步:數據緩存 redis

在采用ESI之類的技術再次提高了系統的緩存效果后,系統的壓力確實進一步降低了,但同樣,隨著訪問量的增加,系統還是開始變慢,經過查找,可能會發現系統中存在一些重復獲取數據信息的地方,像獲取用戶信息等,這個時候開始考慮是不是可以將這些數據信息也緩存起來呢,于是將這些數據緩存到本地內存,改變完畢后,完全符合預期,系統的響應速度又恢復了,數據庫的壓力也再度降低了不少。

這一步涉及到了這些知識體系:

緩存技術,包括像Map數據結構、緩存算法、所選用的框架本身的實現機制等。

架構演變第五步: 增加webserver

 好景不長,發現隨著系統訪問量的再度增加,webserver機器的壓力在高峰期會上升到比較高,這個時候開始考慮增加一臺webserver,這也是為了同時解決可用性的問題,避免單臺的webserver down機的話就沒法使用了,在做了這些考慮后,決定增加一臺webserver,增加一臺webserver時,會碰到一些問題,典型的有:

1、如何讓訪問分配到這兩臺機器上,這個時候通常會考慮的方案是Apache自帶的負載均衡方案,或LVS這類的軟件負載均衡方案;
2、如何保持狀態信息的同步,例如用戶session等,這個時候會考慮的方案有寫入數據庫、寫入存儲、cookie或同步session信息等機制等; (將session寫入到同一個地方 或者不同用戶的session分配到不同的服務器上 )
3、如何保持數據緩存信息的同步,例如之前緩存的用戶數據等,這個時候通常會考慮的機制有緩存同步或分布式緩存;(分布式緩存:將key的hash值對機器數取模,或者一致性hash算法 redis可以持久化)
4、如何讓上傳文件這些類似的功能繼續正常,這個時候通常會考慮的機制是使用共享文件系統或存儲等;(共享文件 共享存儲)
在解決了這些問題后,終于是把webserver增加為了兩臺,系統終于是又恢復到了以往的速度。
ps:在這個過程中還是使用的同一個數據庫。
這一步涉及到了這些知識體系:

負載均衡技術(包括但不限于硬件負載均衡、軟件負載均衡、負載算法、linux轉發協議、所選用的技術的實現細節等)、主備技術(包括但不限于 ARP欺騙、linux heart-beat等)、狀態信息或緩存同步技術(包括但不限于Cookie技術、UDP協議、狀態信息廣播、所選用的緩存同步技術的實現細節等)、共享文件技術(包括但不限于NFS等)、存儲技術(包括但不限于存儲設備等)。

架構演變第六步:分庫(分庫分表)

 享受了一段時間的系統訪問量高速增長的幸福后,發現系統又開始變慢了,這次又是什么狀況呢,經過查找,發現數據庫寫入、更新的這些操作的部分數據庫連接的資源競爭非常激烈,導致了系統變慢,這下怎么辦呢,此時可選的方案有數據庫集群和分庫策略,集群方面像有些數據庫支持的并不是很好,因此分庫會成為比較普遍的策略,分庫也就意味著要對原有程序進行修改,一通修改實現分庫后,不錯,目標達到了,系統恢復甚至速度比以前還快了。
 這一步涉及到了這些知識體系:

 這一步更多的是需要從業務上做合理的劃分,以實現分庫,具體技術細節上沒有其他的要求;

 但同時隨著數據量的增大和分庫的進行,在數據庫的設計、調優以及維護上需要做的更好,因此對這些方面的技術還是提出了很高的要求的。

架構演變第七步:分表、DAL和分布式緩存

 隨著系統的不斷運行,數據量開始大幅度增長,這個時候發現分庫后查詢仍然會有些慢,于是按照分庫的思想開始做分表的工作,當然,這不可避免的會需要對程序進行一些修改,也許在這個時候就會發現應用自己要關心分庫分表的規則等,還是有些復雜的,于是萌生能否增加一個通用的框架來實現分庫分表的數據訪問,這個在ebay的架構中對應的就是DAL,這個演變的過程相對而言需要花費較長的時間,當然,也有可能這個通用的框架會等到分表做完后才開始做,同時,在這個階段可能會發現之前的緩存同步方案出現問題,因為數據量太大,導致現在不太可能將緩存存在本地,然后同步的方式,需要采用分布式緩存方案了,于是,又是一通考察和折磨,終于是將大量的數據緩存轉移到分布式緩存上了。
 這一步涉及到了這些知識體系:
 分表更多的同樣是業務上的劃分,技術上涉及到的會有動態hash算法、consistent hash算法等;

 DAL涉及到比較多的復雜技術,例如數據庫連接的管理(超時、異常)、數據庫操作的控制(超時、異常)、分庫分表規則的封裝等;

架構演變第八步:增加更多的webserver

 在做完分庫分表這些工作后,數據庫上的壓力已經降到比較低了,又開始過著每天看著訪問量暴增的幸福生活了,突然有一天,發現系統的訪問又開始有變慢的趨勢了,這個時候首先查看數據庫,壓力一切正常,之后查看webserver,發現apache阻塞了很多的請求,而應用服務器對每個請求也是比較快的,看來是請求數太高導致需要排隊等待,響應速度變慢,這還好辦,一般來說,這個時候也會有些錢了,于是添加一些webserver服務器,在這個添加 webserver服務器的過程,有可能會出現幾種挑戰:
 1、Apache的軟負載或LVS軟負載等無法承擔巨大的web訪問量(請求連接數、網絡流量等)的調度了,這個時候如果經費允許的話,會采取的方案是購買硬件負載,例如F5、Netsclar、Athelon之類的,如經費不允許的話,會采取的方案是將應用從邏輯上做一定的分類,然后分散到不同的軟負載集群中;
 2、原有的一些狀態信息同步、文件共享等方案可能會出現瓶頸,需要進行改進,也許這個時候會根據情況編寫符合網站業務需求的分布式文件系統等;
 在做完這些工作后,開始進入一個看似完美的無限伸縮的時代,當網站流量增加時,應對的解決方案就是不斷的添加webserver。
 這一步涉及到了這些知識體系:

 到了這一步,隨著機器數的不斷增長、數據量的不斷增長和對系統可用性的要求越來越高,這個時候要求對所采用的技術都要有更為深入的理解,并需要根據網站的需求來做更加定制性質的產品。

架構演變第九步:數據讀寫分離和廉價存儲方案

 突然有一天,發現這個完美的時代也要結束了,數據庫的噩夢又一次出現在眼前了,由于添加的webserver太多了,導致數據庫連接的資源還是不夠用,而這個時候又已經分庫分表了,開始分析數據庫的壓力狀況,可能會發現數據庫的讀寫比很高,這個時候通常會想到數據讀寫分離的方案,當然,這個方案要實現并不容易,另外,可能會發現一些數據存儲在數據庫上有些浪費,或者說過于占用數據庫資源,因此在這個階段可能會形成的架構演變是實現數據讀寫分離,同時編寫一些更為廉價的存儲方案,例如BigTable這種。

 這一步涉及到了這些知識體系:

 數據讀寫分離要求對數據庫的復制、standby等策略有深入的掌握和理解,同時會要求具備自行實現的技術;

 廉價存儲方案要求對OS的文件存儲有深入的掌握和理解,同時要求對采用的語言在文件這塊的實現有深入的掌握。

架構演變第十步:進入大型分布式應用時代和廉價服務器群夢想時代

 經過上面這個漫長而痛苦的過程,終于是再度迎來了完美的時代,不斷的增加webserver就可以支撐越來越高的訪問量了,對于大型網站而言,人氣的重要毋庸置疑,隨著人氣的越來越高,各種各樣的功能需求也開始爆發性的增長,這個時候突然發現,原來部署在webserver上的那個web應用已經非常龐大了,當多個團隊都開始對其進行改動時,可真是相當的不方便,復用性也相當糟糕,基本是每個團隊都做了或多或少重復的事情,而且部署和維護也是相當的麻煩,因為龐大的應用包在N臺機器上復制、啟動都需要耗費不少的時間,出問題的時候也不是很好查,另外一個更糟糕的狀況是很有可能會出現某個應用上的bug就導致了全站都不可用,還有其他的像調優不好操作(因為機器上部署的應用什么都要做,根本就無法進行針對性的調優)等因素,根據這樣的分析,開始痛下決心,將系統根據職責進行拆分,于是一個大型的分布式應用就誕生了,通常,這個步驟需要耗費相當長的時間,因為會碰到很多的挑戰:
 1、拆成分布式后需要提供一個高性能、穩定的通信框架,并且需要支持多種不同的通信和遠程調用方式;
 2、將一個龐大的應用拆分需要耗費很長的時間,需要進行業務的整理和系統依賴關系的控制等;
 3、如何運維(依賴管理、運行狀況管理、錯誤追蹤、調優、監控和報警等)好這個龐大的分布式應用。
 經過這一步,差不多系統的架構進入相對穩定的階段,同時也能開始采用大量的廉價機器來支撐著巨大的訪問量和數據量,結合這套架構以及這么多次演變過程吸取的經驗來采用其他各種各樣的方法來支撐著越來越高的訪問量。
 這一步涉及到了這些知識體系:

神器出場

分布式:任務、數據拆分
集群:數據同一份,需要進行同步,作為主備專用。

如果你需要High 可用性,也就是純粹的高性能,那么就要以一致性或容錯性為犧牲。(分布式理論CAP理論)

kubernetes 這塊之后看專門的ppt就好。

分布式web服務器、分布式緩存的方法策略

負載均衡
session一致性的問題:共享存儲(寫入到數據庫中,或寫入到文件系統中),或者將不同的session分配到不同的服務器中。
分布式緩存:
key的hash對機器數取模
這個算法的實現非常簡單,計算hash(key)/n,n為機器數,得到的值就是該key需要路由到的服務器編號了。
優點:實現簡單
缺點:在服務器數量發生變化的時候,緩存會大量失效。
一致性hash:
首先計算各機器的hash值。然后計算key的hash值,計算出key的hash值讓其沿著hash圓環繞行,則可得到這個key下一個應該存在哪臺機器上。

分布式數據庫、數據庫集群的方法策略

分布式數據庫:分庫、分表,讀寫分離,解決高并發的問題。
讀寫分離思路(master/slave 多數據庫)
數據庫集群:用來做備份,實現高可靠的問題。

kubernetes可以解決數據庫的高并發問題?
如果引入主從數據庫,那么一定會出現同步的問題,同步是繞不開的,并且同步過程中會消耗相應的時間。

分布一致性算法并不是解決并發的方法,而是用來解決可靠性。

在這個過程中出現的幾種算法 理解算法過程

  1. 一致性hash算法
  2. paxos算法
  3. raft算法
  4. pbft算法
  5. 將key的hash值對機器數取模
  6. map/reduce 算法

分布式一致性算法

1、表決
2、容錯
3、可靠性

傳統出于性能考慮使用分布式一致性算法可能性比較小。

一般來說 都是使用分布式,把任務打散,分別存儲不同的數據,這樣就不涉及到數據一致性的事情。
分布式一致性算法非常影響并發。

幾種主要的分布式一致性算法主要思路

paxos

 階段1
 a) proposer向網絡內超過半數的acceptor發送prepare消息
 b) acceptor正常情況下回復promise消息  (promise消息:允許消息)
 階段2
 a) 在有足夠多acceptor回復promise消息時,proposer發送accept消息
 b) 正常情況下acceptor回復accepted消息   (accept消息:接收消息)

 paxos 半數通過即ok  proposer 可以1~n個,不涉及選舉。
 cap   C比A重要  paxos典型例子:paxosStore  每秒近億次請求 并不代表tps每秒1億次。是所有幾千臺機器合起來的paxos請求每秒近億次

raft

 raft典型例子:日志復制

 1. 選舉Leader
 2. Leader生成Log,并與Follower進行Headbeats同步
 選舉Leader
 Follower自增當前任期,轉換為Candidate,對自己投票,并發起RequestVote RPC,等待下面三種情形發生;

 1. 獲得超過半數服務器的投票,贏得選舉,成為Leader
 2. 另一臺服務器贏得選舉,并接收到對應的心跳,成為Follower
 3. 選舉超時,沒有任何一臺服務器贏得選舉,自增當前任期,重新發起選舉

同步日志
Leader接受客戶端請求,Leader更新日志,并向所有Follower發送Heatbeats,同步日志。所有Follwer都有ElectionTimeout,如果在ElectionTimeout時間之內,沒有收到Leader的Headbeats,則認為Leader失效,重新選舉Leader

安全性保證

  1. 日志的流向只有Leader到Follower,并且Leader不能覆蓋日志
  2. 日志不是最新者不能成為Candidate

pbft

pbft quorum和paxos的quorum 有些區別。

1、pre-prepare
2、prepare
3、commit

一個非常不錯的pbft算法介紹:
http://blog.csdn.net/kojhliang/article/details/71515199?utm_source=itdadao&utm_medium=referral

pre-prepare階段

主節點收到客戶端請求,給請求編號,并發送pre-pre類型信息給其他從節點。

從1節點收到pre-pre類型信息,如果同意這個請求的編號,如果同意就進入prepare階段。

prepare階段

從1節點同意主節點請求的編號,將發送prepare類型消息給主節點和其他兩個從節點。如果不發,表示不同意。

從1節點如果收到另外兩個從節點都發出的同意主節點分配的編號的prepare類型的消息,則表示從1節點的狀態為prepared,該節點會擁有一個prepared認證證書。

為了防止viewchange導致主節點給請求分配的編號失效,引入commit階段。

commit階段

從1節點進入prepared狀態后,將發送一條COMMIT類型信息給其它所有節點告訴他們它有一個prepared認證證書了。

如果從1節點收到2f+1條commit信息,證明從1節點已經進入commited狀態。

只通過這一個節點,我們就能認為客戶端的請求在需要的節點中都到達了prepared狀態,每一個需要的節點都同意了主節點分配的編號。當一個請求在某個節點中到達commited狀態后,該請求就會被該節點執行。

分布式系統quorum機制

Quorom 機制,是一種分布式系統中常用的,用來保證數據冗余和最終一致性的投票算法,其主要數學思想來源于鴿巢原理。

在有冗余數據的分布式存儲系統當中,冗余數據對象會在不同的機器之間存放多份拷貝。但是同一時刻一個數據對象的多份拷貝只能用于讀或者用于寫。

該算法可以保證同一份數據對象的多份拷貝不會被超過兩個訪問對象讀寫。

算法來源于[Gifford, 1979][3][1]。 分布式系統中的每一份數據拷貝對象都被賦予一票。每一個操作必須要獲得最小的讀票數(Vr)或者最小的寫票數(Vw)才能讀或者寫。如果一個系統有V票(意味著一個數據對象有V份冗余拷貝),那么這最小讀寫票必須滿足:

Vr + Vw > V
Vw > V/2
第一條規則保證了一個數據不會被同時讀寫。當一個寫操作請求過來的時候,它必須要獲得Vw個冗余拷貝的許可。而剩下的數量是V-Vw 不夠Vr,因此不能再有讀請求過來了。同理,當讀請求已經獲得了Vr個冗余拷貝的許可時,寫請求就無法獲得許可了。

第二條規則保證了數據的串行化修改。一份數據的冗余拷貝不可能同時被兩個寫請求修改。

一致性Hash算法

一致性hash:

首先計算各機器的hash值。然后計算key的hash值,計算出key的hash值讓其沿著hash圓環繞行,則可得到這個key下一個應該存在哪臺機器上。

將key的hash對機器數取模

直接拿key的hash對機器數取模,然后決定存在哪個機器數上。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,702評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,615評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,606評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,044評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,826評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,227評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,307評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,447評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,992評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,807評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,001評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,550評論 5 361
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,243評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,667評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,930評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,709評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,996評論 2 374

推薦閱讀更多精彩內容