緩存在分布式系統中的應用

緩存在分布式系統中的應用

摘要

緩存是分布式系統中的重要組件,主要解決高并發,大數據場景下,熱點數據訪問的性能問題。提供高性能的數據快速訪問。

本文是緩存在分布式應用第一篇文章,介紹緩存的原理,緩存的分類,緩存的設計,CDN緩存(原理,架構參考和技術實踐),反向代理緩存(原理,Squid架構實踐和常用代理緩存之間的比較)等。

目錄

  1. 緩存概述
  2. CDN緩存
  3. 反向代理緩存
  4. 分布式緩存
  5. 本地緩存
  6. 緩存架構示例

1. 緩存概述

緩存是分布式系統中的重要組件,主要解決高并發,大數據場景下,熱點數據訪問的性能問題。提供高性能的數據快速訪問。

1.1 緩存原理

  1. 將數據寫入/讀取速度更快的存儲(設備);
  2. 將數據緩存到離應用最近的位置;
  3. 將數據緩存到離用戶最近的位置。

1.2 緩存分類

在分布式系統中,緩存的應用非常廣泛,從部署角度有以下幾個方面的緩存應用。

  • CDN緩存;
  • 反向代理緩存;
  • 分布式Cache;
  • 本地應用緩存;

1.3 緩存媒介

  • 常用中間件:Varnish,Ngnix,Squid,Memcache,Redis,Ehcache等;
  • 緩存的內容:文件,數據,對象;
  • 緩存的介質:CPU,內存(本地,分布式),磁盤(本地,分布式)

1.4 緩存設計

緩存設計需要解決以下幾個問題:

(1)緩存什么?

  哪些數據需要緩存:1.熱點數據;2.靜態資源;

(2)緩存的位置?

  CDN,反向代理,分布式緩存服務器,本機(內存,硬盤)

(3)如何緩存的問題?

  - 過期策略
  
    1. 固定時間:比如指定緩存的時間是30分鐘;
    2. 相對時間:比如最近10分鐘內沒有訪問的數據;

  - 同步機制
    
    1. 實時寫入(PUSH)
    2. 異步刷新(PUSH & PULL)

2. CDN緩存

CDN主要解決將數據緩存到離用戶最近的位置,一般緩存靜態資源文件(頁面,腳本,圖片,視頻,文件等)。國內網絡異常復雜,跨運營商的網絡訪問會很慢。為了解決跨運營商或各地用戶訪問問題,可以在重要的城市,部署CDN應用。使用戶就近獲取所需內容,降低網絡擁塞,提高用戶訪問響應速度和命中率。

2.1 CDN原理

CDN的基本原理是廣泛采用各種緩存服務器,將這些緩存服務器分布到用戶訪問相對集中的地區或網絡中,在用戶訪問網站時,利用全局負載技術將用戶的訪問指向距離最近的工作正常的緩存服務器上,由緩存服務器直接響應用戶請求。

  1. 未部署CDN應用前
未部署CDN應用前應用架構

網絡路徑:

  • 請求:本機網絡(局域網)--> 運營商網絡 --> 應用服務器機房
  • 響應:應用服務器機房 --> 運營商網絡 --> 本機網絡(局域網)

在不考慮復雜網絡的情況下,從請求到響應需要經過3個節點,6個步驟完成一次用戶訪問操作。

  1. 部署CDN應用后

網絡路徑:

  • 請求:本機網絡(局域網)--> 運營商網絡
  • 響應:運營商網絡 --> 本機網絡(局域網)

在不考慮復雜網絡的情況下,從請求到響應需要經過2個節點,2個步驟完成一次用戶訪問操作。

與不部署CDN服務相比,減少了1個節點,4個步驟的訪問。極大的提高的系統的響應速度。

2.2 CDN優缺點

  1. 優點

    • 本地Cache加速:提升訪問速度,尤其含有大量圖片和靜態頁面站點;
    • 鏡像服務:消除了不同運營商之間互聯的瓶頸造成的影響,實現了跨運營商的網絡加速,保證不同網絡中的用戶都能得到良好的訪問質量;
    • 遠程加速:遠程訪問用戶根據DNS負載均衡技術智能自動選擇Cache服務器,選擇最快的Cache服務器,加快遠程訪問的速度;
    • 帶寬優化:自動生成服務器的遠程Mirror(鏡像)cache服務器,遠程用戶訪問時從cache服務器上讀取數據,減少遠程訪問的帶寬、分擔網絡流量、減輕原站點WEB服務器負載等功能。
    • 集群抗攻擊:廣泛分布的CDN節點加上節點之間的智能冗余機制,可以有效地預防黑客入侵以及降低各種D.D.o.S攻擊對網站的影響,同時保證較好的服務質量。
  2. 缺點

    • 動態資源緩存,需要注意實時性;

      解決辦法:主要緩存靜態資源,動態資源建立多級緩存或準實時同步等。

    • 如何保證數據的一致性和實時性需要權衡考慮。

      解決辦法:設置緩存失效時間;數據版本號等。

2.3 CDN架構參考

CDN架構參考

2.4 CDN技術實踐

目前,中小型互聯網公司,綜合成本考慮,一般租用第三方CDN服務,大型互聯網公司,采用自建或第三方結合的方式。比如淘寶剛開始使用第三方的,當流量很大后,第三方公司無法支撐其CDN流量,淘寶最后采用自建CDN的方式實現。

例如淘寶的CDN架構,如下圖所示:

淘寶CDN架構

3. 反向代理緩存

反向代理是指在網站服務器機房部署代理服務器,實現負載均衡,數據緩存,安全控制等功能。

3.1 反射代理緩存原理

反向代理位于應用服務器機房,處理所有對WEB服務器的請求。如果用戶請求的頁面在代理服務器上有緩沖的話,代理服務器直接將緩沖內容發送給用戶。如果沒有緩沖則先向WEB服務器發出請求,取回數據,本地緩存后再發送給用戶。通過降低向WEB服務器的請求數,從而降低了WEB服務器的負載。

反射代理緩存原理

反向代理一般緩存靜態資源,動態資源轉發到應用服務器處理。常用的緩存應用服務器有Varnish,Ngnix,Squid。

3.2 SQUID反向代理示例

Squid 反向代理一般只緩存靜態資源,動態程序默認不緩存。根據從 WEB 服務器返回的 HTTP 頭標記來緩沖靜態頁面。有四個最重要 HTTP 頭標記:

  • Last-Modified: 告訴反向代理頁面什么時間被修改
  • Expires: 告訴反向代理頁面什么時間應該從緩沖區中刪除
  • Cache-Control: 告訴反向代理頁面是否應該被緩沖
  • Pragma: 用來包含實現特定的指令,最常用的是 Pragma:no-cache
image

Squid 反向代理加速網站實例

  1. 通過DNS的輪詢技術,將客戶端的請求分發給其中一臺 Squid 反向代理服務器處理;
  2. 如果這臺 Squid 緩存了用戶的請求資源,則將請求的資源直接返回給用戶;
  3. 否則這臺 Squid 將沒有緩存的請求根據配置的規則發送給鄰居 Squid 和后臺的 WEB 服務器處理;
  4. 這樣既減輕后臺 WEB 服務器的負載,又提高整個網站的性能和安全性。

3.3 代理緩存比較

常用的代理緩存有Varnish,Squid,Ngnix,簡單比較如下:

(1)varnish和squid是專業的cache服務,nginx需要第三方模塊支持;
(2)Varnish采用內存型緩存,避免了頻繁在內存、磁盤中交換文件,性能比Squid高;
(3)Varnish由于是內存cache,所以對小文件如css,js,小圖片啥的支持很棒,后端的持久化緩存可以采用的是Squid或ATS;
(4)Squid功能全而大,適合于各種靜態的文件緩存,一般會在前端掛一個HAProxy或nginx做負載均衡跑多個實例;
(5)Nginx采用第三方模塊ncache做的緩沖,性能基本達到varnish,一般作為反向代理使用,可以實現簡單的緩存。

4. 分布式緩存

CDN緩存、反向代理緩存,主要解決靜態文件,或用戶請求資源的緩存,數據源一般為靜態文件或動態生成的文件(有緩存頭標識)。

分布式緩存,主要指緩存用戶經常訪問數據的緩存,數據源為數據庫。一般起到熱點數據訪問和減輕數據庫壓力的作用。

目前分布式緩存設計,在大型網站架構中是必備的架構要素。常用的中間件有Memcached、Redis。

4.1 Memcached緩存

Memcache是一個高性能,分布式內存對象緩存系統,通過在內存里維護一個統一的巨大的hash表,它能夠用來存儲各種格式的數據,包括圖像、視頻、文件以及數據庫檢索的結果等。簡單的說就是將數據調用到內存中,然后從內存中讀取,從而大大提高讀取速度。

Memcache特性

(1)使用物理內存作為緩存區,可獨立運行在服務器上。每個進程最大2G,如果想緩存更多的數據,可以開辟更多的memcache進程(不同端口)或者使用分布式memcache進行緩存,將數據緩存到不同的物理機或者虛擬機上。
(2)使用key-value的方式來存儲數據,這是一種單索引的結構化數據組織形式,可使數據項查詢時間復雜度為O(1)。
(3)協議簡單:基于文本行的協議,直接通過telnet在memcached服務器上可進行存取操作,簡單,方便多種緩存參考此協議;
(4)基于libevent高性能通信:Libevent是一套利用C開發的程序庫,它將BSD系統的kqueue,Linux系統的epoll等事件處理功能封裝成一個接口,與傳統的select相比,提高了性能。
(5)內置的內存管理方式:所有數據都保存在內存中,存取數據比硬盤快,當內存滿后,通過LRU算法自動刪除不使用的緩存,但沒有考慮數據的容災問題,重啟服務,所有數據會丟失。
(6)分布式:各個memcached服務器之間互不通信,各自獨立存取數據,不共享任何信息。服務器并不具有分布式功能,分布式部署取決于memcache客戶端。
(7)緩存策略:Memcached的緩存策略是LRU(最近最少使用)到期失效策略。在memcached內存儲數據項時,可以指定它在緩存的失效時間,默認為永久。當memcached服務器用完分配的內時,失效的數據被首先替換,然后也是最近未使用的數據。在LRU中,memcached使用的是一種Lazy Expiration策略,自己不會監控存入的key/vlue對是否過期,而是在獲取key值時查看記錄的時間戳,檢查key/value對空間是否過期,這樣可減輕服務器的負載。

4.1.1 Memcached原理

Memcached工作流程

MemCached的工作流程如下

(1)先檢查客戶端的請求數據是否在Memcached中,如有,直接把請求數據返回,不再對數據庫進行任何操作;
(2)如果請求的數據不在Memcached中,就去查數據庫,把從數據庫中獲取的數據返回給客戶端,同時把數據緩存一份到memcached中(Memcached客戶端不負責,需要程序實現);
(3)每次更新數據庫的同時更新Memcached中的數據,保證一致性;
(4)當分配給Memcached內存空間用完之后,會使用LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效數據首先被替換,然后再替換掉最近未使用的數據。

4.1.2 Memcached集群

Memcached 雖然稱為 “ 分布式 ” 緩存服務器,但服務器端并沒有 “ 分布式 ” 功能。每個服務器都是完全獨立和隔離的服務。 memcached 的分布式,是由客戶端程序實現的。

當向Memcached集群存入/取出key value時,memcached客戶端程序根據一定的算法計算存入哪臺服務器,然后再把key value值存到此服務器中。

因此,存取數據分二步走:

第一步,選擇服務器;
第二步,存取數據。

Memcached存取數據

分布式算法

選擇服務器算法有兩種,一種是根據余數來計算分布,另一種是根據散列算法來計算分布。

  • 余數算法:

    • 先求得鍵的整數散列值,再除以服務器臺數,根據余數確定存取服務器。
    • 優點:計算簡單,高效;
    • 缺點:在memcached服務器增加或減少時,幾乎所有的緩存都會失效。
  • 散列算法(一致性Hash):

    • 先算出memcached服務器的散列值,并將其分布到0到2的32次方的圓上,然后用同樣的方法算出存儲數據的鍵的散列值并映射至圓上,最后從數據映射到的位置開始順時針查找,將數據保存到查找到的第一個服務器上,如果超過2的32次方,依然找不到服務器,就將數據保存到第一臺memcached服務器上。
散列算法

如果添加了一臺memcached服務器,只在圓上增加服務器的逆時針方向的第一臺服務器上的鍵會受到影響。

一致性Hash算法:解決了余數算法增加節點命中大幅額度降低的問題,理論上,插入一個實體節點,平均會影響到:虛擬節點數/2 的節點數據的命中。

4.2 Redis緩存

Redis 是一個開源(BSD許可)的,基于內存的,多數據結構存儲系統。可以用作數據庫、緩存和消息中間件。 支持多種類型的數據結構,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 與范圍查詢, bitmaps, hyperloglogs 和 地理空間(geospatial) 索引半徑查詢。

內置了復制(replication),LUA腳本(Lua scripting), LRU驅動事件(LRU eviction),事務(transactions) 和不同級別的 磁盤持久化(persistence), 并通過 Redis哨兵(Sentinel)和自動分區(Cluster)提供高可用性(high availability)。

4.2.1 Redis常用數據類型

  1. String類型

    • 常用命令:set,get,decr,incr,mget
    • 應用場景:String是最常用的一種數據類型,與Memcache的key value存儲方式類似。
    • 實現方式:String在redis內部存儲默認就是一個字符串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding字段為int。
  2. Hash類型

    • 常用命令:hget,hset,hgetall
    • 應用場景:以存儲一個用戶信息對象數據為例:


      image
    • 實現方式:Hash類型對應的Value,內部實際就是一個HashMap,實際這里會有2種不同實現。
      • Hash的成員比較少時Redis為了節省內存會采用類似一維數 組的方式來緊湊存儲,而不會采用真正的HashMap結構,對應的value redisObject的encoding為zipmap;
      • 當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。
  3. List類型

    • 常用命令:lpush,rpush,lpop,rpop,lrange
    • 應用場景:List類型的應用場景非常多,也是Redis最重要的數據結構之一,比如twitter的關注列表,粉絲列表等都可以用Redis的list結構來實現。
    • 實現方式:List的實現為一個雙向鏈表,可以支持反向查找和遍歷,方便操作。不過帶來了部分額外的內存開銷,Redis內部的很多實現,包括發送緩沖隊列等也都是用的這個數據結構。
  4. Set類型

    • 常用命令:sadd,spop,smembers,sunion
    • 應用場景:Set類型對外提供的功能與list類似是一個列表的功能,特殊之處在于set是可以自動排重的,當你需要存儲一個列表數據,又不希望出現重復數據時,set 是一個很好的選擇,并且set提供了判斷某個成員是否在一個set集合內的重要接口,這個也是list所不能提供的。
    • 實現方式:Set類型的內部實現是一個value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內的原因。
  5. Sorted Set類型

    • 常用命令:zadd,zrange,zrem,zcard;
    • 使用場景:Sorted Set的使用場景與set類似,區別是set不是自動有序的,而sorted set可以通過用戶額外提供一個優先級(score)的參數來為成員排序,并且是插入有序的,即自動排序。當你需要一個有序的并且不重復的集合列表,可以選擇sorted set數據結構,比如twitter 的public timeline可以以發表時間作為score來存儲,這樣獲取時就是自動按時間排好序的。
    • 實現方式:Sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序,HashMap里放的是成員到score的映射,而跳躍表里存放的 是所有的成員,排序依據是HashMap里存的score,使用跳躍表的結構可以獲得比較高的查找效率,并且在實現上比較簡單。

4.2.2 Redis集群

  1. 通過KeepAlived實現的高可用方案
通過KeepAlived實現的高可用方案
- 切換流程:
  1. 當Master掛了后,VIP漂移到Slave;Slave 上keepalived 通知redis 執行:slave of no one, 開始提供業務
  2. 當Master起來后,VIP 地址不變,Master的keepalived通知redis執行slave of slave IP host,開始作為從同步數據
  3. 依次類推
   
- 主從同時宕機情況:
  1. 非計劃性,不做考慮,一般也不會存在這種問題
  2. 計劃性重啟,重啟之前通過運維手段SAVE DUMP 主庫數據;需要注意順序:
    1). 關閉其中一臺機器上所有redis,是得master全部切到另外一臺機器(多實例部署,單機上既有主又有從的情況);并關閉機器
    2). 依次dump主上redis服務
    3). 關閉主庫
    4). 啟動主庫,并等待數據load完畢
    5). 啟動從庫 
    6). 刪除DUMP文件(避免重啟加載慢)   
  1. 使用Twemproxy實現集群方案

Twemproxy由Twitter公司開源的c版本proxy,同時支持memcached和redis,Twitter用它主要減少前端與緩存服務間網絡連接數。

  • Twemproxy方案的特點:快速、輕量級、減少后端Cache Server連接數、易配置、支持ketama、modula、random、常用hash分片算法等。
Twemproxy集群方案

注:圖中使用Keepalived實現高可用主備方案,解決proxy單點問題。

  • Twemproxy方案的優點:

    1. 對于客戶端而言,redis集群是透明的,客戶端簡單,遍于動態擴容
    2. Proxy為單點、處理一致性hash時,集群節點可用性檢測不存在腦裂問題
    3. 高性能,CPU密集型,而redis節點集群多CPU資源冗余,可部署在redis節點集群上,不需要額外設備

4.3 Memcached與Redis的比較

  • 數據結構:Memcache只支持key value存儲方式,Redis支持更多的數據類型,比如Key value,hash,list,set,zset;
  • 多線程:Memcache支持多線程,redis支持單線程;CPU利用方面Memcache優于redis;
  • 持久化:Memcache不支持持久化,Redis支持持久化;
  • 內存利用率:memcache高,redis低(采用壓縮的情況下比memcache高);
  • 過期策略:memcache過期后,不刪除緩存,會導致下次取數據數據的問題,Redis有專門線程,清除緩存數據。

5. 本地緩存

本地緩存是指應用內部的緩存,標準的分布式系統,一般有多級緩存構成。本地緩存是離應用最近的緩存,一般可以將數據緩存到硬盤或內存。

  • 硬盤緩存

將數據緩存到硬盤到,讀取時從硬盤讀取。原理是直接讀取本機文件,減少了網絡傳輸消耗,比通過網絡讀取數據庫速度更快。可以應用在對速度要求不是很高,但需要大量緩存存儲的場景。

  • 內存緩存

直接將數據存儲到本機內存中,通過程序直接維護緩存對象,是訪問速度最快的方式。

6. 緩存架構示例

緩存架構示例
  1. 職責劃分:

    • CDN:存放HTML,CSS,JS等靜態資源;
    • 反向代理:動靜分離,只緩存用戶請求的靜態資源;
    • 分布式緩存:緩存數據庫中的熱點數據;
    • 本地緩存:緩存應用字典等常用數據;
  2. 請求過程:

    • 瀏覽器向客戶端發起請求,如果CDN有緩存則直接返回;
    • 如果CDN無緩存,則訪問反向代理服務器;
    • 如果反向代理服務器有緩存則直接返回;
    • 如果反向代理服務器無緩存或動態請求,則訪問應用服務器;
    • 應用服務器訪問本地緩存;如果有緩存,則返回代理服務器,并緩存數據;(動態請求不緩存)
    • 如果本地緩存無數據,則讀取分布式緩存;并返回應用服務器;應用服務器將數據緩存到本地緩存(部分);
    • 如果分布式緩存無數據,則應用程序讀取數據庫數據,并放入分布式緩存。

參考文獻

  1. 淘寶CDN系統架構
  2. 天貓瀏覽型應用的CDN靜態化架構演變
  3. China Cache CDN簡介
  4. Squid反向代理
  5. Memcached知識點梳理
  6. Memcached學習總結
  7. Memcached分布式算法實現
  8. 分析Redis架構設計
  9. Redis集群方案
  10. Redis常用數據類型
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容