筆記-Facebook Haystack

Facebook目前存儲了2600億張照片,總大小為20PB,通過計算可以得出每張照片的平均大小為20PB/260GB,約為80KB。用戶每周新增照片數為10億(總大小為60TB),平均每秒新增的照片數為10_{9}/7/40000(按每天40000s計),約為每秒3500次寫操作,讀操作峰值可以達到每秒百萬次。

Facebook相冊后端早期采用基于NAS的存儲,通過NFS掛載NAS中的照片文件來提供服務。后來出于性能和成本考慮,自主研發了Facebook Haystack存儲相冊數據。

系統架構

Facebook Haystack的思路與TFS類似,也是多個邏輯文件共享一個物理文件。Haystack架構及讀請求處理流程如圖4-6所示。


Haystack系統主要包括三個部分:目錄(Directory)、存儲(Store)以及緩存(Cache)。Haystack存儲是物理存儲節點,以物理卷軸(physical volume)的形式組織存儲空間,每個物理卷軸一般都很大,比如100GB,這樣10TB的數據也只需100個物理卷軸。每個物理卷軸對應一個物理文件,因此,每個存儲節點上的物理文件元數據都很小。多個物理存儲節點上的物理卷軸組成一個邏輯卷軸(logical volume),用于備份。Haystack目錄存放邏輯卷軸和物理卷軸的對應關系,以及照片id到邏輯卷軸之間的映射關系。Haystack緩存主要用于解決對CDN提供商過于依賴的問題,提供最近增加的照片的緩存服務。

Haystack照片讀取請求大致流程為:用戶訪問一個頁面時,Web服務器請求Haystack目錄構造一個URL:http://<CDN>/<Cache>/<Machine id>/<Logical volume,Photo>,后續根據各個部分的信息依次訪問CDN、Haystack緩存和后端的Haystack存儲節點。Haystack目錄構造URL時可以省略<CDN>部分從而使得用戶直接請求Haystack緩存而不必經過CDN。CDN。Haystack緩存收到的請求包含兩個部分:用戶瀏覽器的請求及CDN的請求,Haystack緩存只緩存用戶瀏覽器發送的請求且要求請求的Haystack存儲節點是可寫的。一般來說,Haystack后端的存儲節點寫一段時間以后達到容量上限變為只讀,因此,可寫節點的照片為最近增加的照片,是熱點數據。本節暫不討論CDN,只討論Haystack后端存儲系統,包括Haystack目錄和Haystack緩存兩個部分。

1.寫流程

如圖4-7所示,Haystack的寫請求(照片上傳)處理流程為:Web服務器首先請求Haystack目錄獲取可寫的邏輯卷軸,接著生成照片唯一id并將數據寫入每一個對應的物理卷軸(備份數一般為3)。寫操作成功要求所有的物理卷軸都成功,如果中間出現故障,需要重試。


Haystack的一致性模型保證只要寫操作成功,邏輯卷軸對應的所有物理卷軸都存在一個有效的照片文件,但有效照片文件在不同物理卷軸中的偏移(offset)可能不同。

Haystack存儲節點只支持追加操作,如果需要更新一張照片,可以新增一張編號相同的照片到系統中,如果新增照片和原有的照片在不同的邏輯卷軸,Haystack目錄的元數據會更新為最新的邏輯卷軸;如果新增照片和原有的照片在相同的邏輯卷軸,Haystack存儲會以偏移更大的照片文件為準。

2.容錯處理

(1)Haystack存儲節點容錯

檢測到存儲節點故障時,所有物理卷軸對應的邏輯卷軸都被標記為只讀。存儲節點上的未完成的寫操作全部失敗,寫操作將重試;如果發生故障的存儲節點不可恢復,需要執行一個拷貝任務,從其他副本所在的存儲節點拷貝丟失的物理卷軸的數據;由于物理卷軸一般很大,比如100GB,所以拷貝的過程會很長,一般為小時級別。

2)Haystack目錄容錯

Haystack目錄采用主備數據庫(Replicated Database)做持久化存儲,由主備數據庫提供容錯機制。

3.Haystack目錄

Haystack目錄的功能如下:

1)提供邏輯卷軸到物理卷軸的映射,維護照片id到邏輯卷軸的映射;

2)提供負載均衡,為寫操作選擇邏輯卷軸,讀操作選擇物理卷軸;

3)屏蔽CDN服務,可以選擇某些圖片請求直接走Haystack緩存;

4)標記某些邏輯卷軸為只讀。

根據前面的計算結果可知,Facebook相冊系統每秒的寫操作大約為3500次,每秒的讀請求大約為100萬次。每個寫請求都需要通過Haystack緩存獲取可寫的卷軸,每個讀請求需要通過Haystack緩存構造讀取URL。這里需要注意,照片id到邏輯卷軸的映射的數據量太大,單機內存無法存放,筆者猜測內部使用了MySQL Sharding集群,另外,還增加了一個Memcache集群滿足查詢需求。

4.Haystack存儲

Haystack存儲保存物理卷軸,每個物理卷軸對應文件系統中的一個物理文件,每個物理文件的格式如圖4-8所示。


多個照片文件存放在一個物理卷軸中,每個照片文件是一個Needle,包含實際數據及邏輯照片文件的元數據。部分元數據需要裝載到內存中用于照片查找,包括Key(照片id,8字節),Alternate Key(照片規格,包括Thumbnail、Small、Medium及Large,4字節),照片在物理卷軸的偏移Offset(4字節),照片的大小Size(4字節),每張照片占用8+8+4=20字節的空間,假設每臺機器的可用磁盤為8TB,照片平均大小為80KB,單機存儲的照片數為8TB/80KB=100MB,占用內存100MB×20=2GB。

存儲節點宕機時,需要恢復內存中的邏輯照片查找表,掃描整個物理卷軸耗時太長,因此,對每個物理卷軸維護了一個索引文件(Index File),保存每個Needle查找相關的元數據。寫操作首先更新物理卷軸文件,然后異步更新索引文件。由于更新索引文件是異步的,所以可能出現索引文件和物理卷軸文件不一致的情況,不過由于對物理卷軸文件和索引文件的操作都是追加操作,只需要掃描物理卷軸文件最后寫入的幾個Needle,然后補全索引文件即可。這種技術在僅支持追加的文件系統很常見。

Haystack Store存儲節點采用延遲刪除的回收策略,刪除照片只是向卷軸中追加一個帶有刪除標記的Needle,定時執行Compaction任務回收已刪除空間。所謂Compaction操作,即將所有老數據文件中的數據掃描一遍,以保留最新一個照片的原則進行刪除,并生成新的數據文件。

討論

相比TFS,Haystack的一大特色就是磁盤空間回收。Blob文件在TFS中通過<Block id,Block offset>標識,因此,不能對TFS中的數據塊進行重整操作;而Haystack中的元信息只能定位到Blob文件所在的邏輯卷軸,Haystack存儲節點可以根據情況對物理卷軸進行Compaction操作以回收磁盤空間。

Facebook Haystack中每個邏輯卷軸的大小為100GB,這樣減少了元信息,但是增加了遷移的時間。假設限制內部網絡帶寬為20MB/s,那么遷移100GB的數據需要的時間為100GB/20MB/s=5000s,大約是一個半小時。而TFS設計的數據規模相比Haystack要小,因此,可以選擇64MB的塊大小,有利于負載均衡。

另外,Haystack使用RAID 6,并且底層文件系統使用性能更好的XFS,淘寶TFS不使用RAID機制,文件系統使用Ext3,由應用程序負責管理多個磁盤。Haystack使用了Akamai&Limelight的CDN服務,而淘寶已經使用自建的CDN,當然,Facebook也在考慮自建CDN。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評論 6 542
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,441評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,211評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,736評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,475評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,834評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,009評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,559評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,306評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,516評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,728評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,132評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,443評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,249評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,484評論 2 379

推薦閱讀更多精彩內容