筆記-Facebook Haystack

Facebook目前存儲了2600億張照片，總大小為20PB，通過計算可以得出每張照片的平均大小為20PB/260GB，約為80KB。用戶每周新增照片數為10億（總大小為60TB），平均每秒新增的照片數為10_{9}/7/40000（按每天40000s計），約為每秒3500次寫操作，讀操作峰值可以達到每秒百萬次。

Facebook相冊后端早期采用基于NAS的存儲，通過NFS掛載NAS中的照片文件來提供服務。后來出于性能和成本考慮，自主研發了Facebook Haystack存儲相冊數據。

系統架構

Facebook Haystack的思路與TFS類似，也是多個邏輯文件共享一個物理文件。Haystack架構及讀請求處理流程如圖4-6所示。

Haystack系統主要包括三個部分：目錄（Directory）、存儲（Store）以及緩存（Cache）。Haystack存儲是物理存儲節點，以物理卷軸（physical volume）的形式組織存儲空間，每個物理卷軸一般都很大，比如100GB，這樣10TB的數據也只需100個物理卷軸。每個物理卷軸對應一個物理文件，因此，每個存儲節點上的物理文件元數據都很小。多個物理存儲節點上的物理卷軸組成一個邏輯卷軸（logical volume），用于備份。Haystack目錄存放邏輯卷軸和物理卷軸的對應關系，以及照片id到邏輯卷軸之間的映射關系。Haystack緩存主要用于解決對CDN提供商過于依賴的問題，提供最近增加的照片的緩存服務。

Haystack照片讀取請求大致流程為：用戶訪問一個頁面時，Web服務器請求Haystack目錄構造一個URL：http://＜CDN＞/＜Cache＞/＜Machine id＞/＜Logical volume,Photo＞，后續根據各個部分的信息依次訪問CDN、Haystack緩存和后端的Haystack存儲節點。Haystack目錄構造URL時可以省略＜CDN＞部分從而使得用戶直接請求Haystack緩存而不必經過CDN。CDN。Haystack緩存收到的請求包含兩個部分：用戶瀏覽器的請求及CDN的請求，Haystack緩存只緩存用戶瀏覽器發送的請求且要求請求的Haystack存儲節點是可寫的。一般來說，Haystack后端的存儲節點寫一段時間以后達到容量上限變為只讀，因此，可寫節點的照片為最近增加的照片，是熱點數據。本節暫不討論CDN，只討論Haystack后端存儲系統，包括Haystack目錄和Haystack緩存兩個部分。

1.寫流程

如圖4-7所示，Haystack的寫請求（照片上傳）處理流程為：Web服務器首先請求Haystack目錄獲取可寫的邏輯卷軸，接著生成照片唯一id并將數據寫入每一個對應的物理卷軸（備份數一般為3）。寫操作成功要求所有的物理卷軸都成功，如果中間出現故障，需要重試。

Haystack的一致性模型保證只要寫操作成功，邏輯卷軸對應的所有物理卷軸都存在一個有效的照片文件，但有效照片文件在不同物理卷軸中的偏移（offset）可能不同。

Haystack存儲節點只支持追加操作，如果需要更新一張照片，可以新增一張編號相同的照片到系統中，如果新增照片和原有的照片在不同的邏輯卷軸，Haystack目錄的元數據會更新為最新的邏輯卷軸；如果新增照片和原有的照片在相同的邏輯卷軸，Haystack存儲會以偏移更大的照片文件為準。

2.容錯處理

（1）Haystack存儲節點容錯

檢測到存儲節點故障時，所有物理卷軸對應的邏輯卷軸都被標記為只讀。存儲節點上的未完成的寫操作全部失敗，寫操作將重試；如果發生故障的存儲節點不可恢復，需要執行一個拷貝任務，從其他副本所在的存儲節點拷貝丟失的物理卷軸的數據；由于物理卷軸一般很大，比如100GB，所以拷貝的過程會很長，一般為小時級別。

2）Haystack目錄容錯

Haystack目錄采用主備數據庫（Replicated Database）做持久化存儲，由主備數據庫提供容錯機制。

3.Haystack目錄

Haystack目錄的功能如下：

1）提供邏輯卷軸到物理卷軸的映射，維護照片id到邏輯卷軸的映射；

2）提供負載均衡，為寫操作選擇邏輯卷軸，讀操作選擇物理卷軸；

3）屏蔽CDN服務，可以選擇某些圖片請求直接走Haystack緩存；

4）標記某些邏輯卷軸為只讀。

根據前面的計算結果可知，Facebook相冊系統每秒的寫操作大約為3500次，每秒的讀請求大約為100萬次。每個寫請求都需要通過Haystack緩存獲取可寫的卷軸，每個讀請求需要通過Haystack緩存構造讀取URL。這里需要注意，照片id到邏輯卷軸的映射的數據量太大，單機內存無法存放，筆者猜測內部使用了MySQL Sharding集群，另外，還增加了一個Memcache集群滿足查詢需求。

4.Haystack存儲

Haystack存儲保存物理卷軸，每個物理卷軸對應文件系統中的一個物理文件，每個物理文件的格式如圖4-8所示。

多個照片文件存放在一個物理卷軸中，每個照片文件是一個Needle，包含實際數據及邏輯照片文件的元數據。部分元數據需要裝載到內存中用于照片查找，包括Key（照片id，8字節），Alternate Key（照片規格，包括Thumbnail、Small、Medium及Large，4字節），照片在物理卷軸的偏移Offset（4字節），照片的大小Size（4字節），每張照片占用8+8+4=20字節的空間，假設每臺機器的可用磁盤為8TB，照片平均大小為80KB，單機存儲的照片數為8TB/80KB=100MB，占用內存100MB×20=2GB。

存儲節點宕機時，需要恢復內存中的邏輯照片查找表，掃描整個物理卷軸耗時太長，因此，對每個物理卷軸維護了一個索引文件（Index File），保存每個Needle查找相關的元數據。寫操作首先更新物理卷軸文件，然后異步更新索引文件。由于更新索引文件是異步的，所以可能出現索引文件和物理卷軸文件不一致的情況，不過由于對物理卷軸文件和索引文件的操作都是追加操作，只需要掃描物理卷軸文件最后寫入的幾個Needle，然后補全索引文件即可。這種技術在僅支持追加的文件系統很常見。

Haystack Store存儲節點采用延遲刪除的回收策略，刪除照片只是向卷軸中追加一個帶有刪除標記的Needle，定時執行Compaction任務回收已刪除空間。所謂Compaction操作，即將所有老數據文件中的數據掃描一遍，以保留最新一個照片的原則進行刪除，并生成新的數據文件。

討論

相比TFS,Haystack的一大特色就是磁盤空間回收。Blob文件在TFS中通過＜Block id,Block offset＞標識，因此，不能對TFS中的數據塊進行重整操作；而Haystack中的元信息只能定位到Blob文件所在的邏輯卷軸，Haystack存儲節點可以根據情況對物理卷軸進行Compaction操作以回收磁盤空間。

Facebook Haystack中每個邏輯卷軸的大小為100GB，這樣減少了元信息，但是增加了遷移的時間。假設限制內部網絡帶寬為20MB/s，那么遷移100GB的數據需要的時間為100GB/20MB/s=5000s，大約是一個半小時。而TFS設計的數據規模相比Haystack要小，因此，可以選擇64MB的塊大小，有利于負載均衡。

另外，Haystack使用RAID 6，并且底層文件系統使用性能更好的XFS，淘寶TFS不使用RAID機制，文件系統使用Ext3，由應用程序負責管理多個磁盤。Haystack使用了Akamai＆Limelight的CDN服務，而淘寶已經使用自建的CDN，當然，Facebook也在考慮自建CDN。

最后編輯于：2017.12.03 07:53:34

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,106評論 6贊 542
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,441評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,211評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,736評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,475評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,834評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,829評論 3贊 446
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,009評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,559評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,306評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,516評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,038評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,728評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,132評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,443評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,249評論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,484評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

筆記-Facebook Haystack

筆記-Facebook Haystack

系統架構

討論

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

筆記-Facebook Haystack

系統架構

討論

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频