必須高效、耐用 淺析如何為企業打造磁帶庫備份系統

近年來企業紛紛對內部流程進行了更多的數字化和追蹤,收集的客戶信息日益增加,構建的數據密集型應用也越來越多,因此企業積聚了大量的數據,保存和管理這些海量信息變得日益困難。

image

圖注:大多數存儲業務的數據均為“冷”數據

將所有數據保存在同一個存儲介質中顯然是不切實際的。不同的存儲介質在成本、容量、性能和耐用性等方面的特性各不相同,用戶不可能將所有數據都存儲在價格高昂的SSD中,同時也不是每種數據都需要經常訪問。因此企業在保存數據時應首先將數據分為“熱”、“溫”、“冷”三種類型。

所謂熱數據是需要盡快進行處理的數據,一般暫時存放于內存中或采用高性能SSD進行存儲。溫數據是非即時的狀態和行為數據,訪問頻率要比熱數據稍低些,一般使用QLC 3D NAND SSD存儲。冷數據則是不經常訪問的數據,例如企業備份數據、業務與操作日志數據、話單與統計數據等。對這些最“冷門”的數據,適合存儲到磁帶這種價格便宜的長期存儲介質。 事實表明,目前有大約60%的業務數據最終都可以保存為冷數據。因此,為冷數據選擇一種價格便宜但寫入速度快到足以跟上此類數據生成速度的存儲介質至關重要。幸運的是,得益于光纖通道和串行連接 SCSI (SAS) 等技術,現代磁帶庫能夠快速寫入,并因此成為當今快速存檔冷數據的理想之選。

打造高性能磁帶庫備份有何要求?

目前現代磁帶庫的順序讀寫性能正在不斷提升,以滿足企業不斷增長的數據量。比如,百度的存儲業務:百度智能云所用的高性能磁帶庫備份系統的寫入速度已經達到600MB/s。然而,磁帶庫本身的寫入速度雖快,但用戶在向磁帶庫備份時,并不是簡單地將數據直接寫入到磁帶庫,在基于磁帶庫的備份架構中存在一個常常會妨礙數據以其最大速率寫入磁帶庫的技術障礙。

這就是:在將數據備份到磁帶上之前,首先需要將數據收集到緩存層的數據節點上,將數據序列化以便為寫入磁帶介質做準備。所謂序列化就是將對象的狀態信息轉換為可以存儲或傳輸形式的過程。在序列化期間,對象會將其當前狀態寫入到臨時存儲區,也就是數據節點的緩存盤上,在完成序列化后再將數據從緩存盤寫入到磁帶庫中。

image

圖注:在向磁帶庫備份時,并不是簡單地將數據直接寫入到磁帶庫,需先將數據傳輸到數據節點中的緩存盤進行序列化。

因此用戶數據節點上的緩存盤應滿足三點要求:

  1. 超高的讀取性能

以百度所用的高性能磁帶庫為例,因為其寫入速度達到了600MB/s,那么磁帶庫獲取數據的來源:即緩存盤的讀取性能不應低于磁帶庫600MB/s的寫入速度,以匹配磁帶庫的性能指標。

** 2.超高的寫入性能**

從磁帶庫備份架構可以看到,其數據的寫入流程是客戶端→數據節點(緩存盤)→磁帶庫。因此要保持磁帶寫入速度飽和以提高效率,客戶端在將新數據寫入到緩存盤的速度也應至少與緩存數據寫入磁帶的速度相等,即最低600MB/s。

** 3.耐用性要求**

與所有存儲介質類似,磁帶也有其使用壽命。以百度的磁帶備份庫為例,百度的數據保留政策要求每3~6年就要將存儲在磁帶上的數據轉移至新磁帶。其磁帶庫的存儲容量為16PB,而百度團隊希望緩存盤能夠持續服務三代磁帶。為了實現此目標,緩存盤需支持總寫入量為48 PBW的耐用性。

如何滿足企業磁帶庫備份的需求?

image

圖注:使用機械硬盤作緩存盤完全無法滿足磁帶庫備份的需求,實際寫入速度僅200MB/s。

那么怎樣才能構建可以滿足企業需求的磁帶庫備份系統呢?顯然不斷嘗試測試數據節點的緩存介質是回答這個問題前需要做的工作。還是以百度智能云的磁帶庫備份系統為例,他們最初使用傳統的機械硬盤(HDD)進行緩存,但效率完全不能令人滿意。原因很簡單,盡管磁帶庫的寫入速度為每秒600MB/s,但機械硬盤的讀取速度卻僅為200MB/s,將磁帶庫的備份速度降低了三分之二。事實上,即使使用傳統的SAS RAID機械硬盤陣列,其讀取和寫入操作也無法完全達到讓磁帶庫管道飽和的速度,進而導致出現備份速度緩慢等問題,無法發揮磁帶庫的高速潛能。 隨后,百度采用基于NAND閃存的SSD來替換機械硬盤,充當緩存盤。但他們發現了新的問題:在使用SSD進行隨機寫入操作時,需要大量的后臺介質管理,這會大大降低每個磁盤的吞吐量并縮短磁盤壽命。因此,需要使用基于多個SSD進行兩種存儲配置:16盤RAID 0的標準耐用性配置,以及6盤RAID 0+1的中等耐用性配置。 雖然這兩種配置方案都能滿足600MB/s的讀取和寫入要求,但卻需要使用眾多NVM Express(NVMe)插槽來連接大量的SSD才能達到所需的吞吐率,這將使得維護更復雜。此外,根據設備規格進行的計算表明,這兩種配置方案仍不能滿足百度需要緩存盤服務三代磁帶的耐用性要求,其PBW分別只有30.72和36.75。 因此百度團隊開始研究采用更先進的存儲介質傲騰來用于緩存盤。基于3D Xpoint技術打造的傲騰介質具有諸多新特性。首先是它支持就地寫入,寫入前不需要進行數據擦除。不像普通NAND閃存存在讀-修改-寫這個過程,因此它擁有更好的性能。同時在長時間寫入后,它也不會出現數據臟塊,不需要進行垃圾回收,所以傲騰產品可以很好地保持性能一致性,不會出現NAND固態盤用得越久、性能越差的問題。其次是傲騰技術支持位尋址,可以提供超低的延遲,帶來更快的傳輸速度。第三,傲騰產品的壽命更長,耐用性更好,比如英特爾傲騰固態盤P4800X可以支持多達60個DWPD(每日全盤寫入次數),而英特爾P4600、P4610這樣的高性能、高壽命NAND固態盤,也只能支持3個DWPD左右。

image

圖注:最終在將緩存盤換用由兩塊英特爾傲騰固態盤P4800X組成的RAID 1鏡像陣列后,才能在性能、耐用度上滿足磁帶庫備份系統的需求。

最終百度為每個數據節點的緩存盤換用由兩塊英特爾傲騰固態盤P4800X 1.5TB組成的RAID 1鏡像陣列后,百度團隊發現它完全可以滿足解決方案的數據緩存要求。百度的磁帶庫備份系統不僅可以輕松實現600MB/s的讀寫性能,更能保證無論其寫入壓力如何,都能保持讀取響應時間不變,很好地保證性能一致性。當然最為關鍵的是,該解決方案還可提供高達164 PBW的耐用性,遠遠超出了之前48 PBW的耐用性要求。通過這一全新解決方案,百度可以在相同時間內備份三倍的數據量。”傲騰方案高性能磁帶庫備份系統的使用讓百度智能云能充分發揮其產品及技術優勢,在較大的寫入壓力下依然能保持數據的快速響應及高性能讀寫,為客戶提供超低成本及便攜的數據管理能力。百度智能云存儲產品代表對這樣的測試結果非常滿意:“百度在處理新客戶端數據,以及并行復制磁帶庫備份數據方面面臨著帶寬和寫入耐用性的挑戰。英特爾傲騰固態盤憑借其高帶寬、高耐用性、低延遲和易于維護的優勢,為百度帶來了高價值,并幫助我們加快創新磁帶庫解決方案,同時降低成本、提高效率。百度智能云作為百度技術能力ToB的出口,在業務側圍繞英特爾傲騰固態盤進行了探索和布局。百度智能云虛擬化塊存儲CDS、云原生數據庫 GaiaDB 等產品,已經進行了相關產品化測試,預期搭載英特爾的新一代介質,大幅升級云上產品規格豐富度、絕對性能以及性價比。”

兩步打造高效、耐用的磁帶庫備份系統

目前冷數據的產生速度越來越快,企業亟需找到能夠高速備份這些冷數據的方法。

磁帶庫能夠以較低的成本提供出色的備份容量和寫入速度,但在將數據寫入磁盤之前,需要在數據節點中的緩存盤對數據進行緩存和序列化。通過百度的實踐不難看出,此類緩存盤會面臨性能、耐用度和后期維護等多方面挑戰,無論機械硬盤還是常見的NAND SSD都無法滿足需求。目前只有將英特爾傲騰固態盤用作這類數據節點上的緩存盤,百度才能夠在實現出色耐用性的同時(可達164 PBW 和每日整盤寫入次數為60 DWPD),滿足繁重、穩定且一致的讀/寫混合型工作負載帶寬要求(至少600MB/s),并將備份相同數據量所需的時間減少了 67%。因此,對于更多企業而言,要想打造高效、耐用的磁帶庫備份系統,最重要的就是要完成以下兩步工作:1.采用高性能的磁帶庫,保證其傳輸速度可達600MB/s或更高;2.采用傲騰固態盤這類在性能、耐用度上遠優于機械硬盤、NAND閃存的新型存儲介質作為數據節點的緩存盤,保證磁帶庫能高速、穩定地全速備份數據。

如果你想了解更多百度智能云、英特爾傲騰存儲產品方面的信息,直接預約將于9月15日12:00~14:00舉行的百度智能云分論壇視頻直播,在這里百度與英特爾將發布最新AI新基建產品及能力,分享最新產業智能化應用實踐,千萬不要錯過哦。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380