對于我來說,就是一個文件存儲系統(tǒng)。
tracker-storge-client
tracker調(diào)度
storege真正存儲文件
分析一下別的文章
在生產(chǎn)中我們一般希望文件系統(tǒng)能幫我們解決以下問題,如:1.超大數(shù)據(jù)存儲;2.數(shù)據(jù)高可用(冗余備份);3.讀/寫高性能;4.海量數(shù)據(jù)計算。最好還得支持多平臺多語言,支持高并發(fā)。
由于單臺服務(wù)器無法滿足以上要求,這就迫使開發(fā)者不得不考慮使用其他方式解決此類問題。分布式文件系統(tǒng)就在這樣迫切的需求下孕育而生。
今天為什么把標題定為“分布式文件系統(tǒng)”呢?是因為我想通過此次分享(FastDFS原理介紹),和大家去做更多關(guān)于分布式文件系統(tǒng)的研究和分享。我想這項研究應(yīng)該會是一個“系列”性的專題。在本文之后還計劃分享“FastDFS源碼分析”,“FastDFS擴容及資源優(yōu)化”。
——————————————————>我是分隔線<——————————————————————-
什么是FastDFS?
FastDFS是一個開源的輕量級分布式文件系統(tǒng)。它解決了大數(shù)據(jù)量存儲和負載均衡等問題。特別適合以中小文件(建議范圍:4KB < file_size <500MB)為載體的在線服務(wù),如相冊網(wǎng)站、視頻網(wǎng)站等等。在UC基于FastDFS開發(fā)向用戶提供了:網(wǎng)盤,社區(qū),廣告和應(yīng)用下載等業(yè)務(wù)的存儲服務(wù)。
FastDFS架構(gòu):
FastDFS服務(wù)端有三個角色:跟蹤服務(wù)器(tracker server)、存儲服務(wù)器(storage server)和客戶端(client)。
tracker server:跟蹤服務(wù)器,主要做調(diào)度工作,起負載均衡的作用。在內(nèi)存中記錄集群中所有存儲組和存儲服務(wù)器的狀態(tài)信息,是客戶端和數(shù)據(jù)服務(wù)器交互的樞紐。相比GFS中的master更為精簡,不記錄文件索引信息,占用的內(nèi)存量很少。
storage server:存儲服務(wù)器(又稱:存儲節(jié)點或數(shù)據(jù)服務(wù)器),文件和文件屬性(meta data)都保存到存儲服務(wù)器上。Storage?server直接利用OS的文件系統(tǒng)調(diào)用管理文件。
client:客戶端,作為業(yè)務(wù)請求的發(fā)起方,通過專有接口,使用TCP/IP協(xié)議與跟蹤器服務(wù)器或存儲節(jié)點進行數(shù)據(jù)交互。
Tracker Server:跟蹤服務(wù)器,主要做調(diào)度工作,在訪問上起負載均衡的作用。
Storage Server:存儲服務(wù)器(又稱數(shù)據(jù)服務(wù)器)。
ps:這樣的架構(gòu)具有以下特點:1.輕量級(相比GFS簡化了master角色,不再管理meta數(shù)據(jù)信息)。2.對等結(jié)構(gòu)。3.分組方式。
FastDFS協(xié)議:
FastDFS角色間是基于TCP/IP協(xié)議進行通信,協(xié)議包格式為:header + body。具體結(jié)構(gòu)如圖:
FastDFS各節(jié)點間都是通過tcp/ip的方式來進行通信的。
協(xié)議包由兩部分組成:header和body
上傳機制:
同步時間管理:
當一個文件上傳成功后,客戶端馬上發(fā)起對該文件下載請求(或刪除請求)時,tracker是如何選定一個適用的存儲服務(wù)器呢?
其實每個存儲服務(wù)器都需要定時將自身的信息上報給tracker,這些信息就包括了本地同步時間(即,同步到的最新文件的時間戳)。而tracker根據(jù)各個存儲服務(wù)器的上報情況,就能夠知道剛剛上傳的文件,在該存儲組中是否已完成了同步。同步信息上報如下圖:
下載機制:
精巧的FID:
說到下載就不得不提文件索引(又稱:FID)的精巧設(shè)計了。文件索引結(jié)構(gòu)如下圖,是客戶端上傳文件后存儲服務(wù)器返回給客戶端,用于以后訪問該文件的索引信息。文件索引信息包括:組名,虛擬磁盤路徑,數(shù)據(jù)兩級目錄,文件名。
ps:
組名:文件上傳后所在的存儲組名稱,在文件上傳成功后有存儲服務(wù)器返回,需要客戶端自行保存。
虛擬磁盤路徑:存儲服務(wù)器配置的虛擬路徑,與磁盤選項store_path*對應(yīng)。
數(shù)據(jù)兩級目錄:存儲服務(wù)器在每個虛擬磁盤路徑下創(chuàng)建的兩級目錄,用于存儲數(shù)據(jù)文件。
文件名:與文件上傳時不同。是由存儲服務(wù)器根據(jù)特定信息生成,文件名包含:源存儲服務(wù)器IP地址、文件創(chuàng)建時間戳、文件大小、隨機數(shù)和文件拓展名等信息。
快速定位文件:
知道FastDFS FID的組成后,我們來看看FastDFS是如何通過這個精巧的FID定位到需要訪問的文件。
通過組名tracker能夠很快的定位到客戶端需要訪問的存儲服務(wù)器組,并將選擇合適的存儲服務(wù)器提供客戶端訪問;
存儲服務(wù)器根據(jù)“文件存儲虛擬磁盤路徑”和“數(shù)據(jù)文件兩級目錄”可以很快定位到文件所在目錄,并根據(jù)文件名找到客戶端需要訪問的文件。
本次分享的主要內(nèi)容包含:FastDFS各角色的任務(wù)分工/協(xié)作,文件索引的原理設(shè)計以及文件上傳/下載操作的流程。通過此次學(xué)習(xí)我們對FastDFS有了初步的了解,如:
FastDFS只有三個角色;且跟蹤服務(wù)器和存儲服務(wù)器均不存在單點。
跟蹤服務(wù)器被動的接收存儲服務(wù)器匯報,對存儲服務(wù)器進行分組管理;并為客戶端選定適用的存儲服務(wù)器。同一存儲服務(wù)器可以同時向多臺跟蹤服務(wù)器匯報狀態(tài)信息。
存儲服務(wù)器組內(nèi)所有存儲服務(wù)器是對等關(guān)系,存儲的數(shù)據(jù)一一對應(yīng)且相同;所有的存儲服務(wù)器均是同時在線服務(wù),極大的提高的服務(wù)器的使用率,分擔了數(shù)據(jù)訪問壓力。