Broker是Druid中一種類型的節點,在分布式集群部署環境中,它用來路由查詢。它能夠知曉ZK中存儲的關于segment在集群節點分布的meta信息,以便于將查詢路由至正確的節點。同時,broker還承擔著合并節點查詢結果的任務。在啟動時,實時節點會向ZK注冊自己,并上報其提供服務的segment信息。
啟動命令
io.druid.cli.Main server broker
轉發查詢(Forwarding Queries)
大多數的Druid查詢會包含一個interval字段用于指明需要查詢的數據時間范圍。Druid segment分布于整個集群,它們被分片后存儲某些時間段的數據。想象一個簡單的datasource,它有7個segment,每個segment包含一個星期中某一天的數據。任何一個查詢大于兩天數據的查詢請求都會定位到多個segment上。這些segment很可能是分布在集群的多個節點上,因此查詢也會涉及到對多個節點的請求。
為了確定將查詢路由到哪些節點,Broker首先會對ZK中存儲的信息做分析匯總。ZK中存儲了歷史節點、實時節點和他們分別服務的segment信息。針對ZK中存儲的每一個datasource,Broker建立了一個segment和服務它們的節點的(時間表)timeline。當接收到一個查詢請求時,broker會去時間表中查詢包含請求中指定datasource和interval數據的節點信息,從而將請求路由到這些節點上。
緩存
Broker節點維護了一個基于LRU策略的緩存空間,其緩存了每個sgement的數據。它有兩種實現方式,一是實現為每個Broker節點的私有本地緩存;而是利用memcached等外部分布式緩存組件實現跨節點緩存共享。Broker每次收到一個請求后,它首先會將其映射到一組segment上面,這組segment的子集的數據有可能已經存在于緩存中,Broker可以直接從緩存中拉取。對于數據不在緩存中的節點,Broker會把請求路由到相應的歷史節點上。一旦歷史節點返回了查詢結果,Broker就會將這些結果數據存儲在緩存中。實時節點的segment不會被緩存,因此對于實時數據的查詢肯定會被路由到實時節點上,究其理由,實時數據是一直在變動的,所以基于緩存數據的查詢是不可靠的。
HTTP Endpoints
Broker為交互暴露了幾個HTTP的接口:
GET
- /status
返回Druid的版本信息、加載擴展、使用內存、全部內存和節點的其他有用的信息。 - /druid/v2/datasources
返回可查詢的datasource列表 - /druid/v2/datasources/{dataSourceName}
返回指定datasource的維度和指標信息。同時,可以使用可選參數"full",來獲取intervals列表和這些interval包含的維度和指標信息。也可以通過"interval"參數來查詢確定的某個interval的信息。
如果沒有指定interval,將會使用基于當前時間的一個默認interval,它包含當前時刻之前的一段時間。這個interval的長度使用 ISO8601 format格式指定,對應設置參數為:druid.query.segmentMetadata.defaultHistory - /druid/v2/datasources/{dataSourceName}/dimensions
返回這個datasource的維度 - /druid/v2/datasources/{dataSourceName}/metrics
返回這個datasource的指標 - /druid/v2/datasources/{dataSourceName}/candidates?intervals={comma-separated-intervals-in-ISO8601-format}&numCandidates={numCandidates}
根據給定的datasource和intervals,返回segment列表和所在的節點信息。如果"numCandidates"未指定,將會返回每個interval包含的segment所在的所有節點信息。 - /druid/broker/v1/loadstatus
返回一個標志,指明Broker是否獲取了ZK中所有segment的信息。通過這個接口可以知道在比如重啟的場景下,Broker是否能接受查詢請求。
POST
- /druid/v2/candidates/
根據指定的查詢,返回包含服務地址的segment信息列表。