2019-05-29 ES存儲數據量優化

386個標準csv文件,9列,912M,6839927行,

如果是默認index的配置進入es,即5個shards,1個replica,那么占用 3.2G的空間。

那么,通過下面的方式,設置0個replica,1個shard

PUT _template/<template_name>
{
  "index_patterns": "*",
  "settings" : {
    "number_of_replicas" : 0,
    "number_of_shards" : 1
  },
  "version"  : 1
}

然后,再在 grok 解析那里,把原始的message舍去(如果不需要全文索引的話)。那么最后占用空間是1.6G。在kibana上 GET _cat/indices?v 展示的是 1gb
在導入的過程中可以發現,這個占用空間會增長到 2.3G 甚至更多。然后回落、再漲、再回落。
這里是有一個數據壓縮的過程,下次再仔細介紹。

大約8分30秒,這684w的數據進入es。平均速度是 13411 TPS。
使用的是一個虛擬機,16G 內存,600G SATA,4核,Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz。給ES開的內存是

-Xms1g
-Xmx1g

曾經一個正兒八經的3實體機集群,SATA盤,從kafka接數據,可以達到25w TPS。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容