前言
由于最近在項目中接觸使用到了ElasticSearch,從本篇博客開始將給大家分享這款風靡全球的產品。將涉及到ElasticSearch的安裝、基礎概念、基本用法、高級查詢、中文分詞器、與SpringBoot集成進行接口開發等相關知識。
ElasticSearch簡述
如果大家接觸過大數據的話,相信大家或多或少的聽說過ELK。ELK是目前非常主流的用于網站監控,流量監控,日志監控,集中日志管理的一套解決方案。而ElasticSearch如同ELK的心臟一般,起到一個非常核心的作用。簡單來說,Logstash通過把日志收集到ElasticSearch中,進行儲存,kibana負責可視化的展現結果。
說白了,ElasticSearch就是一款大數據搜索引擎,那么在市面上還有哪些類似的產品呢?在Java開源界的話,主要就是Lucene、Solr和ElasticSearch了。
Lucene,Java領域的搜索引擎鼻祖,是一個比較底層的東西,需要深厚的搜索理論基礎才可以掌握,比較復雜(它本身不是一個完整的解決方案,需要額外的開發工作)。因此,為了方便使用,屏蔽復雜性,Solr和ElasticSearch在lucene的基礎上進行了二次開發。
Solr相比ElasticSearch而言擁有更加成熟的社區,比較穩定,但是隨著數據量越來越大,對實時性要求越來越高,Solr的搜索效率在下降,而ElasticSearch卻沒有明顯的變化。因此ElasticSearch非常適合實時搜索的應用。(比如大名鼎鼎的Github的站內實時搜索就在應用ES)
另外,由于ElasticSearch提供了簡單易用的Restful API,輕松的橫向擴展機制(說白了,可以通過加機器來擴展容量),能支持PB級別的結構化或非結構化數據處理,具有強大的分布式儲存能力。
ElasticSearch的安裝
安裝比較簡單,下載地址是:
https://www.elastic.co/cn/downloads/elasticsearch
下載后直接解壓,運行即可。
注意上面的方式是單實例的安裝,那么分布式安裝呢?
其實,對于分布式安裝,無非注意下面幾個配置要點:
指明誰是master,誰是slave,集群的名字,節點啟動的端口(特別是在同一臺機器上模擬分布式)。
幾個重要的基礎概念
索引,含有相同屬性的文檔集合。
類型,索引可以定義一個或者多個類型,文檔必須屬于一個類型。
文檔,文檔是可以被索引的基本數據單位。
看起來,比較繞,我們用類比的思路來理解:
索引相當于database,類型相當于table,文檔相當于一條記錄,文檔Document是es里面最小的儲存單位。需要注意的是索引在es中的名稱必須是英文字母小寫且不包含中劃線。和索引相關的有2個高級概念,一個是分片,一個是備份。
分片:每個索引都有多個分片,每個分片是一個lucene索引。
備份:拷貝一個分片就完成了分片的備份。
假設索引的數據很大,就會造成硬盤的壓力很大,同時搜索速度也會出現瓶頸。那么可以將索引分成多個分片,從而分攤壓力。分片的同時,還可以允許用戶進行水平擴展和拆分,進行分布式的儲存,從而提高搜索的效率。
當一個主分片出現問題時,備份的分片可以代替工作,從而提高了es的可用性。
es在默認創建索引時,會創建5個分片,一個備份。
假設我們的es是一個master,2個slave,創建索引時,走的默認配置(5個分片,1個備份),那么圖示如下:
圖中標綠顏色的是主分片,其他是備份的分片。
創建ES索引、類型
本文前面提到es提供了簡單易用的Restful API來操作索引/類型/文檔,下面介紹下基本格式:
API基本格式? http://ip:port/索引/類型/文檔id
http常用方法 get/put/post/delete
下面,我們演示一下利用postman來創建一個索引和類型:
好了,本篇博客就介紹到這里,下一篇博客再來給大家介紹文檔的增刪改查操作等。
see u next time~
張豐哲
2018.11.10