Java最新突擊面試筆記總結(jié)—ElasticSearch面試內(nèi)容

搜索引擎面試題

題目和解答來自于中華石杉和自己整理總結(jié)而得，希望能夠有所幫助。
搜索引擎主要考察ElasticSearch 以及對(duì)應(yīng)底層的Lucene技術(shù)。
主要面試題集中于：

es分布式架構(gòu)原理
es的插入與查詢
es在數(shù)據(jù)量很大的情況下如何提高性能
es在生產(chǎn)集群的部署架構(gòu)是什么，每個(gè)索引有多大的數(shù)據(jù)量，每個(gè)索引有多少分片

1. es分布式架構(gòu)原理

首先需要明白es是如何存儲(chǔ)數(shù)據(jù)的，es把對(duì)應(yīng)的數(shù)據(jù)轉(zhuǎn)換為index。基于倒排索引的方式，每個(gè)index上存儲(chǔ)了多個(gè)type類型，每個(gè)type對(duì)應(yīng)一個(gè)document。而一個(gè)index會(huì)被分成多個(gè)shard(默認(rèn)是5個(gè))。
在分布式部署時(shí)，每個(gè)shard會(huì)被復(fù)制，即一個(gè)shard有primary和replica 每個(gè)es進(jìn)程存儲(chǔ)的是不同shard的primary和replica。es集群多個(gè)節(jié)點(diǎn)，會(huì)自動(dòng)選舉一個(gè)節(jié)點(diǎn)為master節(jié)點(diǎn)，這個(gè)master節(jié)點(diǎn)其實(shí)就是干一些管理的工作的，比如維護(hù)索引元數(shù)據(jù)拉，負(fù)責(zé)切換primary shard和replica shard身份拉，之類的。

3cWgYV.png

2. es的數(shù)據(jù)寫入與讀取

2.1 es數(shù)據(jù)的寫入

2.1.1 es數(shù)據(jù)的寫入過程

注意，客戶端是可以在任意節(jié)點(diǎn)進(jìn)行寫入數(shù)據(jù)的，與Kakfa不同。
1）客戶端選擇一個(gè)node發(fā)送請(qǐng)求過去，這個(gè)node就是coordinating node（協(xié)調(diào)節(jié)點(diǎn)）
2）coordinating node，對(duì)document進(jìn)行路由得到對(duì)應(yīng)應(yīng)該存儲(chǔ)到哪個(gè)shard，將請(qǐng)求轉(zhuǎn)發(fā)給對(duì)應(yīng)的node（有primary shard）
3）實(shí)際的node上的primary shard處理請(qǐng)求，然后將數(shù)據(jù)同步到replica node
4）coordinating node，如果發(fā)現(xiàn)primary node和所有replica node都搞定之后，就返回響應(yīng)結(jié)果給客戶端

3cWXlD.png

2.1.2 es數(shù)據(jù)的寫入原理

es數(shù)據(jù)寫入原理主要可以分為4個(gè)操作：

refresh
commit
flush
merge

	操作觸發(fā)條件	操作過程
refresh	1. 每隔1s進(jìn)行一次refresh操作 2. buffer已滿，則進(jìn)行一次refresh操作	1. buffer將數(shù)據(jù)寫入segment file 2. 清空buffer
commit	1. 每隔30分鐘執(zhí)行一次translog 2. translog日志已滿	1. 會(huì)主動(dòng)進(jìn)行一次refresh操作，把buffer中的數(shù)據(jù)寫入到segment file 2. 生成一個(gè) commit point 文件標(biāo)識(shí)此次操作一件把buffer數(shù)據(jù)執(zhí)行到了哪一個(gè)segment文件 3. 執(zhí)行flush操作
flush	commit操作中	1. 把file system上的文件全部強(qiáng)制fsync（持久化）到磁盤 2. 清空translog文件 3. 生成一個(gè)新的translog文件
merge	后臺(tái)檢查	1. 將多個(gè)segment文件合并為一個(gè)文件，并把.del文件刪除 2. commit log 更新標(biāo)識(shí)目前的segment 3. 打開segmentfile 到file cache 以供快速搜索 4. 刪除舊的segment file

3chLse.png

2.2 es數(shù)據(jù)的讀取

2.2.1 讀取數(shù)據(jù)

使用RestFul API向?qū)?yīng)的node發(fā)送查詢請(qǐng)求，根據(jù)did來判斷在哪個(gè)shard上，返回的是primary和replica的node節(jié)點(diǎn)集合
這樣會(huì)負(fù)載均衡地把查詢發(fā)送到對(duì)應(yīng)節(jié)點(diǎn)，之后對(duì)應(yīng)節(jié)點(diǎn)接收到請(qǐng)求，將document數(shù)據(jù)返回協(xié)調(diào)節(jié)點(diǎn)，協(xié)調(diào)節(jié)點(diǎn)把document返回給客戶端

3cI6RP.png

2.2.2 全文檢索

(1) 客戶端使用RestFul API向?qū)?yīng)的node發(fā)送查詢請(qǐng)求
(2)協(xié)調(diào)節(jié)點(diǎn)將請(qǐng)求轉(zhuǎn)發(fā)到所有節(jié)點(diǎn)（primary或者replica）所有節(jié)點(diǎn)將對(duì)應(yīng)的數(shù)據(jù)查詢之后返回對(duì)應(yīng)的doc id 返回給協(xié)調(diào)節(jié)點(diǎn)
(3)協(xié)調(diào)節(jié)點(diǎn)將doc進(jìn)行排序聚合
(4) 協(xié)調(diào)節(jié)點(diǎn)再根據(jù)doc id 把查詢請(qǐng)求發(fā)送到對(duì)應(yīng)shard的node，返回document

3 es在數(shù)據(jù)量很大的情況下如何提高性能

3.1 filesystem

es每次走fileSystem cache查詢速度是最快的
所以將每個(gè)查詢的數(shù)據(jù)50% 容量
= fileSystem cache 容量。

3.2 數(shù)據(jù)預(yù)熱

數(shù)據(jù)預(yù)熱是指，每隔一段時(shí)間，將熱數(shù)據(jù)
手動(dòng)在后臺(tái)查詢一遍，將熱數(shù)據(jù)刷新到fileSystem cache上

3.3 冷熱分離

類似于MySQL的分表分庫
將熱數(shù)據(jù)單獨(dú)建立一個(gè)索引分配3臺(tái)機(jī)器只保持熱機(jī)器的索引
另外的機(jī)器保持冷數(shù)據(jù)的索引，但有一個(gè)問題，就是事先必須知道哪些是熱數(shù)據(jù) 哪些是冷數(shù)據(jù)

3.4. document設(shè)計(jì)

在使用es時(shí) 避免使用復(fù)雜的查詢語句（Join 、聚合），就是在建立索引時(shí)，
就根據(jù)查詢語句建立好對(duì)應(yīng)的元數(shù)據(jù)。

3.5 實(shí)際設(shè)計(jì)

采用elasticSearch + Hbase的架構(gòu)方式。es中只存放少量關(guān)鍵數(shù)據(jù)建立索引，通過es查詢到doc id 再去Hbase中查詢完整的數(shù)據(jù)信息。

4 es在生產(chǎn)集群的部署架構(gòu)是什么，每個(gè)索引有多大的數(shù)據(jù)量，每個(gè)索引有多少分片

生產(chǎn)環(huán)境部署情況
（1）es生產(chǎn)集群我們部署了5臺(tái)機(jī)器，每臺(tái)機(jī)器是6核64G的，集群總內(nèi)存是320G
（2）我們es集群的日增量數(shù)據(jù)大概是2000萬條，每天日增量數(shù)據(jù)大概是500MB，
每月增量數(shù)據(jù)大概是6億，15G。目前系統(tǒng)已經(jīng)運(yùn)行了幾個(gè)月，現(xiàn)在es集群里數(shù)據(jù)總量大概是100G左右。
（3）目前線上有5個(gè)索引（這個(gè)結(jié)合你們自己業(yè)務(wù)來，看看自己有哪些數(shù)據(jù)可以放es的），
每個(gè)索引的數(shù)據(jù)量大概是20G，所以這個(gè)數(shù)據(jù)量之內(nèi)，我們每個(gè)索引分配的是8個(gè)shard，比默認(rèn)的5個(gè)shard多了3個(gè)shard。

更多原創(chuàng)內(nèi)容歡迎關(guān)注：
公眾號(hào)：木對(duì)林三的成長
v?：lh18708107810

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,345評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,494評(píng)論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,283評(píng)論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,953評(píng)論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,714評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,186評(píng)論 1贊 324
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,255評(píng)論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,410評(píng)論 0贊 288
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,940評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,776評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,976評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,518評(píng)論 5贊 359
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,210評(píng)論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,642評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,878評(píng)論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,654評(píng)論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,958評(píng)論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Java最新突擊面試筆記總結(jié)—ElasticSearch面試內(nèi)容

Java最新突擊面試筆記總結(jié)—ElasticSearch面試內(nèi)容

搜索引擎面試題

1. es分布式架構(gòu)原理

2. es的數(shù)據(jù)寫入與讀取

2.1 es數(shù)據(jù)的寫入

2.1.1 es數(shù)據(jù)的寫入過程

2.1.2 es數(shù)據(jù)的寫入原理

2.2 es數(shù)據(jù)的讀取

2.2.1 讀取數(shù)據(jù)

2.2.2 全文檢索

3 es在數(shù)據(jù)量很大的情況下如何提高性能

3.1 filesystem

3.2 數(shù)據(jù)預(yù)熱

3.3 冷熱分離

3.4. document設(shè)計(jì)

3.5 實(shí)際設(shè)計(jì)

4 es在生產(chǎn)集群的部署架構(gòu)是什么，每個(gè)索引有多大的數(shù)據(jù)量，每個(gè)索引有多少分片

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Java最新突擊面試筆記總結(jié)—ElasticSearch面試內(nèi)容

搜索引擎面試題

1. es分布式架構(gòu)原理

2. es的數(shù)據(jù)寫入與讀取

2.1 es數(shù)據(jù)的寫入

2.1.1 es數(shù)據(jù)的寫入過程

2.1.2 es數(shù)據(jù)的寫入原理

2.2 es數(shù)據(jù)的讀取

2.2.1 讀取數(shù)據(jù)

2.2.2 全文檢索

3 es在數(shù)據(jù)量很大的情況下如何提高性能

3.1 filesystem

3.2 數(shù)據(jù)預(yù)熱

3.3 冷熱分離

3.4. document設(shè)計(jì)

3.5 實(shí)際設(shè)計(jì)

4 es在生產(chǎn)集群的部署架構(gòu)是什么，每個(gè)索引有多大的數(shù)據(jù)量，每個(gè)索引有多少分片

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频