Elasticsearch檢索 — 聚合和LBS

原文：https://www.fanhaobai.com/2017/08/elasticsearch-advanced-search.html

文章 Elasticsearch檢索實戰已經講述了 Elasticsearch 基本檢索使用，已滿足大部分檢索場景，但是某些特定項目中會使用到聚合和 LBS 這類高級檢索，以滿足檢索需求。這里將講述 Elasticsearch 的聚合和 LBS 檢索使用方法。

本文示例的房源數據，見這里，檢索同樣使用 Elasticsearch 的 DSL 對比 SQL 來說明。

聚合

常規聚合

aggs 子句聚合是 Elasticsearch 常規的聚合實現方式。

桶和指標

先理解這兩個基本概念：

名稱	描述
桶（Buckets）	滿足特定條件的文檔的集合
指標（Metrics）	對桶內的文檔進行統計計算

每個聚合都是一個或者多個桶和零個或者多個指標的組合，聚合可能只有一個桶，可能只有一個指標，或者可能兩個都有。例如這個 SQL：

SELECT COUNT(field_name) FROM table GROUP BY field_name

其中COUNT(field_name)相當于指標，GROUP BY field_name相當于桶。桶在概念上類似于 SQL 的分組（GROUP BY），而指標則類似于 COUNT() 、 SUM() 、 MAX() 等統計方法。

桶和指標的可用取值列表：

分類	操作符	描述
桶	terms	按精確值劃分桶
指標	sum	桶內對該字段值求總數
指標	min	桶內對該字段值求最小值
指標	max	桶內對該字段值求最大值
指標	avg	桶內對該字段值求平均數
指標	cardinality（基數）	桶內對該字段不同值的數量（distinct 值）

簡單聚合

Elasticsearch 聚合 DSL 描述如下：

"aggs" : { 
    "aggs_name" : {
        "operate" : { "field" : "field_name" }
    }
}

其中，aggs_name 表示聚合結果返回的字段名，operate 表示桶或指標的操作符名，field_name 為需要進行聚合的字段。

例1，統計西二旗每個小區的房源數量：

-- SQL描述
SELECT resblockId, COUNT(resblockId) FROM rooms WHERE bizcircleCode = 611100314 GROUP BY resblockId

Elasticsearch 聚合為：

{
  "query": {
    "constant_score": {
      "filter": {
        "bool": {
          "must": [{ "term": { "bizcircleCode": 611100314 }}]
        }
      }
    }
  },
  "aggs": {
    "resblock_list": {
      "terms": { "field": "resblockId" }
    }
  }
}

聚合結果如下：

{
"hits": {
  "total": 6,
  "max_score": 1,
  "hits": [... ...]
},
"aggregations": {
  "resblock_list": {
     "doc_count_error_upper_bound": 0,
     "sum_other_doc_count": 0,
     "buckets": [
        {
          "key": 1321052240532, //小區id為1321052240532有4間房
          "doc_count": 4
        },
        {
          "key": 1111047349969,//小區id為1111047349969有1間房
          "doc_count": 1
        },
        {
          "key": 1111050770108,//小區id為1111050770108有1間房
          "doc_count": 1
        }
     ]
  }
}}

可見，此時聚合的結果有且只有分組后文檔的數量，只適合做一些分組后文檔數的統計。

例2，去重統計西二旗小區的數量：

-- SQL描述
SELECT COUNT(DISTINCT resblockId) FROM rooms WHERE bizcircleCode = 611100314

使用 cardinality 指標統計：

{
  "aggs": {
    "resblock_count": {
      "cardinality": {
        "field": "resblockId"
      }
    }
  }
}

添加度量指標

上述的簡單聚合，雖然可以統計桶內的文檔數量，但是沒法實現組內的其他指標統計，比如小區內的最低房源價格，這時就可以給桶添加一個 min 指標。

-- SQL描述
SELECT resblockId, MIN(price) FROM rooms WHERE bizcircleCode = 611100314

添加 min 指標后為：

{
  "aggs": {
    "resblock_list": {
      "terms": { "field": "resblockId" },
      "aggs": {
        "min_price": {
          "min": { "field": "price" }
        }
      }
    }
  }
}

結果為：

"buckets": [
  {
    "key": 1321052240532,
    "doc_count": 4,
    "min_price": {
      "value": 3320
    }
  }
]

嵌套桶

當然桶與桶之間也可以進行嵌套，這樣就能滿足復雜的聚合場景了。

例如，統計每個商圈的房源價格分布情況：

-- SQL描述
SELECT bizcircleCode, GROUP_CONCAT(price) FROM rooms WHERE cityCode = 110000 GROUP BY bizcircleCode

桶聚合實現如下：

{
  "aggs": {
    "bizcircle_price": {
      "terms": { "field": "bizcircleCode" },
      "aggs": {
        "price_list": {
          "terms": { "field": "price" }
        }
      }
    }
  }
}

聚合結果如下：

{
  "bizcircle_price": {
  "doc_count_error_upper_bound": 0,
  "sum_other_doc_count": 0,
  "buckets": [
    {
      "key": 18335745,
      "doc_count": 1,
      "price_list": {
      "buckets": [
        {
          "key": 3500,
          "doc_count": 1
        }
      ]
    },
    ... ...
  ]
}

增加文檔信息

通常情況下，聚合只返回了統計的一些指標，當需要獲取聚合后每組的文檔信息（小區的名字和坐標等）時，該怎么處理呢？這時，使用 top_hits 子句就可以實現。

例如，獲取西二旗每個小區最便宜的房源信息：

{
  "aggs": {
    "rooms": {
      "top_hits": {
        "size": 1,
        "sort": { "price": "asc" },
        "_source": []
      }
    }
  }
}

其中，size 為組內返回的文檔個數，sort 表示組內文檔的排序規則，_source 指定組內文檔返回的字段。

聚合后的房源信息：

{
  "bizcircle_price": {
    "buckets": [
    {
      "key": 1111050770108,
      "doc_count": 1,
      "rooms": {
        "hits": {
          "total": 1,
          "hits": [
            {
              "_index": "rooms",
              "_source": {
                "resblockId": 1111050770108,
                "resblockName": "領秀慧谷C區",
                "size": 15.3,
                "bizcircleName": [ "西二旗", "回龍觀" ],
                "location": "40.106349,116.31051",
              },
              "sort": [ 3500 ]
           }
         ]
       }
     }
    }]
  }
}

字段折疊

從 Elasticsearch 5.0 之后，增加了一個新特性 field collapsing（字段折疊），字段折疊就是特定字段進行合并并去重，然后返回結果集，該功也能實現 agg top_hits 的聚合效果。

例如，增加文檔信息部分的獲取西二旗每個小區最便宜的房源信息，可以實現為：

{
  "collapse": {
    "field": "resblockId",  //按resblockId字段進行折疊
    "inner_hits": {
      "name": "top_price", //房源信息結果鍵名
      "size": 1,           //每個折合集文檔數
      "sort": [            //每個折合集文檔排序規則
        { "price": "desc" }
      ],
      "_source": []        //文檔的字段
    }
  }
}

檢索結果如下：

{
  "hits": {
    "total": 7,
    "hits": [
    {
      "_index": "rooms",
      "_score": 1,
      "_source": {
        "resblockId": 1111050770108,
        "resblockName": "領秀慧谷C區",
        ... ...
      },
      "fields": {
        "resblockId": [ 1111050770108 ]
      },
      "inner_hits": {
        "top_price": {
          "hits": {
            "total": 1,
            "hits": [ 
            { 
              "_index": "rooms",
              "_source": {
                "resblockId": 1111050770108,
                "resblockName": "領秀慧谷C區",
                "price": 3500,
                ... ...
                "location": "40.106349,116.31051"
              },
              "sort": [ 3500 ]
            }]
          }
        }
      }
    ]
  }
}

Field collapsing 和 agg top_hits 區別：field collapsing 的結果是夠精確，同時速度較快，更支持分頁功能。

LBS

Elasticsearch 同樣也支持了空間位置檢索，即可以通過地理坐標點進行過濾檢索。

索引格式

由于地理坐標點不能被動態映射自動檢測，需要顯式聲明對應字段類型為 geo-point，如下：

PUT /rooms   //索引名

{
  "mappings": {
    "restaurant": {
      "properties": {
        ... ...
        "location": {          //空間位置檢索字段
          "type": "geo_point"  //字段類型
        }
      }
    }
  }
}

數據格式

當需檢索字段類型設置成 geo_point 后，推送的經緯度信息的形式可以是字符串、數組或者對象，如下：

形式	符號	示例
字符串	“lat,lon”	“40.060937,116.315943”
對象	lat 和 lon	{ “lat”:40.060937, “lon”:116.315943 }
數組	[lon, lat]	[116.315943, 40.060937]

特別需要注意數組形式時 lon 與 lat 的前后位置，不然就果斷踩坑了。

然后，推送含有經緯度的數據：

POST /rooms/room/

{
  "resblockId": 1321052240532,
  "resblockName": "領秀新硅谷1號院",
  "houseId": 1112046338679,
  "cityCode": 110000,
  "size": 14,
  "bizcircleCode": [ 611100314 ],
  "bizcircleName": [ "西二旗" ],
  "price": 3330,
  "location": "40.060937,116.315943"
}

檢索過濾方式

Elasticsearch 中支持 4 種地理坐標點過濾器，如下表：

名稱	描述
geo_distance	找出與指定位置在給定距離內的點
geo_distance_range	找出與指定點距離在最小距離和最大距離之間的點
geo_bounding_box	找出落在指定矩形框中的點
geo_polygon	找出落在多邊形中的點，將不說明

例如，查找西二旗地鐵站 4km 的房源信息：

{
  "filter": {              //過濾器
    "geo_distance": {
      "distance": "4km",
      "location": {
        "lat": 40.106349,
        "lon": 116.31051
      }
    }
  }
}

LBS 檢索的結果為：

{
  "hits": [
    {
      "_index": "rooms",
      "_source": {
        "resblockId": 1111050770108,
        "resblockName": "領秀慧谷C區",
        ... ...
        "location": "40.106349,116.31051"
      }
    },
    {
      "_index": "rooms",
      "_source": {
        "resblockId": 1111047349969,
        "resblockName": "融澤嘉園",
        ... ...
        "location": "40.074203,116.315445"
      }
    }
  ]
}

總結

本文講述了使用 Elasticsearch 進行聚合和 LBS 檢索，盡管文中只是以示例形式進行說明，會存在很多不全面的地方，還是希望對你我學習 Elasticsearch 能有所幫助。

最后編輯于：2017.12.10 03:59:34

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,936評論 6贊 535
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,744評論 3贊 421
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,879評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,181評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,935評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,325評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,384評論 3贊 443
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,534評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,084評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,892評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,623評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,322評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,735評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,990評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,800評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,084評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Elasticsearch檢索 — 聚合和LBS

Elasticsearch檢索 — 聚合和LBS

聚合

常規聚合

桶和指標

簡單聚合

添加度量指標

嵌套桶

增加文檔信息

字段折疊

LBS

索引格式

數據格式

檢索過濾方式

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Elasticsearch檢索 — 聚合和LBS

聚合

常規聚合

桶和指標

簡單聚合

添加度量指標

嵌套桶

增加文檔信息

字段折疊

LBS

索引格式

數據格式

檢索過濾方式

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频