elasticsearch6使用Collapse實現折疊重復數據效果

背景介紹

在論壇類型的數據中,特別是涉及到可能有大量營銷號的時候,有個要面對的情況就是,要如何對數據進行"去重".這個去重并非真正的去重,而是說去掉人眼認為大量"相同的"數據.營銷號們將一條內容反復發布數次,就會造成在召回結果中的某一頁(可能是幾頁)充斥著大量看過去就一模一樣的內容,這些內容在數據的意義上是不同的,但是在用戶體驗上,他們就屬于應該被折疊的內容.

思路方案

首先最重要的一點還是要定義什么樣的數據算重復這個問題.借助優秀的團隊分工,有算法組的同事通過響應算法對數據進行打標,將算法判定為重復的數據打上相同的id,也就是說,余下的問題可以簡化為,我們如何在做數據召回的時候,做到相同重復id的數據只召回一條.
這里有兩種方案

  1. top_hits + 聚合統計agg
  2. es5以后的新特性collapse

這里主要介紹方案2,方案1測試完就不考慮了,性能慢的令人發指.

實施過程

首先還是我們準備好數據,索引庫的數據類似以下的結構

{
    "_id": xxxx,
    ......
    "dumplicate_id"
}

_id是數據的主鍵,而dumplicate_id則是我們的重復組id.接下來的工作就是,在召回過程中屏折疊重復數據.接下來放上召回es語句的demo

{
    "from": 0,
    "size": 12,
    "query": {
        "bool": {
            "should": [{
                "match": {
                    "field1": {
                        "query": "aaa",
                        "operator": "OR",
                        "prefix_length": 0,
                        "max_expansions": 50,
                        "fuzzy_transpositions": true,
                        "lenient": false,
                        "zero_terms_query": "NONE",
                        "auto_generate_synonyms_phrase_query": true,
                        "boost": 1.0
                    }
                }
            }, {
                "match": {
                    "field2": {
                        "query": "aaa",
                        "operator": "OR",
                        "prefix_length": 0,
                        "max_expansions": 50,
                        "fuzzy_transpositions": true,
                        "lenient": false,
                        "zero_terms_query": "NONE",
                        "auto_generate_synonyms_phrase_query": true,
                        "boost": 0.1
                    }
                }
            }],
            "adjust_pure_negative": true,
            "minimum_should_match": "1",
            "boost": 1.0
        }
    },
    "collapse": {
        "field": "duplicate_id",         //要進行折疊的字段
        "inner_hits": {                      //折疊的參數集
            "name": "test",              //折疊的name,目前沒有發現哪里有用到的地方,可能在多個折疊情況下有用
            "ignore_unmapped": true,  //默認為false,如果存在一些數據沒有折疊字段的會報錯,設置為true可以避免類似的報錯
            "from": 0,
            "size": 0,                         //from和size用來控制想要返回的折疊列表,這里我的需求是重復id相同僅返回頭條,所以兩個參數均設置為0,如果有需求折疊列表的可以通過這里控制
            "version": false,
            "explain": false,
            "track_scores": true,
            "sort": [{                          //折疊列表的排序,折疊列表中要把誰顯示在第一個的排序,比如這樣做是將該折疊列表的數據按字段level倒序排列.
                "level": {
                    "order": "desc"
                }
            }]
        }
    }
}

collapse是和from,size,query等結構是同級并列的情況,耗時上也非常可觀,它并不是在整個索引庫里面進行折疊,而是在召回結果拿到以后再進行的折疊,效率上肯定比方案1的top_hits+agg來的高效,而且這個也是es5專門為這個場景設計的功能.
最后放上java代碼如何使用api的demo

        CollapseBuilder collapseBuilder = new CollapseBuilder("duplicate_id");
            InnerHitBuilder innerHitBuilder = new InnerHitBuilder();
            innerHitBuilder.setName("test");
            innerHitBuilder.setSize(0);
            innerHitBuilder.setTrackScores(true);
            innerHitBuilder.setIgnoreUnmapped(true);
            innerHitBuilder.addSort(SortBuilders.fieldSort("level").order(SortOrder.DESC));
            collapseBuilder.setInnerHits(innerHitBuilder);

            ......

            srb = client.prepareSearch(indexName)
                        .setTypes(typeName)
                        .setQuery(bqb)
                        .setFrom(params.getFrom())
                        .setSize(params.getSize())
                        .setCollapse(collapseBuilder)
                        .setPreference("_primary_first");

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,739評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,634評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,653評論 0 377
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,063評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,835評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,235評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,315評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,459評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,000評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,819評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,004評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,560評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,257評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,676評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,937評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,717評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,003評論 2 374

推薦閱讀更多精彩內容