? 第三章應該是本書最重要的幾個章節(其它分別為第5,第6,第9)之一了。
? ? 這一章作者講述索引,其實也就相當于把用戶進行搜索查詢所會涉及到的最重要的一個環節做了解釋。本章有部分內容涉及到的技術細節比較多也比較難以理解,我就直接略過了,等后續把整個搜索的大致原理弄懂了再回過頭來看一遍。
1、目前主流的搜索引擎所用的索引結構基本上都是倒排索引。
2、所謂的倒排索引其實就是將文檔(泛指被搜索的內容)中的所有詞(去重)抽取出來保存到一個表里,這樣一來,就可以快速地獲取到包含某一個關鍵詞的文檔列表。
3、倒排索引主要由單詞詞典及倒排文件兩個部分組成。
4、單詞詞典是指所有文檔集合中出現過的所有單詞的字符串集合。
5、倒排文件是指記載了出現過某個單詞的所有文檔的文檔列表及該單詞在這些文檔中的位置信息的列表的組合(列表統一存放處)。
6、在實際的搜索應用領域,搜索引擎所要處理的文檔是具有一定結構的,這些文檔包含了各種字段,每個字段都應該單獨建立一個索引表,每個字段的在搜索中的權重可能都會有所不同。比如說電商中的商品,有標題、描述、品類、品牌、促銷等相關字段,在這些字段中應該是品牌的權重最高。
7、較常見的支持短語查詢的技術方法包括:位置信息索引、雙詞索引以及短語索引3類,為了更有效地利用和計算資源,可以將3者結合使用。以電商為例,用戶輸入某個查詢,先在人工維護的短語索引中進行查詢,若找到則返回結果,若沒找到則在雙詞索引中查找,找到則返回結果,沒找到則接著在常規索引中查找。