搜索引擎
搜索引擎是指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統。
在搜索引擎中,有多種種類劃分:
-
全文索引
全文搜索引擎是目前廣泛應用的主流搜索引擎,它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
根據搜索結果來源的不同,全文搜索引擎可分為兩類:
第一類 | 第二類 |
---|---|
擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,Google和360搜索就屬于此類 | 租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎 |
-
目錄索引
也能稱為分類檢索,是因特網上最早提供WWW(也就是萬維網)資源查詢的服務,主要通過搜集和整理因特網的資源,根據搜索到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。
目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。(例:Yahoo、新浪分類目錄搜索)
-
元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。(例:著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎)
-
集合式搜索引擎
該搜索引擎類似元搜索引擎,區別在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
-
垂直搜索引擎
不同于通用的網頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千臺檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。
-
門戶搜索引擎
門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。
-
免費鏈接列表
免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。
-
搜索引擎的組成部分
①搜索器:其功能是在互聯網中漫游,發現和搜集信息;
②索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;
③檢索器:其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,并能按用戶的查詢需求合理反饋信息;
④用戶接口:其作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。
-
工作原理
①抓取網頁:每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。
②處理網頁:搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
③提供檢索服務:用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
參考文獻:https://wenku.baidu.com/view/ef3fe01c10a6f524ccbf85df.html?from=search