網新關鍵詞3

搜索引擎

  • 搜索引擎是指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統。

  • 在搜索引擎中,有多種種類劃分:

  • 全文索引

全文搜索引擎是目前廣泛應用的主流搜索引擎,它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

根據搜索結果來源的不同,全文搜索引擎可分為兩類:

第一類 第二類
擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,Google和360搜索就屬于此類 租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎
  • 目錄索引

  • 也能稱為分類檢索,是因特網上最早提供WWW(也就是萬維網)資源查詢的服務,主要通過搜集和整理因特網的資源,根據搜索到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。

目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。(例:Yahoo、新浪分類目錄搜索)

  • 元搜索引擎

  • 元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。(例:著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎

  • 集合式搜索引擎

  • 該搜索引擎類似元搜索引擎,區別在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎

  • 垂直搜索引擎

  • 不同于通用的網頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數千臺檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣

  • 門戶搜索引擎

  • 門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。

  • 免費鏈接列表

  • 免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

  • 搜索引擎的組成部分

①搜索器:其功能是在互聯網中漫游,發現和搜集信息;
②索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;
③檢索器:其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,并能按用戶的查詢需求合理反饋信息;
④用戶接口:其作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。

  • 工作原理

①抓取網頁:每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁

②處理網頁:搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。

③提供檢索服務:用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

參考文獻:https://wenku.baidu.com/view/ef3fe01c10a6f524ccbf85df.html?from=search

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。