第一章
1.Web信息檢索的特點是什么?
答:(1)規模大。人類生產40億網頁[Google,2004],而書才1億本;中國有3億網頁[天網,2004]。
(2)內容不穩定。50%網頁的平均生命周期約為50天[Cho and Garcia-Molina,2000, Cho,2002]。
(3)與生俱來的數字化、網絡化。蜂擁而至、魚目混珠。
(4)要求高并發(1000次/s)、響應快(1s)。
2. 簡述獲取網頁標題最簡單的辦法。
答:從網頁中的標題標簽< title >< /title >中提取。
3. 簡述“網頁快照”或“歷史網頁“的作用。
答:(1)網頁快照能保留網頁修改前的內容信息。
(2)網頁快照能體現蜘蛛爬行網站的頻率。
(3)網頁快照能作為現有網站內容和蜘蛛抓取內容的參照。
(4)網頁快照能體現網站階段性的內容更新狀況。
(5)網頁快照能體現階段搜索引擎信任度。
4. Archie是搜索引擎鼻祖,簡述Archie具備的搜索引擎相關功能。
答:(1)定期搜集,并分析FTP系統中存在的文件信息
(2)大型數據庫 + 檢索方法
(3)通過文件名,檢索所在FTP服務器的地址
(4)搜索引擎鼻祖:自動搜集信息、建立索引,提供檢索服務
5.敘述搜索引擎的發展趨勢。
答:(1)文本自動分類技術
(2)人工分類 + 自動爬取
(3) 互聯網信息:網頁和文件、新聞組、論壇、專業數據庫等
(4)通用搜索引擎無法全覆蓋
(5)主題搜索引擎:個性化搜索引擎、問答式搜索引擎等
(6)通用搜索引擎:出現分工協作,如搜索引擎技術和搜索數據庫服務提供商
(7)搜索引擎優化空間似乎變大,但是難度不減。
(8)搜索引擎推廣正在向網絡推廣轉變,
(9)線上推廣渠道和線下推廣渠道加速融合。
(10)垂直搜索引擎領域的崛起。
(11)文本文檔搜索領域、多媒體搜索引擎的崛起。
第二章
1. 用戶向搜索引擎提交查詢詞,搜索引擎在“可以接受的時間”內返回和該用戶查詢匹配的網頁信息列表。請簡述網頁信息列表的組成?“可以接受的時間”應滿足什么要求?
答:(1)在“可以接受的時間”內返回和該用戶查詢匹配的網頁信息列表,記作L。包括:標題、URL和摘要。
(2)“可以接受的時間”即響應時間。系統應該在額定吞吐率的情況下保證秒級響應時間。不僅滿足單個查詢,且在系統設計負載的情況下滿足所有查詢。
2. 簡述現代大規模高質量搜索引擎的工作流程。
答:網頁搜集、預處理和查詢服務。
3. 形成倒排文件即“預處理”,請簡述其流程。
答: 形成倒排文件即“預處理”,流程如下:
? ? (1)關鍵詞的提取;
? ? (2)重復或轉載網頁的消除;
? ? (3)鏈接分析;
? ? (4)網頁重要程度的計算。
4. 系統網頁數據庫維護的基本策略包括增量搜集。簡述增量搜集的過程優點缺點
答:(1)開始搜集一批,往后1)搜集新網頁,2)搜集改變過的網頁,3)刪除不存在的網頁;
(2)50%網頁的平均生命周期約為50天[Cho and Garcia-Molina,2000];
(3)優點:時新性高,例:30萬網頁,1臺PC,0.5天搜集完;
(4)缺點:系統實現比較復雜,包括:搜集過程、建索引過程.
5. 爬取屬于抓取網頁的一種策略。如果將網頁集合看成有向圖,請說明爬取的過程。
答: 搜集過程:
(1) 從給定起始URL集合S(“種子”)開始;
(2) 沿著網頁中的鏈接,按照先深、先寬、或者某種策略遍歷;
(3)不停的從S中移除URL,下載網頁并解析其中的超鏈接URL,將未訪問過的URL加入集合S。
(4)搜集過程想象為:一只或多只蜘蛛(spider)在蜘蛛網(Web)上爬行(crawl)。
第三章
1. 作為一個小型搜索引擎系統,TSE的特點是什么?
答:特點如下:
(1)適合教學
(2)很小:可用普通臺式機搭建
(3)簡單:具有程序設計基礎即可理解
(4)功能相對完整:反映一個大規模搜索引擎的主要成分
2. 對于搜索引擎而且,如何首先搜集重要的網頁,好的搜集策略是什么?經驗特征是什么?
答:搜索引擎不可能搜集所有網頁
[Lawrence and Giles,1998]
好的搜集策略:
分布并行工作
優先搜集重要網頁
經驗特征:
(1) 網頁的入度大,被其他網頁引用次數多
(2) 某網頁的父網頁入度大
(3) 網頁的鏡像度高,熱門
(4) 網頁的目錄深度小,易于瀏覽
3. 請描述網頁搜集的流程。
答:網頁搜集的流程如下:
從URL庫(起始種子)解析Web服務器地址
建立連接、發送請求和接收數據
網頁 -> 原始網頁庫,鏈接信息 -> 網頁結構庫
待抓取的URL放入URL庫
4. 請簡述spider與gatherer的區別。
答:spider
網頁搜集子系統
可用C/C++、Java,Python等編寫
gatherer
爬取器
spider啟動多個gatherer(進程或線程)完成一篇網頁抓取
5. 請簡述網頁重復搜集的定義和原因。
答:定義:網頁沒有更新,被搜集程序重復訪問
原因:搜集程序沒有清楚記錄已經訪問過的URL,域名與IP多重對應關系
第四章
1、簡述天網格式的優點和缺點。
答:優點:容錯性好,局部性數據損壞不會擴散
缺點:不能按照網頁url,隨機存取其所指向的網頁
2. “回溯”能改進正向減字最大匹配法的性能,請說明“回溯”的流程。
答:(1)從左到右切分一遍句子
(2)從右到左切分一遍句子
(3)對兩遍切分結果不同的字符串,用回溯法重新處理
3.分析網頁的結果是什么?
答:形成文檔編號到索引詞的對應關系表
記錄組成
文檔編號
索引詞號
索引詞在文檔中的位置
索引詞載體信息(索引詞的字體、大小寫等,用于查詢結果的排序)
4. 針對基于統計的分詞方法,請簡述實際應用的策略?并分析這些策略的優點。
答:使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞
使用統計方法識別新的詞,即將串頻統計和串匹配結合起來
匹配分詞:切分速度快、效率高
無詞典分詞:結合上下文識別生詞、自動消除歧義
5. 請簡述基于字符串匹配的分詞方法的基本思想。
答:按照某種策略,將待分析漢字串與充分大詞典中的詞條進行匹配,若在詞典中找到某個漢字串,則匹配成功(識別詞)
6. 針對天網格式缺點,請簡述預處理流程。
答:第一步:為原始網頁建立索引,實現索引網頁庫,索引可用于網頁快照
第二步:網頁切分,將每一篇網頁轉化為一組詞的集合
第三步:將網頁到索引詞的映射,轉化為索引詞到網頁的映射,形成倒排文件
? 第五章
1. TSE系統為提高響應時間,采取了哪些措施?取得什么效果?
答: (1)索引詞表、用戶近期查詢結果駐留在內存中
(2)如果內存足夠大,所有倒排表項也可以駐留在內存中
(3)大數據量和大訪問量(如1000個查詢/秒),實現秒級響應
2. 在TSE系統中,用戶界面主要負責和用戶直接接觸的事件,具體包含哪些工作?
答: (1) 獲取用戶的查詢請求,提交給查詢代理;通過HTML語言的<FORM>來實現
(2)查詢代理檢索索引詞表和倒排表,產生結果輸出給用戶;主要用到動態網頁生成技術和動態摘要算法
(3)記錄日志,包括用戶查詢短語、查詢時間等信息。
第六章
1. 相對于天網1.0,天網2.0進行了哪些較大的改進?
答: 主要改進如下:
天網1.0:采用集中式系統結構,搜索量為百萬級
天網2.0:
(1)重新設計系統結構、修改實現方法
(2)包括搜集子系統、索引子系統、檢索子系統三個部分
(3)可擴展Web信息搜集子系統是核心,由N個獨立自主的集中式系統和協調模塊組合而成
2. 天網2.0搜集系統的主控結構由哪些進程組成?
答:(1)主進程
(2)robots存取分析進程
(3)URL過期檢查進程
(4)數據庫
(5)結果插入進程
(6)NewUrl處理進程
3. 在負載平衡的條件下,保證系統具有動態調度性,可采用哪些方法?
答: (1)第一種方法:散列函數動態調度url
(2)第二種方法
結合第一種方法,每個節點記錄著一張www主機表
表在各個節點是相同的,記錄包含一個www主機對應的節點
(3)第三種方法:邏輯上二級映射
第七章
1. 請比較網頁凈化和消重的相同點與不同點。
答: 相同點:
(1)大規模搜索引擎系統預處理的重要環節
(2)建索引一般在消重后的網頁集上進行
不同點:
網頁凈化:
(1)識別和消除網頁內的噪音內容(如廣告、版權信息等)
(2)提取網頁的主題、主題相關的內容
消重:去除網頁集合中主題內容重復的網頁
2. 網頁表示有哪幾種方法?并舉例說明。
答:(1)抽象表示:從網頁制作范圍(如HTML)出發,構造能體現網頁內容結構、內容重要性等的表示模型,最常用的抽象方法表示,是構造網頁的標簽樹
(2)量化表示:從計算機處理出發,挖掘網頁中的隱含信息,生成用于計算的表示模型,如向量空間模型
3.請簡述DocView模型由哪些數據組成?
答: 1、網頁的元數據
a. 網頁標識:使用網頁的URL作為網頁唯一性標識
b. 網頁類型:主題網頁(topic)、Hub網頁(hub)、圖片網頁(pic)
c. 內容類別:從語義上對網頁的內容進行分類
d.標題、關鍵詞、摘要:概括描述Web文檔內容
2、網頁的內容數據
a. 正文:原始網頁中真正描述主題的部分
b. 相關鏈接:在本文網頁中只想與正文內容相關的網頁的鏈接,而非廣告等噪音鏈接
4. 在網頁量化表示的過程中,存在“高頻無關詞”,請說明“高頻無關詞”的定義、特點和處理方式。
答:(1)定義:在文檔中詞頻很高,但沒有主題描述能力和區別能力。如:“中國”、“可以”
(2)特征:在大量的文檔中都可以高頻詞的角色出現
(3)處理:通過詞頻和文檔頻率,確定某個集合的“高頻無關詞”集
第八章
1. 請簡述索引剪枝的目的。
答:從減少倒排索引的大小、查詢處理時盡量少的處理數據,這兩方面來提升查詢的處理速度。
2. 請簡述倒排索引壓縮的優點和缺點。
答:優點:減小倒排項數據長度、內存和I/O帶寬的使用
缺點:對壓縮數據解碼,增加CPU時間
第九章
1. 檢索評估的基礎是測試集,請簡述測試集的概念及組成。
答:概念:一種在規范化環境中測試系統效能的機制。
組成:測試文檔集、查詢問題、相關判斷結果三個部分。
2. 一般而言,技術評估有哪幾個層次?
答:
系統表現:
(1)評估中用戶關心若干事情,記做F={f1, f2,…, fn}
(2)其中的元素可以是相關性、新穎性、完整性、速度等
測試指標:
(1)測試一些指標,記做G={g1, g2,…, gn}
(2)希望對G的測試結果和F有好的對應
設計指標:在設計系統的時候,用P={p1, p2,…, pn}表示實現程度對G貢獻的關系
非主觀題
判斷題
1、 信息檢索系統返回結果的排序,稱為“檢索排序”,隱含其中各條目的順序,反映結果和查詢的相關程度。√
2、斯坦福Google小組的PageRank技術和IBM公司Clever小組的HITS技術都同時才用網頁的“入度”和“出度”兩個指標。√
3、持續收集并長期保存Web頁,具有重要的史料價值和社會意義。√
4、Minerva是美國最早保存Web信息的機構之一。×
5、假設n為并行收集系統的節點數,則節點間URL的劃分策略可抽象為將目標設定在n上,形成一個“優化的”URLs-劃分。√
6、 在分布式Web搜集系統結構中,調度模塊用于維護協調進程的IP地址和端口號。√
7、在提出的5種網頁消重算法中,算法3是對算法4的放松。×
8、 在提出的5種網頁消重算法中,算法5比算法2嚴格。×
9、天網的檢索系統設計原則,一是追求系統的快速響應;二是通過集成框架,有效地把各種有利于改善檢索效果的技術集成。√
10、現代搜索引擎普遍使用全文索引技術,即網頁中所有詞都參與索引。√
11、如何講一篇網頁比另外一篇網頁重要?基本思想是參照科技文獻重要性的評估方式,即被引用多的就是重要的。√
12、全面網頁搜集 + 局部更新”屬于一種搜索引擎采用的抓取網頁策略,其特點是每次抓取都進行全面網頁搜集。×
13、在與服務器建立連接時,Socket必須綁定到一個本地端口和本地地址上。√
14、 搜索引擎有可能搜集所有網頁。×
15、由于具有詞與詞無分隔符、詞匯由多個漢字組成、語句連續書寫等特點,中文較英文更難分詞。×
16、 在基于字符串匹配的分詞方法中,字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。√
17、 在形成查詢結果集合時,需要用索引替代排序,即先搜集到的網頁以小的網頁編碼,索引項自動保持順序。√
18、在形成查詢結果集合時,第一步是執行檢索算法。×
單項選擇題
1、中國Web信息博物館Web InfoMall提供了4種視圖,其中,可用于歷史網頁挖掘與檢索挖掘的是
答:屬性視圖
2、根據Web InfoMall需要,將存儲數據分為多種形式,關于索引及中間數據的描述,正確的是
答:是動態數據,包含:URL索引、倒排索 引、鏈接圖等,難使用同一種方法來存儲。
3、從事信息檢索評估的中國機構是
答:CWIRF
4、關于TREC的錯誤描述是
答:以大規模案例集為基礎,推動信息檢索的研究。
5、在HTML Tree結構中,每個結點(內容塊)都有相應的描述信息,下列選項中不屬于這些描述信息的是
答:結果集
6、在設計適于查詢的網頁索引結構時,采用了緩存技術,關于緩存的錯誤描述是
答:二分查找很好利用緩存,緩存缺失率低。
7、混合索引的本質是
答:建立倒排索引過程中的一種索引詞選擇方法與技術。
8、不屬于小搜索引擎程序的是
答:OPnet
9、下列選項中,最適合TSE的高性能并行計算機系統種類是
答:機群
10、下列關于可擴展搜集子系統的描述,錯誤的是
答:加速比即n個節點協同工作搜集的網頁數與單節點在同樣時間段搜集網頁數之比。
11、大型商業搜索引擎一般都提供“主動提交”的網頁抓取功能,關于“主動提交”,下列說法錯誤的是
答:視為極端的先寬搜索。
12、原始網頁集合S經過預處理后,形成對S的一個子集的元素的某種內部表示,下列選項中,不屬于元素的是
答:索引號
13、一個URL由6個部分組成,其中,Scheme表示
答:協議名稱
14、在天網存儲格式中,原始網頁庫由若干記錄組成,下列選項中不屬于記錄的是
答:尾部
15、對于現代漢語來說,如果選擇ASM(d,a,m)模型,則最佳選擇是
答:m=+
16、引入倒排索引的根本原因是
答:一般的數據庫系統不能快速響應大量的用戶請求。
多項選擇題
1、對搜索引擎的評估可以分為6個級別,屬于以用戶為中心的級別包括:
答:輸出級、應用級、社會級
2、關于動態索引剪枝方法,下列說法正確的是
答:在處理查詢的過程中,盡量少的讀取或處理査詢詞對應倒排鏈的數據。
剪枝過程發生在査詢處理階段,知道的查詢信息較多,更容易計算信息的重要度。
一般不會影響最終查詢的效果。
依賴于倒排索引的結構與排序函數。
3、現有的剪枝方法,可從多個方面來提升查詢的處理速度,包括
答:提前結束查詢處理
倒排鏈內數據的跳躍處理
去除查詢詞
盡早結束文檔打分
4、“權值傳遞規則”有兩個性質,這兩個屬性的作用是
答:保證規則正確
權值結果一一對應
5、在網頁凈化與消重時,可將網頁分為主題網頁、圖片網頁和Hub網頁,關于Hub網頁的正確說法包括
答:提供指向相關網頁的超鏈,超鏈密集。
網頁中間區域hub內容塊包含的詞項數,與網頁中間區域詞項數的比值,判斷是否hub類型。
6、因為無法搜集所有的網頁,所以優先搜集用戶感興趣、或重要性較高的信息,下列屬于解決方案的是
答:加權的啟發式搜索算法
為系統配置導向詞
域名解析
7、在天網分布式搜集系統P_Arthur體系結構中,URL調度模塊包括
答:King、queen、Mosquito
8、理想狀態下,高效率搜索引擎用最少的資源完成網頁搜集,下列選項中,屬資源的是
答:設備、帶寬、時間
9、域名與IP的對應關系存在4種情況,下列情況中,可能導致重復搜集的是
答:一對一、一對多、多對一、多對多
10、首先搜集重要的網頁可以采用經驗特征,下列經驗特征,在搜索引擎開始工作時是無法確定的
答:網頁的入度大,被其他網頁引用次數多。
某網頁的父網頁入度大。
網頁的鏡像度高,熱門。
11、針對漢語的分詞,下列說法正確的是
答:正向最小匹配和逆向最小匹配很少用。
逆向匹配的切分精度,略高于正向匹配,歧義較少。
填空題
1、可用隨機? ? 沖浪? ? 模型來作為PageRank的理論基礎,該模型描述網絡用戶對網頁的訪問行為。
2、鏈接分析可以有效地計算網頁的重要程度,但是帶有明顯的偏向,即不重視新出現的網頁;因此,需要補償這個問題,從兩個方面考慮:? ? ? ? 用戶行為? ? 和新詞的產生。
3、Web InfoMall 2.0是一個大規模的Web? ? 歷史網頁? ? ? 倉儲系統。
4、索引詞的? ? ? 倒排鏈? ? 用于保存出現這個詞的文檔號列表、詞的統計信息,如:次數、位置等。
5、倒排項是一個三元組,包括:? ? 文檔號? ? 、詞在文檔內的詞頻和詞在文檔中的出現位置。
6、在分布式Web搜集系統結構中,? ? 協調? ? 進程之間兩兩建立起連接,形成邏輯全互連關系,直接傳遞它們之間的交叉URL。
7、在評估海量網頁搜集系統的性能是,涉及四個主要參數,其中,B 表示網絡連接的? ? ? ? 系統和internet之間? ? ? ? 帶寬。
8、消重算法的基礎是:搜集并分析一篇網頁時,提取關鍵詞,并賦予每個關鍵詞一個權值,權值構成一個? ? ? ? 向量空? ? ? ? 間,用來表示網頁。
9、DocView模型在網頁自動分類中的應用及實驗分析中,對分類效果的評價,采用傳統的查準率、? ? ? ? 查全率? ? ? ? 和F1值。
10、索引網頁庫? ? ? ? 的任務是:給定一個URL,在原始網頁庫中定位到該URL所指向的記錄。
11、網頁分析是將一個文檔表示為特征項,? ? ? ? 中文自動切詞而是分析網頁的前提。
12、搜索引擎是一個? ? ? 網絡應用? ? ? ? 軟件系統。
13、現行最有效的數據結構是? ? ? 倒排文件? ? ? ? ,即用文檔中關鍵詞作為索引,文檔作為索引目標。
14、在與服務器建立連接時,? ? ? 通信? ? ? ? 由消息組成,消息在兩個“進程的Socket”間傳遞。
15、用戶輸入的? ? 搜索? ? ? ? 是詞組或自然語句,而不是詞匯。
16、提取關鍵詞的方式,先從? ? ? ? 搜索? ? ? 輸入中提取關鍵詞,接著提取關鍵詞后再擴充。