- 兩個模型
- 隨機游走模型:網頁節點通過鏈接進行跳轉,對應跳轉的概率
- 子集傳播模型:網頁劃分子集,給予特殊子集內網頁初始權值,然后根據特殊子集內網頁和其他網頁的鏈接關系,將權值傳遞到其他網頁。
-
鏈接分析算法的關系圖
鏈接分析算法.png
-
PageRank
迭代計算公式:
網頁通過鏈接關系構建起Web圖,在初始階段,每個頁面設置相同的PageRank值,通過若干輪的計算,獲得每個頁面的最終PageRank值。
終止點、采集器陷阱:抽稅方法
計算.png
快速計算:MapReduce -
HITS
一個網頁的導航度正比于其所有鏈出網頁的權威度之和;一個網頁的權威度正比于其所有鏈入網頁導航度之和。
定義導航頁和權威頁,在擴展網頁集合內計算每個網頁的導航度和權威度。
導航和權威度的計算 SALSA算法
得到擴展網絡集合,將網頁集合轉換為一個二分圖,一個子集合是Hub子集,另一個是Authority集合;然后采用鏈接關系傳播權值,類似PageRank。主題敏感PageRank
對網頁引入主題相關PageRank分值;查詢相關Hilltop算法
非從屬組織頁面;專家頁面
過程:專家頁面子集合->查詢->相關專家頁面->目標頁面子集合->搜索結果