鏈接分析算法總結

  1. 兩個模型
  • 隨機游走模型:網頁節點通過鏈接進行跳轉,對應跳轉的概率
  • 子集傳播模型:網頁劃分子集,給予特殊子集內網頁初始權值,然后根據特殊子集內網頁和其他網頁的鏈接關系,將權值傳遞到其他網頁。
  1. 鏈接分析算法的關系圖


    鏈接分析算法.png
  1. PageRank
    網頁通過鏈接關系構建起Web圖,在初始階段,每個頁面設置相同的PageRank值,通過若干輪的計算,獲得每個頁面的最終PageRank值。
    終止點、采集器陷阱:抽稅方法

    迭代計算公式:
    計算.png

    快速計算:MapReduce
  2. HITS
    定義導航頁和權威頁,在擴展網頁集合內計算每個網頁的導航度和權威度。

    一個網頁的導航度正比于其所有鏈出網頁的權威度之和;一個網頁的權威度正比于其所有鏈入網頁導航度之和。
    導航和權威度的計算
  3. SALSA算法
    得到擴展網絡集合,將網頁集合轉換為一個二分圖,一個子集合是Hub子集,另一個是Authority集合;然后采用鏈接關系傳播權值,類似PageRank。

  4. 主題敏感PageRank
    對網頁引入主題相關PageRank分值;查詢相關

  5. Hilltop算法
    非從屬組織頁面;專家頁面
    過程:專家頁面子集合->查詢->相關專家頁面->目標頁面子集合->搜索結果

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容