閱讀文檔:
- 《優化網站的抓取與收錄》中文版
- 《谷歌搜索引擎入門指南》第7頁到11頁
- 《創建方便 Google 處理的網址結構》
最好的規劃URL目錄層級的方式,就是按照業務方的邏輯來規劃,從內容上應該是什么從屬關系就怎么規劃URL
一.因為爬蟲固有的特點造成的抓取障礙:
重復URL的問題 例如:模板部分的URL
解決:搜索引擎已經解決這個問題搜索引擎采集的“待抓取列表”重復性問題
爬蟲一邊按照優先級抓取一部分的URL,一邊把還未被抓取的URL記錄下來等待下次抓取,只是這些還未被抓取的URL,下次爬蟲來訪問的頻率就每個網站都不一樣了, 每一類URL被訪問的頻率也不一樣。
那些目錄層級比較深的URL是次要抓取的;那些在模板部分的或重復率非常高的URL是被次要抓取的;那些動態參數多的URL是次要抓取的…..
二.因網站結構造成的爬取障礙
- 無限空間
例如:b2c產品列表/房產網
解決方案:使用robots.txt,禁止收錄其含有動態參數的網址
巧用robots避免蜘蛛黑洞-zero
靜態化的本質是URL唯一化,靜態化只是一個手段而不是目的,為了保證URL的唯一化,可以把URL靜態化、也可以用robots.txt或nofollo屏蔽動態內容、可以用rel=canonical屬性、還可以在webmaster tool里屏蔽一些參數等等。
URL中要盡量用有意義的字符。這不是因為要在URL增加關鍵詞密度而這么做的,是為了方便搜索引擎抓取。