Robots協(xié)議的書寫

robots.txt是一個純文本文件,是搜索引擎蜘蛛爬行網(wǎng)站的時候要訪問的第一個文件,當(dāng)蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍,相當(dāng)于網(wǎng)站與搜索引蜘蛛遵循協(xié)議,如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被屏蔽的網(wǎng)頁。
 robots的語法:
  1、User-agent 定義搜索引擎。一般情況下,網(wǎng)站里面都是:User-agent: ,這里的意思是所有,表示定義所有的搜索引擎。比如,我想定義百度,那么就是User-agent: Baiduspider;定義google,User-agent: Googlebot。
  2、Disallow 禁止爬取。如,我想禁止爬取我的admin文件夾,那就是Disallow: /admin/。禁止爬取admin文件夾下的login.html,
  Disallow: /admin/login.html。
  3、Allow 允許。我們都知道,在默認(rèn)情況下,都是允許的。那為什么還要允許這個語法呢?舉個例子:我想禁止admin文件夾下的所有文件,除了.html的網(wǎng)頁,那怎么寫呢?我們知道可以用Disallow一個一個禁止,但那樣太費(fèi)時間很精力了。這時候運(yùn)用Allow就解決了復(fù)雜的問題,就這樣寫:
  Allow: /admin/.html$
  Disallow: /admin/。
  4、$ 結(jié)束符。例:Disallow: .php$ 這句話的意思是,屏蔽所有的以.php結(jié)尾的文件,不管前面有多長的URL,如abc/aa/bb//index.php也是屏蔽的。
  5、* 通配符符號0或多個任意字符。例:Disallow: ? 這里的意思是屏蔽所有帶“?”文件,也是屏蔽所有的動態(tài)URL。
  robots.txt文件寫法舉例說明
  禁止Google/百度等所有搜索引擎訪問整個網(wǎng)站
  User-agent: *
  Disallow: /
  允許所有的搜索引擎spider訪問整個網(wǎng)站(Disallow:可以用Allow: /替代)
  User-agent: *
  Disallow:
  禁止Baiduspider訪問您的網(wǎng)站,Google等其他搜索引擎不阻止
  User-agent: Baiduspider
  Disallow: /
  只允許Google spider: Googlebot訪問您的網(wǎng)站,禁止百度等其他搜索引擎
  User-agent: Googlebot
  Disallow:
  User-agent: *
  Disallow: /
  禁止搜索引擎蜘蛛spider訪問指定目錄
    (spider不訪問這幾個目錄。每個目錄要分開聲明,不能合在一起)
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /admin/
  Disallow: /~jjjj/
  禁止搜索引擎spider訪問指定目錄,但允許訪問該指定目錄的某個子目錄
  User-agent: *
  Allow: /admin/far
  Disallow: /admin/
  使用通配符星號""設(shè)置禁止訪問的url
     (禁止所有搜索引擎抓取/cgi-bin/目錄下的所有以".html"格式的網(wǎng)頁(包含子目錄))
  User-agent: *
  Disallow: /cgi-bin/
.html
  使用美元符號"$"設(shè)置禁止訪問某一后綴的文件
     (只允許訪問以".html"格式的網(wǎng)頁文件。)
  User-agent: *
  Allow: .html$
  Disallow: /
  阻止google、百度等所有搜索引擎訪問網(wǎng)站中所有帶有?的動態(tài)網(wǎng)址頁面
  User-agent: *
  Disallow: /?
  阻止Google spider:Googlebot訪問網(wǎng)站上某種格式的圖片
    (禁止訪問.jpg 格式的圖片)
  User-agent: Googlebot
  Disallow: .jpg$
  只允許Google spider:Googlebot抓取網(wǎng)頁和.gif格式圖片
     (Googlebot只能抓取gif格式的圖片和網(wǎng)頁,其他格式的圖片被禁止;
   其他搜索引擎未設(shè)置)
  User-agent: Googlebot
  Allow: .gif$
  Disallow: .jpg$
  .......
  只禁止Google spider:Googlebot抓取.jpg格式圖片
   (其他搜索引擎和其他格式圖片沒有禁止)
  User-agent: Googlebot
  Disallow: .jpg$

國內(nèi)的搜索引擎蜘蛛
  百度蜘蛛:baiduspider
  搜狗蜘蛛:sogou spider
  有道蜘蛛:YodaoBot和OutfoxBot
  搜搜蜘蛛: Sosospider
  國外的搜索引擎蜘蛛
  google蜘蛛: googlebot
  yahoo蜘蛛:Yahoo! Slurp
  alexa蜘蛛:ia_archiver
  bing蜘蛛(MSN):msnbot

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容