SEO優化-robots.txt解讀

一、什么是robots.txt

robots.txt 文件由一條或多條規則組成。每條規則可禁止(或允許)特定抓取工具抓取相應網站中的指定文件路徑。

通俗一點的說法就是:告訴爬蟲,我這個網站,你哪些能看,哪些不能看的一個協議。

二、為什么要使用robots.txt

搜索引擎(爬蟲),訪問一個網站,首先要查看當前網站根目錄下的robots.txt,然后依據里面的規則,進行網站頁面的爬取。
也就是說,robots.txt起到一個基調的作用,也可以說是爬蟲爬取當前網站的一個行為準則。

那使用robots.txt的目的,就很明確了。

  • 更好地做定向SEO優化,重點曝光有價值的鏈接給爬蟲
  • 將敏感文件保護起來,避免爬蟲爬取收錄

三、robots.txt的示例

栗子如下:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml

解析:

名為“Googlebot”抓取工具的用戶代理不應抓取 http://wangxiaokai.vip/nogooglebot/ 文件夾或任何子目錄。
所有其他用戶代理均可訪問整個網站。(不指定這條規則也無妨,結果是一樣的,因為完全訪問權限是系統默認的前提。)
網站的站點地圖文件位于 http://www.wangxiaokai.vip/sitemap.xml

四、文件規范

1、文件格式和命名

  • 文件格式為標準 ASCII 或 UTF-8
  • 文件必須命名為 robots.txt
  • 只能有 1 個 robots.txt 文件

2、文件位置

必須位于它所應用到的網站主機的根目錄下

3、常用的關鍵字

  • User-agent 網頁抓取工具的名稱
  • Disallow 不應抓取的目錄或網頁
  • Allow 應抓取的目錄或網頁
  • Sitemap 網站的站點地圖的位置

五、百度網盤的應用

百度網盤的資源,到博文編寫時間為止,已經不能用常用的搜索技巧site:pan.baidu.com 搜索關鍵字的方式,在baidu.com|google.com|biying.com(國際版還可以勉強搜索到)去搜索對應的資源。
禁止的方式,很大程度上是依靠robots.txt,而不是請去喝茶??。

以下是訪問 http://pan.baidu.com/robots.txt 得到的規則:

image

可以看到,百度網盤封殺了所有資源文件入口。
最狠的是最后一句:

User-agent: *
Disallow: /

我只想說有資源真的可以為所欲為??


喜歡我文章的朋友,掃描以下二維碼,關注我的個人技術博客,我的技術文章會第一時間在博客上更新

點擊鏈接wall的個人博客

wall的個人博客

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 網絡爬蟲的君子協議 網絡爬蟲的尺寸 網絡爬蟲引發的問題 性能騷擾 法律風險 隱私泄露 網絡爬蟲的"性能騷擾"web...
    若與閱讀 33,671評論 2 43
  • 網站 robots.txt 文件編寫 Intro robots.txt 是網站根目錄下的一個純文本文件,在這個...
    天天向上卡索閱讀 1,169評論 0 2
  • 1、津膜科技擬逾14億元收購膜材料與水處理公司 津膜科技公告,公司擬以15.22元/股發行7283.89萬股并支付...
    智尊寳閱讀 142評論 0 0
  • 目前對我來說,關于成長的趨勢在于一個詞 獨立。民主意識越來卻強烈,特別是對于女性來說。這絕對是一個以前 現在 還有...
    桂蒲閱讀 710評論 0 0
  • 愛上一段文字,愛上淺呤低唱,在文字的脈路中尋找份摯著真誠的愛戀,沒有虛假的應承,沒有心不在焉的答復,也沒有無休無止...
    滄海一粟貝閱讀 403評論 0 2