1 Robots Exclusion Standard 網絡爬蟲排除標準
作用: 網站告知網絡爬蟲哪些頁面可以抓取, 哪些不行
形式: 在網站的<strong>根目錄</strong>下的robots.txt文件,在這個文件中, 寫明了哪些目錄是可以被允許被爬取的, 哪些是不被允許的
examples:
**** https://www.jd.com/robots.txt ****
**** https://www.baidu.com/robots.txt ****
****http://www.qq.com/robots.txt ****
****http://news.qq.com/robots.txt ****
**** http://www.moe.edu.cn/robots.txt(無robots協議) ****
etc.
<em>如果一個網站不提供robots協議, 那么默認為該網站可以被任何爬蟲爬取其資源</em>
2 robots協議遵守方式
網絡爬蟲: 自動或者人工識別robots.txt文件, 在進行內容爬取
約束性: 可以不遵守, 但是要承擔響應的法律責任