網絡爬蟲有時候也會引發很多的問題
- 由于編寫的爬蟲的性能和其他原因,可能會對Web服務器帶來巨大的資源開銷
- 服務器上的數據有產權歸屬網絡爬蟲獲取數據后牟利將帶來法律風險
- 網絡爬蟲可能具備突破簡單訪問控制的能力,獲得被保護數據從而泄露個人隱私
所以,一般部分網站會給出限制網路爬蟲的協議,這就是robots協議。
- 來源審查:判斷User‐Agent進行限制
檢查來訪HTTP協議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問 - 發布公告:Robots協議
告知所有爬蟲網站的爬取策略,要求爬蟲遵守
robots協議的全名為Robots Exclusion Standard,網絡爬蟲排除標準
作用:
網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:
在網站根目錄下的robots.txt文件
案例
- 京東的robots協議
https://www.jd.com/robots.txt
image.png
image.png
意思就是
對于所有的user-agent:
不可以訪問一下url
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/.html?*
對于其他幾個user-agent是禁止爬蟲的,我們看一下就是一淘這些淘寶的搜索引擎,也難怪京東和淘寶哈哈哈
實際中如何遵守robots協議
- 網絡爬蟲:
自動或人工識別robots.txt,再進行內容爬取 - 約束性:
Robots協議是建議但非約束性,網絡爬蟲可以不遵守,但存在法律風險
image.png