Python爬蟲之robots協議

網絡爬蟲有時候也會引發很多的問題

  • 由于編寫的爬蟲的性能和其他原因,可能會對Web服務器帶來巨大的資源開銷
  • 服務器上的數據有產權歸屬網絡爬蟲獲取數據后牟利將帶來法律風險
  • 網絡爬蟲可能具備突破簡單訪問控制的能力,獲得被保護數據從而泄露個人隱私

所以,一般部分網站會給出限制網路爬蟲的協議,這就是robots協議。

  • 來源審查:判斷User‐Agent進行限制
    檢查來訪HTTP協議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問
  • 發布公告:Robots協議
    告知所有爬蟲網站的爬取策略,要求爬蟲遵守

robots協議的全名為Robots Exclusion Standard,網絡爬蟲排除標準
作用:
網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:
在網站根目錄下的robots.txt文件

案例

image.png
image.png

意思就是
對于所有的user-agent:
不可以訪問一下url
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/
.html?*
對于其他幾個user-agent是禁止爬蟲的,我們看一下就是一淘這些淘寶的搜索引擎,也難怪京東和淘寶哈哈哈

實際中如何遵守robots協議

  • 網絡爬蟲:
    自動或人工識別robots.txt,再進行內容爬取
  • 約束性:
    Robots協議是建議但非約束性,網絡爬蟲可以不遵守,但存在法律風險
image.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容