三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<em id="swvwo"><rt id="swvwo"><noscript id="swvwo"></noscript></rt></em>

<menuitem id="swvwo"></menuitem>

<sup id="swvwo"></sup>

<cite id="swvwo"><track id="swvwo"></track></cite>

登錄注冊寫文章

Python爬蟲之robots協議

Python爬蟲之robots協議

網絡爬蟲有時候也會引發很多的問題

由于編寫的爬蟲的性能和其他原因，可能會對Web服務器帶來巨大的資源開銷
服務器上的數據有產權歸屬網絡爬蟲獲取數據后牟利將帶來法律風險
網絡爬蟲可能具備突破簡單訪問控制的能力，獲得被保護數據從而泄露個人隱私

所以，一般部分網站會給出限制網路爬蟲的協議，這就是robots協議。

來源審查：判斷User‐Agent進行限制
檢查來訪HTTP協議頭的User‐Agent域，只響應瀏覽器或友好爬蟲的訪問
發布公告：Robots協議
告知所有爬蟲網站的爬取策略，要求爬蟲遵守

robots協議的全名為Robots Exclusion Standard，網絡爬蟲排除標準
作用：
網站告知網絡爬蟲哪些頁面可以抓取，哪些不行
形式：
在網站根目錄下的robots.txt文件

案例

京東的robots協議
https://www.jd.com/robots.txt

image.png

image.png

意思就是
對于所有的user-agent：
不可以訪問一下url
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/.html?*
對于其他幾個user-agent是禁止爬蟲的，我們看一下就是一淘這些淘寶的搜索引擎，也難怪京東和淘寶哈哈哈

實際中如何遵守robots協議

網絡爬蟲：
自動或人工識別robots.txt，再進行內容爬取
約束性：
Robots協議是建議但非約束性，網絡爬蟲可以不遵守，但存在法律風險

image.png

最后編輯于：2017.12.07 07:29:24

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

爬蟲的"盜亦有道"-Robots協議
網絡爬蟲的君子協議網絡爬蟲的尺寸網絡爬蟲引發的問題性能騷擾法律風險隱私泄露網絡爬蟲的"性能騷擾"web...
若與閱讀 33,712評論 2贊 43
《Python網絡爬蟲》2.2 Robots協議
By 一頁編程什么是Robots協議 Robots是機器人的意思，那Robots協議是什么呢？ Robots協...
一頁編程閱讀 1,440評論 0贊 1
Python網絡爬蟲與信息提取（一）
Reference:第一周網絡爬蟲之規則單元1：Requests庫入門 1-1 Requests庫的安裝 1-2...
mcdullsnow閱讀 1,115評論 0贊 0
29/70 小控班 059 上海上海
因為31號參加行動派的課程，我帶著小朋友和老公一起來到了魔都，這是第二次來上海了，之前對上海的印象不是太好，說不上...
思齊_yang閱讀 186評論 0贊 0
KotlinPoet
簡介 KotlinPoet是一個用于生成.kt源文件的Kotlin和Java的 API。源文件生成在進行諸如注釋處...
好大一只龍閱讀 2,231評論 0贊 1

2贊3贊

贊賞

手機看全文

主站蜘蛛池模板：万源市| 新津县| 成安县| 黄山市| 会泽县| 关岭| 昌宁县| 云阳县| 定结县| 墨玉县| 苏州市| 天等县| 苍梧县| 临洮县| 庆阳市| 花莲市| 长白| 辽中县| 灵寿县| 循化| 三河市| 堆龙德庆县| 舞钢市| 黄浦区| 榆社县| 宜昌市| 贵阳市| 封丘县| 苗栗县| 当雄县| 阜南县| 元氏县| 谷城县| 西和县| 阿拉善左旗| 铜陵市| 克拉玛依市| 水城县| 利辛县| 和田市| 巴彦淖尔市|

<pre id="t9vdh"></pre>

<sub id="t9vdh"></sub>

<blockquote id="t9vdh"><p id="t9vdh"></p></blockquote>