Python數(shù)據(jù)分析與挖掘之爬蟲防屏蔽手段代理服務(wù)器

什么是代理服務(wù)器

所謂代理服務(wù)器,是一個(gè)處于我們與互聯(lián)網(wǎng)中間的服務(wù)器,如果使用代
理服務(wù)器,我們?yōu)g覽信息的時(shí)候,先向代理服務(wù)器發(fā)出請求,然后由代
理服務(wù)器向互聯(lián)網(wǎng)獲取信息,再返回給我們。

使用代理服務(wù)器進(jìn)行爬取網(wǎng)頁實(shí)戰(zhàn)

使用代理服務(wù)器進(jìn)行信息爬取,可以很好的解決IP限制的問題。

  • 方法一
import urllib
# 39.82.135.164:8118
def useproxy(url,proxy_addr):
    proxy = urllib.request.ProxyHandler({"http":proxy_addr})
    opner = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opner) # 添加為全局
    data = urllib.request.urlopen(url,timeout=5).read().decode("utf-8","ignore")
    return data

print(useproxy("http://www.baidu.com","61.135.217.7:80"))
  • 方法二
import urllib.request

def useproxy(url,proxy_addr):
    proxy_handler = urllib.request.ProxyHandler({
    'http': proxy_addr
    })
    opener = urllib.request.build_opener(proxy_handler)
    data = opener.open(url).read().decode("utf-8","ignore")
    return data

print(useproxy("http://www.baidu.com","61.135.217.7:80"))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容