對于SEO和很多網絡營銷推廣工作來說,采集抓取和模擬訪問都是必備的工作。
這時候就會面臨一些問題:
1、對于網站平臺方來說,采集抓取會造成服務器壓力過大,對正常用戶的訪問產生干擾。而且內容被競爭對手或高權重網站采集走,對自己流量是一種威脅。
所以很多網站都不歡迎采集行為,除了百度這些能帶來流量的蜘蛛,基本上能屏蔽都會屏蔽。
可對于站長和一些做數據分析工作的人來說,不讓采集也得想辦法。
2、還有一些做百度知道推廣的朋友,自問自答是很常見的事,這也需要更換不同地區的IP。
3、再比如百度搜索結果在不同地區的排名也是不一樣的,想知道某個關鍵詞在對應地區的排名?也需要對應地區的IP資源。
還有很多使用場景,比如投票、注冊等等,都需要大量的不同IP資源。
那怎么解決呢?
市面上有一種產品叫做IP代理,可以完美解決這個問題,我們也做了一個類似產品叫謝邀云服務。
目前還在內測中,網址是:http://www.xieyaoyun.com:804/
目前客戶案例:
A、某朋友APP每天都增量采集500萬大眾點評網上的餐飲優惠信息。
B、某知名B2B網站幫客戶商鋪查關鍵詞的百度排名獲取、變更情況。
這種產品的原理是什么?
這種產品最重要的資源是大量支持ADSL撥號的VPS服務器。
據說最初始這種線路商都是坐火車跑全國買ADSL線路。
然后把這些不斷撥號獲得的IP地址放到公共IP池里,需要用的時候拿出來使用。
也有一些平臺會掃描大量代理IP混合在一起,提升自己總的可用IP量。
產品如何使用?
我們設計了兩種代理模式:
一種叫動態代理模式(爬蟲模式),每次請求網頁都會換一個IP,非常適合于采集數據資料。
另外一種叫經典代理模式(自主切換IP模式),每隔5分鐘會切換IP,但你也可以通過命令請求自己切換。
支持各種編程語言都可以接入使用,比如php、java、python等等。
先購買對應模式的隧道賬號
Python3 爬蟲模式接入代碼如下
# 導入request庫,用于做http請求
import requests
# 要訪問的目標頁面
targetUrl = "http://ip.3322.org/"
# 動態代理服務器
proxyHost = "dongtai.xieyaoyun.com"
proxyPort = "33002"
# 代理隧道驗證信息
proxyUser = "你的隧道用戶名"
proxyPass = "你的隧道密碼"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
resp = requests.get(targetUrl, proxies=proxies)
print(resp.status_code)
print(resp.text)
做百度知道問答需要更換瀏覽器的IP地址,那如何操作呢?
如果你用的Windows系統,打開瀏覽器的Internet屬性設置,點擊連接->局域網設置->代理服務器
把購買的經典版代理的服務器地址填進去: jingdian.xieyaoyun.com,端口使用33001
當你設置好這些后,再次刷新瀏覽器(Chrome、IE、Firefox基本相同)會提示你輸入用戶名和密碼,這里填寫你購買的經典版隧道用戶名和密碼即可。
這時你就可以打開百度知道登錄提問了。
打開ip138.com查下當前的IP地址如下:
當你想切換IP時候,瀏覽器輸入如下地址:
http://proxy.xieyaoyun.com:804/?name=你的隧道用戶名&pass=你的隧道密碼
或者等5分鐘IP切換后,清除瀏覽器cookie信息,重啟瀏覽器登錄其他百度賬號回答問題。
總結
利益相關,以上是自己公司提供的代理IP服務介紹和說明。
如果你或者朋友有對應的需求,歡迎加我微信交流購買:vista8
目前僅需100元/月。(同行都在200以上,甚至高達400元/月)
與此同時,希望結識更多做數據采集相關的小伙伴,一起交流學習技術。