米撲科技,是一家專注互聯(lián)網(wǎng)金融和大數(shù)據(jù)挖掘的初創(chuàng)互聯(lián)網(wǎng)公司,正式注冊(cè)成立于2016年9月,總部位于北京市海淀區(qū)中關(guān)村核心功能區(qū)。
米撲團(tuán)隊(duì),成員來自百度、小米、阿里、創(chuàng)新工場(chǎng)等一線互聯(lián)網(wǎng)公司,核心技術(shù)研發(fā),實(shí)戰(zhàn)經(jīng)驗(yàn)豐富,具有濃厚的極客精神和精益的工匠品質(zhì)。
米撲代理,是米撲科技旗下的一款用于網(wǎng)頁抓取、數(shù)據(jù)采集的代理產(chǎn)品,作為全球代理服務(wù)的領(lǐng)導(dǎo)品牌,產(chǎn)品優(yōu)勢(shì)如下:
五年來,已經(jīng)積累超過2000多萬的海量代理庫(kù),每天可用代理5000個(gè)左右
覆蓋全球120多個(gè)國(guó)家,中國(guó)34個(gè)省市,支持國(guó)家批量篩選
支持http、https、socks4、socks5等協(xié)議,總能滿足您的需求
擁有完全自主研發(fā)的代理檢測(cè)核心引擎,技術(shù)研發(fā)實(shí)力雄厚
擁有幾十臺(tái)云服務(wù)器,完全自主搭建的代理服務(wù)器,分布于全球十多個(gè)國(guó)家
作為全球代理的企業(yè)級(jí)領(lǐng)導(dǎo)品牌,服務(wù)于全球5000多家企業(yè)客戶,日均代理提取數(shù)超過10億個(gè)
米撲代理官網(wǎng):https://proxy.mimvp.com
米撲代理案例
楊小米,最近在公司做爬蟲工作,采集股票金融數(shù)據(jù),寫程序抓取數(shù)據(jù)的過程并不像平常我們用瀏覽器打開網(wǎng)頁那么簡(jiǎn)單!
大多數(shù)的金融數(shù)據(jù)網(wǎng)站為了自己站點(diǎn)的性能和數(shù)據(jù)安全都設(shè)置了各種反爬策略。最常見的反爬蟲策略有輸入驗(yàn)證碼、需要用戶登陸、單個(gè)IP設(shè)置次數(shù)和頻率、訪問網(wǎng)頁軌跡等等!所以廣大的爬蟲工程師,在抓取數(shù)據(jù)之前一般都會(huì)先調(diào)研目標(biāo)網(wǎng)站是否設(shè)置了反爬策略。當(dāng)不能正常訪問網(wǎng)站時(shí),可以在程序中設(shè)置代理IP來判斷網(wǎng)站是不是封禁了我們的IP,或者使用海量的代理IP來爬取網(wǎng)頁采集數(shù)據(jù),推薦使用米撲代理:https://proxy.mimvp.com
CentOS 7 搭建 TinyProxy 代理
TinyProxy 和 Squid 都是比較優(yōu)秀的代理軟件
TinyProxy比較小眾,雖然沒有Squid的功能豐富,但是小巧簡(jiǎn)單,也能滿足普通用戶的需求。
Squid 是一款優(yōu)秀的代理軟件,有很豐富的ACL管理功能,雖然squid很強(qiáng)大,但配置比較繁瑣。
1. 安裝 TinyProxy
yum -y install tinyproxy
2. 配置 TinyProxy
vim /etc/tinyproxy/tinyproxy.conf
修改 Port 端口,默認(rèn)為 8888
Port 8888
注釋掉 Allow,表示允許所有人訪問代理
#Allow 127.0.0.1
隱藏掉Via請(qǐng)求頭部,去掉下面的注釋
DisableViaHeader Yes
更多配置項(xiàng),下面是列舉一些配置文件默認(rèn)的,不需要配置:
PidFile "/var/run/tinyproxy/tinyproxy.pid"
LogFile "/var/log/tinyproxy/tinyproxy.log"
LogLevel Info
MaxClients 100
MinSpareServers 5
MaxSpareServers 20
StartServers 10
3. 啟動(dòng) TinyProxy
systemctl start tinyproxy.service
更多命令如下:
systemctl restart tinyproxy.service
systemctl stop tinyproxy.service
systemctl status tinyproxy.service
systemctl enable tinyproxy.service
4. 關(guān)閉防火墻或開放端口訪問
方式1:關(guān)閉防火墻
/etc/init.d/iptables stop
方式2:開放端口訪問
iptables -A INPUT -p tcp --dport 8888 -j ACCEPT
重啟防火墻
/etc/init.d/iptables restart
注意:若采用的阿里云、騰訊云、AWS等云服務(wù)器,記得要在安全策略里開放端口號(hào)
5. 驗(yàn)證生效
1)命令行測(cè)試驗(yàn)證
curl 和 wget 測(cè)試使用代理,請(qǐng)參考米撲代理的使用示例,總結(jié)的非常全面!強(qiáng)烈推薦!
這里,直接使用米撲代理的最簡(jiǎn)單示例:
curl -m 30 --retry 3 -x http://58.87.90.149:8888 http://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
curl -m 30 --retry 3 -x http://58.87.90.149:8888 -k https://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
tinyproxy 支持 http 和 https 兩種協(xié)議,經(jīng)米撲代理測(cè)試,成功!
2)Firefox 插件測(cè)試
首先,安裝 Proxy Switcher
其次,配置代理,如下圖:
然后,訪問米撲代理網(wǎng)站,驗(yàn)證代理
https://proxy.mimvp.com/exist.php
上圖里,http_via 帶有參數(shù),要隱藏需要修改配置文件
vim /etc/tinyproxy/tinyproxy.conf
隱藏掉Via請(qǐng)求頭部,去掉下面的注釋
DisableViaHeader Yes
重啟 tinyproxy
systemctl restart tinyproxy.service
網(wǎng)友評(píng)價(jià):
非常棒的總結(jié),按照米撲代理的配置步驟,都配置成功了!分享米撲代理的測(cè)試方法:
curl 和 wget 測(cè)試使用代理,請(qǐng)參考米撲代理的使用示例,總結(jié)的非常全面!強(qiáng)烈推薦!
米撲代理的使用示例:https://proxy.mimvp.com/demo2.php
這里,直接使用米撲代理的最簡(jiǎn)單示例:
curl -m 30 --retry 3 -x http://58.87.90.149:8888 http://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
curl -m 30 --retry 3 -x http://58.87.90.149:8888 -k https://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>