文章導讀:
爬蟲與反爬蟲,這相愛相殺的一對,簡直可以寫出一部壯觀的斗爭史。而在大數據時代,數據就是金錢,很多企業都為自己的網站運用了反爬蟲機制,防止網頁上的數據被爬蟲爬走。然而,如果反爬機制過于嚴格,可能會誤傷到真正的用戶請求;如果既要和爬蟲死磕,又要保證很低的誤傷率,那么又會加大研發的成本。
簡單低級的爬蟲速度快,偽裝度低,如果沒有反爬機制,它們可以很快的抓取大量數據,甚至因為請求過多,造成服務器不能正常工作。而偽裝度高的爬蟲爬取速度慢,對服務器造成的負擔也相對較小。所以,網站反爬的重點也是那種簡單粗暴的爬蟲,反爬機制也會允許偽裝度高的爬蟲,獲得數據。畢竟偽裝度很高的爬蟲與真實用戶也就沒有太大差別了。
這篇文章主要討論使用Scrapy框架時,如何應對普通的反爬機制。
主要有三個方法:
1、header檢驗
2、限制IP的請求數量
3、動態加載
header檢驗
最簡單的反爬機制,就是檢查HTTP請求的Headers信息,包括User-Agent, Referer、Cookies等。
User-Agent
User-Agent是檢查用戶所用客戶端的種類和版本,在Scrapy中,通常是在下載器中間件中進行處理。比如在setting.py中建立一個包含很多瀏覽器User-Agent的列表,然后新建一個random_user_agent文件:
Referer
Referer是檢查此請求由哪里來,通常可以做圖片的盜鏈判斷。在Scrapy中,如果某個頁面url是通過之前爬取的頁面提取到,Scrapy會自動把之前爬取的頁面url作為Referfer。也可以通過上面的方式自己定義Referfer字段。
Cookies
網站可能會檢測Cookie中session_id的使用次數,如果超過限制,就觸發反爬策略。所以可以在Scrapy中設置COOKIES_ENABLED = False讓請求不帶Cookies。
也有網站強制開啟Cookis,這時就要麻煩一點了。可以另寫一個簡單的爬蟲,定時向目標網站發送不帶Cookies的請求,提取響應中Set-cookie字段信息并保存。爬取網頁時,把存儲起來的Cookies帶入Headers中。
----------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------
一般網站從三個方面反爬蟲:用戶請求的Headers,用戶行為,網站目錄和數據加載方式。前兩種比較容易遇到,大多數網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會采用,這樣增大了爬取的難度。
0x02 通過Headers反爬蟲
從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復制到爬蟲的Headers中;或者將Referer值修改為目標網站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。
還有一部分網站是通過檢測用戶行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。
大多數網站都是前一種情況,對于這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲,爬取網上公開的代理ip,檢測后全部保存起來。這樣的代理ip爬蟲經常會用到,最好自己準備一個。有了大量代理ip后可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲。
對于第二種情況,可以在每次請求后隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,可以通過請求幾次,退出登錄,重新登錄,繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。
上述的幾種情況大多都是出現在靜態頁面,還有一部分網站,我們需要爬取的數據是通過ajax請求得到,或者通過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。如果能夠找到ajax請求,也能分析出具體的參數和響應的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的數據。
能夠直接模擬ajax請求獲取數據固然是極好的,但是有些網站把ajax請求的所有參數全部加密了。我們根本沒辦法構造自己所需要的數據的請求。我這幾天爬的那個網站就是這樣,除了加密ajax參數,它還把一些基本的功能都封裝了,全部都是在調用自己的接口,而接口參數都是加密的。遇到這樣的網站,我們就不能用上面的方法了,我用的是selenium+phantomJS框架,調用瀏覽器內核,并利用phantomJS執行js來模擬人為操作以及觸發頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取數據的過程模擬一遍。
用這套框架幾乎能繞過大多數的反爬蟲,因為它不是在偽裝成瀏覽器來獲取數據(上述的通過添加
Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利用
selenium+phantomJS能干很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還
會大展身手,以后還會提到這個。