Scrapy爬蟲——突破反爬蟲最全策略解析

有條件的請支持慕課實戰(zhàn)正版課程,本blog僅僅是歸納總結,自用。

一、爬蟲與反爬蟲基本概念

爬蟲與反爬蟲基本概念
  • 誤傷:由于學校、網吧等等用的是同一個公網ip,而內部使用局域網,所以如果封禁了此ip,會導致大量用戶的流失,同時還有動態(tài)ip分配的存在,所以在反爬蟲中,封禁ip的策略一般網站不會使用,最多是封禁ip一小段時間。

二、反爬目的

反爬蟲目的

三、爬蟲與反爬的對抗史

對抗史

四、scrapy架構

新版官方的架構圖
  • spider出去的鏈接會先經過scheduler,才會到downloader中。

  • site-package/scrapy/core源碼中,只有engineschedulerdownloader三個核心組件,其余的都是我們程序員要寫的。

  • 注意4、5步驟中的middleware,這是我們的重點關注對象。

五、突破反爬取的策略

5.1 隨機切換用戶代理User-Agent

  • 簡單實現(xiàn):
    維護一個包含很多User-Agent的列表,每次在Request yield時,使用random函數(shù)隨機選一個User-Agent傳入Request header。但是這種方法冗余度高,不利于復用。

  • Middleware實現(xiàn):
    自定義一個Downloader Middleware,可以做到每次請求時,攔截一下,給請求頭自動隨機更換User-Agent

注意參考上面的結構圖,scrapy里有兩個Middleware,我們要自定義的是右邊的Downloader Middleware

  • 首先為了方便獲得用戶代理的列表,我們安裝fake-useragent這個開源庫,具體用法github上有寫,不再贅述:
pip install fake-useragent

注意,fake-useragent庫維護的user-agent列表存放在在線網頁上,過低版本依賴的列表網頁可能就會403,所以請記得更新fake-useragent

  • 接下來我們參考一下源碼自帶的用戶代理Downloader Middleware:
"""Set User-Agent header per spider or use a default value from settings"""

from scrapy import signals


class UserAgentMiddleware(object):
    """This middleware allows spiders to override the user_agent"""
    
    #缺省使用'Scrapy'作為用戶代理,這很糟糕
    def __init__(self, user_agent='Scrapy'):
        self.user_agent = user_agent

    @classmethod
    def from_crawler(cls, crawler):
        o = cls(crawler.settings['USER_AGENT'])
        crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
        return o

    def spider_opened(self, spider):
        self.user_agent = getattr(spider, 'user_agent', self.user_agent)
    
    #此方法是關鍵,會給我們的請求加上默認的user-agent
    def process_request(self, request, spider):
        if self.user_agent:
            request.headers.setdefault(b'User-Agent', self.user_agent)
  • 下一步就是模仿它,寫一個我們自己的隨機更換的Downloader Middleware,middlewares.py中加入:
from fake_useragent import UserAgent
class RandomUserAgentMiddlware(object):
    '''
    隨機更換user-agent
    模仿并替換site-package/scrapy/downloadermiddlewares源代碼中的
    useragent.py中的UserAgentMiddleware類
    '''

    def __init__(self, crawler):
        super(RandomUserAgentMiddlware, self).__init__()
        self.ua = UserAgent()
        #可讀取在settings文件中的配置,來決定開源庫ua執(zhí)行的方法,默認是random,也可是ie、Firefox等等
        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)
    
    #更換用戶代理邏輯在此方法中
    def process_request(self, request, spider):
        def get_ua():
            return getattr(self.ua, self.ua_type)

        print  get_ua()
        request.headers.setdefault('User-Agent', get_ua())
  • 最后不能忘記,在settings.py中開啟我們的Middleware,同時還要關閉scrapy自帶的代理Middleware:
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'JobSpider.middlewares.RandomUserAgentMiddlware': 543,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
  • 至此,每次請求的user-agent已隨機更換

5.2 隨機更換代理ip策略

  • 目前,很多小區(qū)、公共wifi的ip是動態(tài)分配的,當重啟路由器、光貓后,本機的對外ip可能會發(fā)生改變。所以,若本機ip被封,可重啟以求換ip。對外ip可直接百度查看:
查看本機對外ip

5.2.1 ip代理概念

  • 直接訪問網站
直接訪問
  • 使用ip代理之后訪問網站,可避免本機的ip暴露:
通過代理服務器中轉
  • 設置ip代理很簡單,一行搞定:
request.meta['proxy'] = 'xxx.xx.xx.xxx:xx'
  • 為了獲取代理ip,我們可以前往西刺網獲取免費的來試用(正式爬取建議買付費的)。

高匿代理:能將我們的本機ip完全隱藏,普通代理可能還是會將本機ip帶給服務器

5.2.2 編寫爬取西刺代理腳本

  • 目的是通過小型爬蟲,預先爬取西刺的免費代理ip后全部存入數(shù)據(jù)庫,并且存在一個方法能從數(shù)據(jù)庫中隨機選取一個代理ip,供給我們的爬蟲使用。
#!/usr/bin/env python
# encoding: utf-8
"""
@author: yousheng
@contact: 1197993367@qq.com
@site: http://youyuge.cn

@version: 1.0
@license: Apache Licence
@file: crawl_ip.py
@time: 17/9/27 下午3:06

"""

import requests #用requests庫來做簡單的網絡請求
import MySQLdb
from scrapy.selector import Selector
#從scrapy的settings中導入數(shù)據(jù)庫配置
from JobSpider.settings import MYSQL_HOST, MYSQL_USER, MYSQL_PASSWORD, MYSQL_DBNAME

conn = MySQLdb.connect(host=MYSQL_HOST, user=MYSQL_USER, passwd=MYSQL_PASSWORD,
                       db=MYSQL_DBNAME, charset='utf8')
cursor = conn.cursor()


def clear_table():
    # 清空表內容
    cursor.execute('truncate table proxy_ip')
    conn.commit()


def crawl_xici_ip(pages):
    '''
    爬取一定頁數(shù)上的所有代理ip,每爬完一頁,就存入數(shù)據(jù)庫
    :return:
    '''
    clear_table()
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0"}
    for i in range(1, pages):
        response = requests.get(url='http://www.xicidaili.com/nn/{0}'.format(i), headers=headers)

        all_trs = Selector(text=response.text).css('#ip_list tr')

        ip_list = []
        for tr in all_trs[1:]:
            ip = tr.xpath('td[2]/text()').extract_first().encode('utf8')
            port = tr.xpath('td[3]/text()').extract_first().encode('utf8')
            ip_type = tr.xpath('td[6]/text()').extract_first().encode('utf8')
            ip_speed = tr.xpath('td[7]/div/@title').extract_first()
            if ip_speed:
                ip_speed = float(ip_speed.split(u'秒')[0])
            ip_alive = tr.xpath('td[9]/text()').extract_first().encode('utf8')

            ip_list.append((ip, port, ip_type, ip_speed, ip_alive))

        # 每頁提取完后就存入數(shù)據(jù)庫
        for ip_info in ip_list:
            cursor.execute(
                "insert proxy_ip(ip, port, type, speed, alive) VALUES('{0}', '{1}', '{2}', {3}, '{4}')".format(
                    ip_info[0], ip_info[1], ip_info[2], ip_info[3], ip_info[4]
                )
            )

            conn.commit()


# ip的管理類
class IPUtil(object):
    # noinspection SqlDialectInspection
    def get_random_ip(self):
        # 從數(shù)據(jù)庫中隨機獲取一個可用的ip
        random_sql = """
              SELECT ip, port, type FROM proxy_ip
            ORDER BY RAND()
            LIMIT 1
            """

        result = cursor.execute(random_sql)
        for ip_info in cursor.fetchall():
            ip = ip_info[0]
            port = ip_info[1]
            ip_type = ip_info[2]

            judge_re = self.judge_ip(ip, port, ip_type)
            if judge_re:
                return "{2}://{0}:{1}".format(ip, port, str(ip_type).lower())
            else:
                return self.get_random_ip()

    def judge_ip(self, ip, port, ip_type):
        # 判斷ip是否可用,如果通過代理ip訪問百度,返回code200則說明可用
        # 若不可用則從數(shù)據(jù)庫中刪除
        print 'begin judging ---->', ip, port, ip_type
        http_url = "https://www.baidu.com"
        proxy_url = "{2}://{0}:{1}".format(ip, port, str(ip_type).lower())
        try:
            proxy_dict = {
                "http": proxy_url,
            }
            response = requests.get(http_url, proxies=proxy_dict)
        except Exception as e:
            print "invalid ip and port,cannot connect baidu"
            self.delete_ip(ip)
            return False
        else:
            code = response.status_code
            if code >= 200 and code < 300:
                print "effective ip"
                return True
            else:
                print  "invalid ip and port,code is " + code
                self.delete_ip(ip)
                return False

    # noinspection SqlDialectInspection
    def delete_ip(self, ip):
        # 從數(shù)據(jù)庫中刪除無效的ip
        delete_sql = """
            delete from proxy_ip where ip='{0}'
        """.format(ip)
        cursor.execute(delete_sql)
        conn.commit()
        return True

if __name__ == '__main__':
    crawl_xici_ip(pages=3)
    # ip = IPUtil()
    # for i in range(20):
    #     print ip.get_random_ip()
  • 接著我們就可編寫我們的隨機代理ip Middleware了:
from tools.crawl_ip import IPUtil
class RandomProxyMiddleware(object):
    # 動態(tài)設置ip代理
    def process_request(self, request, spider):
        ip_util = IPUtil()
        proxy_ip = ip_util.get_random_ip()
        print 'using ip proxy:', proxy_ip
        request.meta["proxy"] = proxy_ip
  • 最后,別忘了在settings中進行配置Downloader Middleware

六、第三方庫推薦

scrapy-proxies:封裝好的ip代理工具
crawlera:官方ip代理插件,需要去官網購買key,可靠穩(wěn)定,強大
tor洋蔥網絡 : 匿名發(fā)送數(shù)據(jù),需要翻墻,穩(wěn)定性非常高

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,739評論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,634評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,653評論 0 377
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,063評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,835評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,235評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,315評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,459評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 49,000評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,819評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,004評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,560評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,257評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,676評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,937評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,717評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,003評論 2 374

推薦閱讀更多精彩內容