无码欧美成人av天堂456软件,他扒开我小泬添我,欧美の无码国产の无码影院

scrapy中間件的使用

學習目標：

應用 scrapy中使用間件使用隨機UA的方法
應用 scrapy中使用代理ip的的方法
應用 scrapy與selenium配合使用

1. scrapy中間件的分類和作用

1.1 scrapy中間件的分類

根據scrapy運行流程中所在位置不同分為：

下載中間件
爬蟲中間件

1.2 scrapy中間的作用：預處理request和response對象

對header以及cookie進行更換和處理
使用代理ip等
對請求進行定制化操作，

但在scrapy默認的情況下兩種中間件都在middlewares.py一個文件中

爬蟲中間件使用方法和下載中間件相同，且功能重復，通常使用下載中間件

2. 下載中間件的使用方法：

接下來我們對騰訊招聘爬蟲進行修改完善，通過下載中間件來學習如何使用中間件
編寫一個Downloader Middlewares和我們編寫一個pipeline一樣，定義一個類，然后在setting中開啟

Downloader Middlewares默認的方法：

process_request(self, request, spider)：
1. 當每個request通過下載中間件時，該方法被調用。
2. 返回None值：沒有return也是返回None，該request對象傳遞給下載器，或通過引擎傳遞給其他權重低的process_request方法
3. 返回Response對象：不再請求，把response返回給引擎
4. 返回Request對象：把request對象通過引擎交給調度器，此時將不通過其他權重低的process_request方法
process_response(self, request, response, spider)：
1. 當下載器完成http請求，傳遞響應給引擎的時候調用
2. 返回Resposne：通過引擎交給爬蟲處理或交給權重更低的其他下載中間件的process_response方法
3. 返回Request對象：通過引擎交給調取器繼續請求，此時將不通過其他權重低的process_request方法
在settings.py中配置開啟中間件，權重值越小越優先執行

3. 定義實現隨機User-Agent的下載中間件

3.1 在middlewares.py中完善代碼

import random
from Tencent.settings import USER_AGENTS_LIST # 注意導入路徑,請忽視pycharm的錯誤提示

class UserAgentMiddleware(object):
    def process_request(self, request, spider):
        user_agent = random.choice(USER_AGENTS_LIST)
        request.headers['User-Agent'] = user_agent
        # 不寫return

class CheckUA:
    def process_response(self,request,response,spider):
        print(request.headers['User-Agent'])
        return response # 不能少！

3.2 在settings中設置開啟自定義的下載中間件，設置方法同管道

DOWNLOADER_MIDDLEWARES = {
   'Tencent.middlewares.UserAgentMiddleware': 543, # 543是權重值
   'Tencent.middlewares.CheckUA': 600, # 先執行543權重的中間件，再執行600的中間件
}

3.3 在settings中添加UA的列表

USER_AGENTS_LIST = [
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
]

運行爬蟲觀察現象

4. 代理ip的使用

4.1 思路分析

代理添加的位置：request.meta中增加proxy字段
獲取一個代理ip，賦值給request.meta['proxy']
- 代理池中隨機選擇代理ip
- 代理ip的webapi發送請求獲取一個代理ip

4.2 具體實現

免費代理ip：

class ProxyMiddleware(object):
    def process_request(self,request,spider):
        # proxies可以在settings.py中，也可以來源于代理ip的webapi
        # proxy = random.choice(proxies) 

        # 免費的會失效，報 111 connection refused 信息！重找一個代理ip再試
        proxy = 'https://1.71.188.37:3128' 

        request.meta['proxy'] = proxy
        return None # 可以不寫return

收費代理ip：

# 人民幣玩家的代碼(使用abuyun提供的代理ip)
import base64

# 代理隧道驗證信息  這個是在那個網站上申請的
proxyServer = 'http://proxy.abuyun.com:9010' # 收費的代理ip服務器地址，這里是abuyun
proxyUser = 用戶名
proxyPass = 密碼
proxyAuth = "Basic " + base64.b64encode(proxyUser + ":" + proxyPass)

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        # 設置代理
        request.meta["proxy"] = proxyServer
        # 設置認證
        request.headers["Proxy-Authorization"] = proxyAuth

4.3 檢測代理ip是否可用

在使用了代理ip的情況下可以在下載中間件的process_response()方法中處理代理ip的使用情況，如果該代理ip不能使用可以替換其他代理ip

class ProxyMiddleware(object):
    ......
    def process_response(self, request, response, spider):
        if response.status != '200':
            request.dont_filter = True # 重新發送的請求對象能夠再次進入隊列
            return requst

在settings.py中開啟該中間件

5. 在中間件中使用selenium

以github登陸為例

5.1 完成爬蟲代碼

import scrapy

class Login4Spider(scrapy.Spider):
    name = 'login4'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/1596930226'] # 直接對驗證的url發送請求

    def parse(self, response):
        with open('check.html', 'w') as f:
            f.write(response.body.decode())

5.2 在middlewares.py中使用selenium

import time
from selenium import webdriver


def getCookies():
    # 使用selenium模擬登陸，獲取并返回cookie
    username = input('輸入github賬號:')
    password = input('輸入github密碼:')
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
    driver = webdriver.Chrome('/home/worker/Desktop/driver/chromedriver',
                              chrome_options=options)
    driver.get('https://github.com/login')
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="login_field"]').send_keys(username)
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="password"]').send_keys(password)
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="login"]/form/div[3]/input[3]').click()
    time.sleep(2)
    cookies_dict = {cookie['name']: cookie['value'] for cookie in driver.get_cookies()}
    driver.quit()
    return cookies_dict

class LoginDownloaderMiddleware(object):

    def process_request(self, request, spider):
        cookies_dict = getCookies()
        print(cookies_dict)
        request.cookies = cookies_dict # 對請求對象的cookies屬性進行替換

配置文件中設置開啟該中間件后，運行爬蟲可以在日志信息中看到selenium相關內容

小結

中間件的使用：

完善中間件代碼：

process_request(self, request, spider)：
1. 當每個request通過下載中間件時，該方法被調用。
2. 返回None值：沒有return也是返回None，該request對象傳遞給下載器，或通過引擎傳遞給其他權重低的process_request方法
3. 返回Response對象：不再請求，把response返回給引擎
4. 返回Request對象：把request對象通過引擎交給調度器，此時將不通過其他權重低的process_request方法
process_response(self, request, response, spider)：
1. 當下載器完成http請求，傳遞響應給引擎的時候調用
2. 返回Resposne：通過引擎交給爬蟲處理或交給權重更低的其他下載中間件的process_response方法
3. 返回Request對象：通過引擎交給調取器繼續請求，此時將不通過其他權重低的process_request方法

需要在settings.py中開啟中間件
DOWNLOADER_MIDDLEWARES = {
'myspider.middlewares.UserAgentMiddleware': 543,
}

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

32.scrapy中間件的使用

32.scrapy中間件的使用

scrapy中間件的使用

學習目標：

1. scrapy中間件的分類和作用

1.1 scrapy中間件的分類

1.2 scrapy中間的作用：預處理request和response對象

2. 下載中間件的使用方法：

3. 定義實現隨機User-Agent的下載中間件

3.1 在middlewares.py中完善代碼

3.2 在settings中設置開啟自定義的下載中間件，設置方法同管道

3.3 在settings中添加UA的列表

運行爬蟲觀察現象

4. 代理ip的使用

4.1 思路分析

4.2 具體實現

4.3 檢測代理ip是否可用

在settings.py中開啟該中間件

5. 在中間件中使用selenium

5.1 完成爬蟲代碼

5.2 在middlewares.py中使用selenium

配置文件中設置開啟該中間件后，運行爬蟲可以在日志信息中看到selenium相關內容

小結

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

32.scrapy中間件的使用

scrapy中間件的使用

學習目標：

1. scrapy中間件的分類和作用

1.1 scrapy中間件的分類

1.2 scrapy中間的作用：預處理request和response對象

2. 下載中間件的使用方法：

3. 定義實現隨機User-Agent的下載中間件

3.1 在middlewares.py中完善代碼

3.2 在settings中設置開啟自定義的下載中間件，設置方法同管道

3.3 在settings中添加UA的列表

運行爬蟲觀察現象

4. 代理ip的使用

4.1 思路分析

4.2 具體實現

4.3 檢測代理ip是否可用

在settings.py中開啟該中間件

5. 在中間件中使用selenium

5.1 完成爬蟲代碼

5.2 在middlewares.py中使用selenium

配置文件中設置開啟該中間件后，運行爬蟲可以在日志信息中看到selenium相關內容

小結

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频