網絡爬蟲(九)

Day08回顧

scrapy框架

  • 五大組件
引擎(Engine)
爬蟲程序(Spider)
調度器(Scheduler)
下載器(Downloader)
管道文件(Pipeline)
# 兩個中間件
下載器中間件(Downloader Middlewares)
蜘蛛中間件(Spider Middlewares)
  • 工作流程
1、Engine向Spider索要URL,交給Scheduler入隊列
2、Scheduler處理后出隊列,通過Downloader Middlewares交給Downloader去下載
3、Downloader得到響應后,通過Spider Middlewares交給Spider
4、Spider數據提取:
   1、數據交給Pipeline處理
   2、需要跟進URL,繼續交給Scheduler入隊列,依次循環
  • 常用命令
# 創建爬蟲項目
scrapy startproject 項目名

# 創建爬蟲文件
cd 項目文件夾
scrapy genspider 爬蟲名 域名

# 運行爬蟲
scrapy crawl 爬蟲名
  • scrapy項目目錄結構
Baidu
├── Baidu               # 項目目錄
│   ├── items.py        # 定義數據結構
│   ├── middlewares.py  # 中間件
│   ├── pipelines.py    # 數據處理
│   ├── settings.py     # 全局配置
│   └── spiders
│       ├── baidu.py    # 爬蟲文件
└── scrapy.cfg          # 項目基本配置文件
  • settings.py全局配置
1、USER_AGENT = 'Mozilla/5.0'
2、ROBOTSTXT_OBEY = False
3、CONCURRENT_REQUESTS = 32
4、DOWNLOAD_DELAY = 1
5、DEFAULT_REQUEST_HEADERS={}
6、ITEM_PIPELINES={'項目目錄名.pipelines.類名':300}

創建項目流程

1、scrapy startproject Tencent
2、cd Tencent
3、scrapy genspider tencent tencent.com
4、items.py(定義爬取數據結構)
5、tencent.py(寫爬蟲文件)
6、pipelines.py(數據處理)
7、settings.py(全局配置)
8、終端:scrapy crawl tencent

響應對象屬性及方法

# 屬性
1、response.text :獲取響應內容
2、response.body :獲取bytes數據類型
3、response.xpath('')

# response.xpath('')調用方法
1、結果 :列表,元素為選擇器對象
2、.extract() :提取文本內容,將列表中所有元素序列化為Unicode字符串
3、.extract_first() :提取列表中第1個文本內容
4、.get() : 提取列表中第1個文本內容

爬蟲項目啟動方式

  • 方式一
從爬蟲文件(spider)的start_urls變量中遍歷URL地址,把下載器返回的響應對象(response)交給爬蟲文件的parse()函數處理
# start_urls = ['http://www.baidu.com/']
  • 方式二
重寫start_requests()方法,從此方法中獲取URL,交給指定的callback解析函數處理

1、去掉start_urls變量
2、def start_requests(self):
      # 生成要爬取的URL地址,利用scrapy.Request()方法交給調度器 **

日志級別

DEBUG < INFO < WARNING < ERROR < CRITICAL

數據持久化存儲(MySQL、MongoDB)

1、在setting.py中定義相關變量
2、pipelines.py中新建管道類,并導入settings模塊
    def open_spider(self,spider):
        # 爬蟲開始執行1次,用于數據庫連接
    def process_item(self,item,spider):
        # 用于處理抓取的item數據
    def close_spider(self,spider):
        # 爬蟲結束時執行1次,用于斷開數據庫連接
3、settings.py中添加此管道
    ITEM_PIPELINES = {'':200}

# 注意 :process_item() 函數中一定要 return item ***

保存為csv、json文件

  • 命令格式
scrapy crawl maoyan -o maoyan.csv
scrapy crawl maoyan -o maoyan.json
# settings.py  FEED_EXPORT_ENCODING = 'utf-8'

settings.py常用變量

# 1、設置日志級別
LOG_LEVEL = ''
# 2、保存到日志文件(不在終端輸出)
LOG_FILE = ''
# 3、設置數據導出編碼(主要針對于json文件)
FEED_EXPORT_ENCODING = ''
# 4、非結構化數據存儲路徑
IMAGES_STORE = '路徑'
# 5、設置User-Agent
USER_AGENT = ''
# 6、設置最大并發數(默認為16)
CONCURRENT_REQUESTS = 32
# 7、下載延遲時間(每隔多長時間請求一個網頁)
# DOWNLOAD_DELAY 會影響 CONCURRENT_REQUESTS,不能使并發顯現
# 有CONCURRENT_REQUESTS,沒有DOWNLOAD_DELAY: 服務器會在同一時間收到大量的請求
# 有CONCURRENT_REQUESTS,有DOWNLOAD_DELAY 時,服務器不會在同一時間收到大量的請求
DOWNLOAD_DELAY = 3
# 8、請求頭
DEFAULT_REQUEST_HEADERS = {}
# 9、添加項目管道
ITEM_PIPELINES = {}
# 10、添加下載器中間件
DOWNLOADER_MIDDLEWARES = {}

scrapy.Request()參數

1、url
2、callback
3、meta :傳遞數據,定義代理

Day09筆記

作業講解 - 騰訊招聘

  • 1、創建項目+爬蟲文件
scrapy startproject Tencent
cd Tencent
scrapy genspider tencent hr.tencent.com
  • 2、定義爬取的數據結構
# items.py
job_name = scrapy.Field()
# 類別
job_type = scrapy.Field()
# 職責
job_duty = scrapy.Field()
# 要求
job_require = scrapy.Field()
# 地址
job_address = scrapy.Field()
  • 3、爬蟲文件
class TencentSpider(scrapy.Spider):
    name = 'tencent'
    allowed_domains = ['careers.tencent.com']
    one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
    two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn'
    # 1. 去掉start_urls
    # 2. 重新start_requests()方法
    def start_requests(self):
        total_page = self.get_total_page()
        for page_index in range(1,total_page):
            url = self.one_url.format(page_index)
            yield scrapy.Request(
                url = url,
                callback = self.parse_one
            )

    # 獲取總頁數
    def get_total_page(self):
        url = self.one_url.format(1)
        html = requests.get(url=url).json()
        total_page = int(html['Data']['Count']) // 10 + 1

        return total_page

    # 解析一級頁面函數
    def parse_one(self,response):
        html = json.loads(response.text)
        for job in html['Data']['Posts']:
            item = TencentItem()
            # postId: 拼接二級頁面的地址
            post_id = job['PostId']
            two_url = self.two_url.format(post_id)
            # 交給調度器
            yield scrapy.Request(
                url = two_url,
                meta = {'item':item},
                callback = self.parse_two_page
            )

    def parse_two_page(self,response):
        item = response.meta['item']
        html = json.loads(response.text)
        item['job_name'] = html['Data']['RecruitPostName']
        item['job_type'] = html['Data']['CategoryName']
        item['job_duty'] = html['Data']['Responsibility']
        item['job_require'] = html['Data']['Responsibility']
        item['job_address'] = html['Data']['LocationName']


        yield item
  • 4、管道文件
create database tencentdb charset utf8;
use tencentdb;
create table tencenttab(
job_name varchar(500),
job_type varchar(100),
job_duty varchar(1000),
job_require varchar(1000),
job_address varchar(100)
)charset=utf8;

管道文件pipelines實現

import pymysql
class TencentMysqlPipeline(object):
    def open_spider(self,spider):
        self.db = pymysql.connect(
            '127.0.0.1','root','123456','tencentdb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()

    def process_item(self,item,spider):
        ins = 'insert into tencenttab values(%s,%s,%s,%s,%s)'
        job_list = [
            item['job_name'],item['job_type'],item['job_duty'],
            item['job_require'],item['job_address']
        ]
        self.cursor.execute(ins,job_list)
        self.db.commit()
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.db.close()
  • 5、settings.py
定義常用變量,添加管道即可

圖片管道(360圖片抓取案例)

  • 目標
www.so.com -> 圖片 -> 美女
  • 抓取網絡數據包
2、F12抓包,抓取到json地址 和 查詢參數(QueryString)
      url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(sn))
      ch: beauty
      sn: 90
      listtype: new
      temp: 1
  • 項目實現

1、創建爬蟲項目和爬蟲文件

scrapy startproject So
cd So
scrapy genspider so image.so.com

2、定義要爬取的數據結構(items.py)

img_link = scrapy.Field()

3、爬蟲文件實現圖片鏈接抓取

# -*- coding: utf-8 -*-
import scrapy
import json
from ..items import SoItem

class SoSpider(scrapy.Spider):
    name = 'so'
    allowed_domains = ['image.so.com']

    # 重寫Spider類中的start_requests方法
    # 爬蟲程序啟動時執行此方法,不去找start_urls
    def start_requests(self):
        for page in range(5):
            url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(page*30))
            # 把url地址入隊列
            yield scrapy.Request(
                url = url,
                callback = self.parse_img
            )

    def parse_img(self, response):
        html = json.loads(response.text)

        for img in html['list']:
            item = SoItem()
            # 圖片鏈接
            item['img_link'] = img['qhimg_url']

            yield item

4、管道文件(pipelines.py)

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class SoPipeline(ImagesPipeline):
    # 重寫get_media_requests方法
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['img_link'])

5、設置settings.py

IMAGES_STORE = '/home/tarena/images/'

6、創建run.py運行爬蟲

scrapy shell的使用

  • 基本使用
1、scrapy shell URL地址
*2、request.headers :請求頭(字典)
*3、reqeust.meta    :item數據傳遞,定義代理(字典)
4、response.text    :字符串
5、response.body    :bytes
6、response.xpath('')
  • scrapy.Request()
1、url
2、callback
3、headers
4、meta :傳遞數據,定義代理
5、dont_filter :是否忽略域組限制
   默認False,檢查allowed_domains['']

設置中間件(隨機User-Agent)

少量User-Agent切換

  • 方法一
# settings.py
USER_AGENT = ''
DEFAULT_REQUEST_HEADERS = {}
  • 方法二
# spider
yield scrapy.Request(url,callback=函數名,headers={})

大量User-Agent切換(中間件)

  • middlewares.py設置中間件
1、獲取User-Agent
   # 方法1 :新建useragents.py,存放大量User-Agent,random模塊隨機切換
   # 方法2 :安裝fake_useragent模塊(sudo pip3 install fack_useragent)
       from fake_useragent import UserAgent
       ua_obj = UserAgent()
       ua = ua_obj.random
2、middlewares.py新建中間件類
    class RandomUseragentMiddleware(object):
        def process_request(self,reuqest,spider):
            ua = UserAgent()
            request.headers['User-Agent'] = ua.random
3、settings.py添加此下載器中間件
    DOWNLOADER_MIDDLEWARES = {'' : 優先級}

設置中間件(隨機代理)

rclass RandomProxyDownloaderMiddleware(object):
    def process_request(self,request,spider):
        request.meta['proxy'] = xxx
        
    def process_exception(self,request,exception,spider):
        return request

分布式爬蟲

分布式爬蟲介紹

  • 原理
多臺主機共享1個爬取隊列
  • 實現
重寫scrapy調度器(scrapy_redis模塊)
  • 為什么使用redis
1、Redis基于內存,速度快
2、Redis非關系型數據庫,Redis中集合,存儲每個request的指紋
3、scrapy_redis安裝
    sudo pip3 install scrapy_redis

Redis使用

  • windows安裝客戶端使用
1、服務端啟動 :cmd命令行 -> redis-server.exe
   客戶端連接 :cmd命令行 -> redis-cli.exe

scrapy_redis

  • GitHub地址

    https://github.com/rmax/scrapy-redis
    
  • settings.py說明

    # 重新指定調度器: 啟用Redis調度存儲請求隊列
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    # 重新指定去重機制: 確保所有的爬蟲通過Redis去重
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    # 不清除Redis隊列: 暫停/恢復/斷點續爬
    SCHEDULER_PERSIST = True
    
    # 優先級隊列 (默認)
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
    #可選用的其它隊列
    # 先進先出隊列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
    # 后進先出隊列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
    
    # redis管道
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    
    
    #指定連接到redis時使用的端口和地址
    REDIS_HOST = 'localhost'
    REDIS_PORT = 6379
    

騰訊招聘筆記分布式案例

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容