Day08回顧
scrapy框架
- 五大組件
引擎(Engine)
爬蟲程序(Spider)
調度器(Scheduler)
下載器(Downloader)
管道文件(Pipeline)
# 兩個中間件
下載器中間件(Downloader Middlewares)
蜘蛛中間件(Spider Middlewares)
- 工作流程
1、Engine向Spider索要URL,交給Scheduler入隊列
2、Scheduler處理后出隊列,通過Downloader Middlewares交給Downloader去下載
3、Downloader得到響應后,通過Spider Middlewares交給Spider
4、Spider數據提取:
1、數據交給Pipeline處理
2、需要跟進URL,繼續交給Scheduler入隊列,依次循環
- 常用命令
# 創建爬蟲項目
scrapy startproject 項目名
# 創建爬蟲文件
cd 項目文件夾
scrapy genspider 爬蟲名 域名
# 運行爬蟲
scrapy crawl 爬蟲名
- scrapy項目目錄結構
Baidu
├── Baidu # 項目目錄
│ ├── items.py # 定義數據結構
│ ├── middlewares.py # 中間件
│ ├── pipelines.py # 數據處理
│ ├── settings.py # 全局配置
│ └── spiders
│ ├── baidu.py # 爬蟲文件
└── scrapy.cfg # 項目基本配置文件
- settings.py全局配置
1、USER_AGENT = 'Mozilla/5.0'
2、ROBOTSTXT_OBEY = False
3、CONCURRENT_REQUESTS = 32
4、DOWNLOAD_DELAY = 1
5、DEFAULT_REQUEST_HEADERS={}
6、ITEM_PIPELINES={'項目目錄名.pipelines.類名':300}
創建項目流程
1、scrapy startproject Tencent
2、cd Tencent
3、scrapy genspider tencent tencent.com
4、items.py(定義爬取數據結構)
5、tencent.py(寫爬蟲文件)
6、pipelines.py(數據處理)
7、settings.py(全局配置)
8、終端:scrapy crawl tencent
響應對象屬性及方法
# 屬性
1、response.text :獲取響應內容
2、response.body :獲取bytes數據類型
3、response.xpath('')
# response.xpath('')調用方法
1、結果 :列表,元素為選擇器對象
2、.extract() :提取文本內容,將列表中所有元素序列化為Unicode字符串
3、.extract_first() :提取列表中第1個文本內容
4、.get() : 提取列表中第1個文本內容
爬蟲項目啟動方式
- 方式一
從爬蟲文件(spider)的start_urls變量中遍歷URL地址,把下載器返回的響應對象(response)交給爬蟲文件的parse()函數處理
# start_urls = ['http://www.baidu.com/']
- 方式二
重寫start_requests()方法,從此方法中獲取URL,交給指定的callback解析函數處理
1、去掉start_urls變量
2、def start_requests(self):
# 生成要爬取的URL地址,利用scrapy.Request()方法交給調度器 **
日志級別
DEBUG < INFO < WARNING < ERROR < CRITICAL
數據持久化存儲(MySQL、MongoDB)
1、在setting.py中定義相關變量
2、pipelines.py中新建管道類,并導入settings模塊
def open_spider(self,spider):
# 爬蟲開始執行1次,用于數據庫連接
def process_item(self,item,spider):
# 用于處理抓取的item數據
def close_spider(self,spider):
# 爬蟲結束時執行1次,用于斷開數據庫連接
3、settings.py中添加此管道
ITEM_PIPELINES = {'':200}
# 注意 :process_item() 函數中一定要 return item ***
保存為csv、json文件
- 命令格式
scrapy crawl maoyan -o maoyan.csv
scrapy crawl maoyan -o maoyan.json
# settings.py FEED_EXPORT_ENCODING = 'utf-8'
settings.py常用變量
# 1、設置日志級別
LOG_LEVEL = ''
# 2、保存到日志文件(不在終端輸出)
LOG_FILE = ''
# 3、設置數據導出編碼(主要針對于json文件)
FEED_EXPORT_ENCODING = ''
# 4、非結構化數據存儲路徑
IMAGES_STORE = '路徑'
# 5、設置User-Agent
USER_AGENT = ''
# 6、設置最大并發數(默認為16)
CONCURRENT_REQUESTS = 32
# 7、下載延遲時間(每隔多長時間請求一個網頁)
# DOWNLOAD_DELAY 會影響 CONCURRENT_REQUESTS,不能使并發顯現
# 有CONCURRENT_REQUESTS,沒有DOWNLOAD_DELAY: 服務器會在同一時間收到大量的請求
# 有CONCURRENT_REQUESTS,有DOWNLOAD_DELAY 時,服務器不會在同一時間收到大量的請求
DOWNLOAD_DELAY = 3
# 8、請求頭
DEFAULT_REQUEST_HEADERS = {}
# 9、添加項目管道
ITEM_PIPELINES = {}
# 10、添加下載器中間件
DOWNLOADER_MIDDLEWARES = {}
scrapy.Request()參數
1、url
2、callback
3、meta :傳遞數據,定義代理
Day09筆記
作業講解 - 騰訊招聘
- 1、創建項目+爬蟲文件
scrapy startproject Tencent
cd Tencent
scrapy genspider tencent hr.tencent.com
- 2、定義爬取的數據結構
# items.py
job_name = scrapy.Field()
# 類別
job_type = scrapy.Field()
# 職責
job_duty = scrapy.Field()
# 要求
job_require = scrapy.Field()
# 地址
job_address = scrapy.Field()
- 3、爬蟲文件
class TencentSpider(scrapy.Spider):
name = 'tencent'
allowed_domains = ['careers.tencent.com']
one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn'
# 1. 去掉start_urls
# 2. 重新start_requests()方法
def start_requests(self):
total_page = self.get_total_page()
for page_index in range(1,total_page):
url = self.one_url.format(page_index)
yield scrapy.Request(
url = url,
callback = self.parse_one
)
# 獲取總頁數
def get_total_page(self):
url = self.one_url.format(1)
html = requests.get(url=url).json()
total_page = int(html['Data']['Count']) // 10 + 1
return total_page
# 解析一級頁面函數
def parse_one(self,response):
html = json.loads(response.text)
for job in html['Data']['Posts']:
item = TencentItem()
# postId: 拼接二級頁面的地址
post_id = job['PostId']
two_url = self.two_url.format(post_id)
# 交給調度器
yield scrapy.Request(
url = two_url,
meta = {'item':item},
callback = self.parse_two_page
)
def parse_two_page(self,response):
item = response.meta['item']
html = json.loads(response.text)
item['job_name'] = html['Data']['RecruitPostName']
item['job_type'] = html['Data']['CategoryName']
item['job_duty'] = html['Data']['Responsibility']
item['job_require'] = html['Data']['Responsibility']
item['job_address'] = html['Data']['LocationName']
yield item
- 4、管道文件
create database tencentdb charset utf8;
use tencentdb;
create table tencenttab(
job_name varchar(500),
job_type varchar(100),
job_duty varchar(1000),
job_require varchar(1000),
job_address varchar(100)
)charset=utf8;
管道文件pipelines實現
import pymysql
class TencentMysqlPipeline(object):
def open_spider(self,spider):
self.db = pymysql.connect(
'127.0.0.1','root','123456','tencentdb',
charset='utf8'
)
self.cursor = self.db.cursor()
def process_item(self,item,spider):
ins = 'insert into tencenttab values(%s,%s,%s,%s,%s)'
job_list = [
item['job_name'],item['job_type'],item['job_duty'],
item['job_require'],item['job_address']
]
self.cursor.execute(ins,job_list)
self.db.commit()
return item
def close_spider(self,spider):
self.cursor.close()
self.db.close()
- 5、settings.py
定義常用變量,添加管道即可
圖片管道(360圖片抓取案例)
- 目標
www.so.com -> 圖片 -> 美女
- 抓取網絡數據包
2、F12抓包,抓取到json地址 和 查詢參數(QueryString)
url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(sn))
ch: beauty
sn: 90
listtype: new
temp: 1
- 項目實現
1、創建爬蟲項目和爬蟲文件
scrapy startproject So
cd So
scrapy genspider so image.so.com
2、定義要爬取的數據結構(items.py)
img_link = scrapy.Field()
3、爬蟲文件實現圖片鏈接抓取
# -*- coding: utf-8 -*-
import scrapy
import json
from ..items import SoItem
class SoSpider(scrapy.Spider):
name = 'so'
allowed_domains = ['image.so.com']
# 重寫Spider類中的start_requests方法
# 爬蟲程序啟動時執行此方法,不去找start_urls
def start_requests(self):
for page in range(5):
url = 'http://image.so.com/zj?ch=beauty&sn={}&listtype=new&temp=1'.format(str(page*30))
# 把url地址入隊列
yield scrapy.Request(
url = url,
callback = self.parse_img
)
def parse_img(self, response):
html = json.loads(response.text)
for img in html['list']:
item = SoItem()
# 圖片鏈接
item['img_link'] = img['qhimg_url']
yield item
4、管道文件(pipelines.py)
from scrapy.pipelines.images import ImagesPipeline
import scrapy
class SoPipeline(ImagesPipeline):
# 重寫get_media_requests方法
def get_media_requests(self, item, info):
yield scrapy.Request(item['img_link'])
5、設置settings.py
IMAGES_STORE = '/home/tarena/images/'
6、創建run.py運行爬蟲
scrapy shell的使用
- 基本使用
1、scrapy shell URL地址
*2、request.headers :請求頭(字典)
*3、reqeust.meta :item數據傳遞,定義代理(字典)
4、response.text :字符串
5、response.body :bytes
6、response.xpath('')
- scrapy.Request()
1、url
2、callback
3、headers
4、meta :傳遞數據,定義代理
5、dont_filter :是否忽略域組限制
默認False,檢查allowed_domains['']
設置中間件(隨機User-Agent)
少量User-Agent切換
- 方法一
# settings.py
USER_AGENT = ''
DEFAULT_REQUEST_HEADERS = {}
- 方法二
# spider
yield scrapy.Request(url,callback=函數名,headers={})
大量User-Agent切換(中間件)
- middlewares.py設置中間件
1、獲取User-Agent
# 方法1 :新建useragents.py,存放大量User-Agent,random模塊隨機切換
# 方法2 :安裝fake_useragent模塊(sudo pip3 install fack_useragent)
from fake_useragent import UserAgent
ua_obj = UserAgent()
ua = ua_obj.random
2、middlewares.py新建中間件類
class RandomUseragentMiddleware(object):
def process_request(self,reuqest,spider):
ua = UserAgent()
request.headers['User-Agent'] = ua.random
3、settings.py添加此下載器中間件
DOWNLOADER_MIDDLEWARES = {'' : 優先級}
設置中間件(隨機代理)
rclass RandomProxyDownloaderMiddleware(object):
def process_request(self,request,spider):
request.meta['proxy'] = xxx
def process_exception(self,request,exception,spider):
return request
分布式爬蟲
分布式爬蟲介紹
- 原理
多臺主機共享1個爬取隊列
- 實現
重寫scrapy調度器(scrapy_redis模塊)
- 為什么使用redis
1、Redis基于內存,速度快
2、Redis非關系型數據庫,Redis中集合,存儲每個request的指紋
3、scrapy_redis安裝
sudo pip3 install scrapy_redis
Redis使用
- windows安裝客戶端使用
1、服務端啟動 :cmd命令行 -> redis-server.exe
客戶端連接 :cmd命令行 -> redis-cli.exe
scrapy_redis
-
GitHub地址
https://github.com/rmax/scrapy-redis
-
settings.py說明
# 重新指定調度器: 啟用Redis調度存儲請求隊列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 重新指定去重機制: 確保所有的爬蟲通過Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 不清除Redis隊列: 暫停/恢復/斷點續爬 SCHEDULER_PERSIST = True # 優先級隊列 (默認) SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' #可選用的其它隊列 # 先進先出隊列 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue' # 后進先出隊列 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue' # redis管道 ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 } #指定連接到redis時使用的端口和地址 REDIS_HOST = 'localhost' REDIS_PORT = 6379