Scrapy介紹:
一個python的爬蟲框架。允許用戶定義自己的spiders(蜘蛛)
特點:
1、 帶有異步處理請求功能。
2、 可設置CPU使用率。
流程:
scrapy_architecture.png
Items->Spiders->pipelines
構建->請求->儲存
使用說明:
1.先startproject 創建一個項目
-- spiders name 這只蜘蛛的名稱
-- 設置allowed_domains 允許蜘蛛爬取的域名范圍
-- bash_url 第一個開始的url地址(似乎非必須)
- 在Scrapy中的items.py文件中定義儲存器
-- 通過儲存器來接受需要保存的數據
-- 定義儲存器的語法:
---變量名稱=scrapy.field()
---如:MaxName=scrapy.field()
---其中field()是scrapy的一種類型,還有其他許多類型。目前暫不做介紹 - 通過定義一個初始函數start_requests()來發送第一次請求
--設置請求的url
--使用yield()來返回數據
---Scrapy 自帶的Requests(url,callback=function)函數來發生請求,類似python的requests庫
---callback參數設置回調函數,即請求響應的內容發生給哪里。 - 定義一個新的函數,如data_response來接受響應的數據
--響應函數一定要寫在Requests里的callback參數里,語法格式:self.函數名稱
--將需要保存的數據賦值給itme的儲存器
--語法:item['聲明變量名稱']=值
---如:item['MaxName']='馬克思之謎'
-- 使用yield item 來返回item字典
5.在settings.py里啟用ITEM_PIPELINES
--ITEM_PIPELINES里的數字為優先級,越大優先級越高
6.編輯pipelines.py
--這是系統自帶的儲存通道
--可此編寫儲存語句
--item的字典所有數據都會返回到這個通道里