Scrapy學習入門經驗

Scrapy介紹:
一個python的爬蟲框架。允許用戶定義自己的spiders(蜘蛛)
特點:
1、 帶有異步處理請求功能。
2、 可設置CPU使用率。
流程:


scrapy_architecture.png

Items->Spiders->pipelines
構建->請求->儲存

使用說明:
1.先startproject 創建一個項目
-- spiders name 這只蜘蛛的名稱
-- 設置allowed_domains 允許蜘蛛爬取的域名范圍
-- bash_url 第一個開始的url地址(似乎非必須)

  1. 在Scrapy中的items.py文件中定義儲存器
    -- 通過儲存器來接受需要保存的數據
    -- 定義儲存器的語法:
    ---變量名稱=scrapy.field()
    ---如:MaxName=scrapy.field()
    ---其中field()是scrapy的一種類型,還有其他許多類型。目前暫不做介紹
  2. 通過定義一個初始函數start_requests()來發送第一次請求
    --設置請求的url
    --使用yield()來返回數據
    ---Scrapy 自帶的Requests(url,callback=function)函數來發生請求,類似python的requests庫
    ---callback參數設置回調函數,即請求響應的內容發生給哪里。
  3. 定義一個新的函數,如data_response來接受響應的數據
    --響應函數一定要寫在Requests里的callback參數里,語法格式:self.函數名稱
    --將需要保存的數據賦值給itme的儲存器
    --語法:item['聲明變量名稱']=值
    ---如:item['MaxName']='馬克思之謎'
    -- 使用yield item 來返回item字典
    5.在settings.py里啟用ITEM_PIPELINES
    --ITEM_PIPELINES里的數字為優先級,越大優先級越高
    6.編輯pipelines.py
    --這是系統自帶的儲存通道
    --可此編寫儲存語句
    --item的字典所有數據都會返回到這個通道里
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。