之前跌跌撞撞學了一段時間爬蟲,后來因為各種考試什么的就放下了,感覺很多的方法什么的,要用的時候才會熟練,當然知道原理也是很重要的,我感覺有些時候如果能熟練使用別人的工具,也不失為一種好的方法,所有我準備記錄怎么使用scrapy 框架,以便日后要用的時候可以快速啟動。
一。 Scrapy 的安裝
pip install scrapy
這樣一個簡單的命令即可
檢查是否已經安裝好
我早就安裝好了
看看命令有多少
scrapy 是一個命令行的命令了
這里解釋一下每個命令的用途
bench 是 測試
fetch 是下載網頁,返回源代碼
genspider 是可以加入文件名和網址來創建一個新的爬蟲
runspider 運行爬蟲
settings 設置
shell 進入交互模式
startproject 創建一個新的項目
version 顯示版本
view 用瀏覽器打開網頁
scrapy 框架的理解
scrapy 有幾個核心的組件
引擎
調度器
下載器
爬蟲
中間件
管道
工作流程如下:
首先是spider 確定一個URL,用這個URL構造一個request對象,然后遞交給引擎。request 只有進入調度器,排隊,在到了以后進入下載器,下載器會根據request對象中的URL發送一次http請求到網站服務器,服務器返回一個response對象。這個對象之后被送往爬蟲中定義的一個解析函數來解析,獲得我們需要的數據之后,把提取的數據封裝為ITEM, 然后遞交給引擎,可能ITEM回去管道過濾處理一下,也可能又EXPORTER寫入文件。如果解析函數在response中解析出了新的鏈接,那就構造出新的resquest 重復循環。