2018-05-09 爬蟲筆記(一)安裝scrapy

之前跌跌撞撞學了一段時間爬蟲,后來因為各種考試什么的就放下了,感覺很多的方法什么的,要用的時候才會熟練,當然知道原理也是很重要的,我感覺有些時候如果能熟練使用別人的工具,也不失為一種好的方法,所有我準備記錄怎么使用scrapy 框架,以便日后要用的時候可以快速啟動。

一。 Scrapy 的安裝

pip install scrapy

這樣一個簡單的命令即可

檢查是否已經安裝好

我早就安裝好了

看看命令有多少

scrapy 是一個命令行的命令了

這里解釋一下每個命令的用途

bench 是 測試
fetch 是下載網頁,返回源代碼
genspider 是可以加入文件名和網址來創建一個新的爬蟲
runspider 運行爬蟲
settings 設置
shell 進入交互模式
startproject 創建一個新的項目
version 顯示版本
view 用瀏覽器打開網頁

scrapy 框架的理解

scrapy 有幾個核心的組件
引擎
調度器
下載器
爬蟲
中間件
管道

工作流程如下:
首先是spider 確定一個URL,用這個URL構造一個request對象,然后遞交給引擎。request 只有進入調度器,排隊,在到了以后進入下載器,下載器會根據request對象中的URL發送一次http請求到網站服務器,服務器返回一個response對象。這個對象之后被送往爬蟲中定義的一個解析函數來解析,獲得我們需要的數據之后,把提取的數據封裝為ITEM, 然后遞交給引擎,可能ITEM回去管道過濾處理一下,也可能又EXPORTER寫入文件。如果解析函數在response中解析出了新的鏈接,那就構造出新的resquest 重復循環。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容