文章出處:【scrapy】學習Scrapy入門
整體結構
引擎(Scrapy Engine),用來處理整個系統的數據流處理,觸發事務。
調度器(Scheduler),用來接受引擎發過來的請求,壓入隊列中,并在引擎再次請求的時候返回。
下載器(Downloader),用于下載網頁內容,并將網頁內容返回給蜘蛛。
蜘蛛(Spiders),蜘蛛是主要干活的,用它來制訂特定域名或網頁的解析規則。編寫用于分析response并提取item(即獲取到的item)或額外跟進的URL的類。 每個spider負責處理一個特定(或一些)網站。
項目管道(Item Pipeline),負責處理有蜘蛛從網頁中抽取的項目,他的主要任務是清晰、驗證和存儲數據。當頁面被蜘蛛解析后,將被發送到項目管道,并經過幾個特定的次序處理數據。
下載器中間件(Downloader Middlewares),位于Scrapy引擎和下載器之間的鉤子框架,主要是處理Scrapy引擎與下載器之間的請求及響應。
蜘蛛中間件(Spider Middlewares),介于Scrapy引擎和蜘蛛之間的鉤子框架,主要工作是處理蜘蛛的響應輸入和請求輸出。
調度中間件(Scheduler Middlewares),介于Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。
作者:JasonDing
鏈接:http://www.lxweimin.com/p/a8aad3bf4dc4
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。