两个男人吮奶头咬出奶水正常吗 ,少妇放荡的呻吟干柴烈火动漫,欧美成人性A片免费观看

環境搭建

在開始搭建scrapy爬蟲的開發環境之前，建議已經安裝Anaconda這個python發行版本，這個可以讓以后的開發過程中，安裝其他的模塊環境不至于出現一堆的錯誤。

假定你安裝好了Anaconda,也配置好了相應的環境變量，這是你可以用以下的命令安裝scrapy框架：

在終端執行下面這條命令

conda install Scrapy

下面是安裝過程的截圖，是不是很簡單

安裝scrapy

2.通過python的包安裝和管理工具pip來安裝

pip install Scrapy

這樣，scrapy就安裝完成了，不管通過哪種方式，是不是都很簡單！當然此處推薦使用第一種安裝方式，什么？？你就要用第二種，ok，ok，你用好了，體驗一把安裝python模塊庫錯綜復雜，藕斷絲連，欲罷不能，讓人蛋疼依賴關系（有多疼？？疼到你懷疑你有一顆假的蛋，沒錯，一顆），也是一種人生的歷練！！

環境安裝好了以后，下面就可以開始我們想入非非，性奮不已的scrapy基礎之路了。
作為流程，下面請允許我從scrapy的官網借（程序員的事情不叫偷的）一些話來湊個字數

項目創建

在開始爬取之前，您必須創建一個新的Scrapy項目（廢話，請忽略）
怎么創建項目？？對，沒錯，就是這樣，打開終端：

scrapy新建項目

注意注意 項目取名字的時候，不要像我的這個取得這么見名知意，萬一你的領導或同事沒有八年開發經驗和漢語八級，你可能會被打的

見名知意

項目創建完成，可以看到下面的項目目錄

項目結構

下面該寫爬蟲了？？no！！在開始寫爬蟲之前還是來了解一下scrapy的工作流程！

scrapy工作流程圖

沒錯我又從網上偷來的這張圖

？？圖看不太懂？我艸，我就知道有人跟我一樣，沒關系，來來來,看看別人通俗形象的解釋：

引擎：Hi！Spider, 你要處理哪一個網站？

Spiders：我要處理xxoo.com

引擎：你把第一個需要的處理的URL給我吧。

Spiders：給你第一個URL是XXXXXXX.com

引擎：Hi！調度器，我這有request你幫我排序入隊一下。

調度器：好的，正在處理你等一下。

引擎：Hi！調度器，把你處理好的request給我，

調度器：給你，這是我處理好的request

引擎：Hi！下載器，你按照下載中間件的設置幫我下載一下這個request

下載器：好的！給你，這是下載好的東西。（如果失敗：不好意思，這個request下載失敗，然后引擎告訴調度器，這個request下載失敗了，你記錄一下，我們待會兒再下載。）

引擎：Hi！Spiders，這是下載好的東西，并且已經按照Spider中間件處理過了，你處理一下（注意！這兒responses默認是交給def parse這個函數處理的）

Spiders：（處理完畢數據之后對于需要跟進的URL），Hi！引擎，這是我需要跟進的URL，將它的responses交給函數 def xxxx(self, responses)處理。還有這是我獲取到的Item。

引擎：Hi ！Item Pipeline 我這兒有個item你幫我處理一下！調度器！這是我需要的URL你幫我處理下。然后從第四步開始循環，直到獲取到你需要的信息，

注意！只有當調度器中不存在任何request了，整個程序才會停止，（也就是說，對于下載失敗的ＵＲＬ，Scrapy會重新下載。）

以上就是Scrapy整個流程了。

注：以上引用自博客http://cuiqingcai.com/3472.html

以上完成了對scrapy的工作流程的理解，下面開始進入正題，開始我們的小爬蟲，用于scrapy官網給出的例子中的domz網站已經永久關閉，所以下面的例子，我們以http://quotes.toscrape.com/tag/humor/這個網站為例。

Item編寫

觀察網頁的結構后，確定一下需要爬取的頁面和想要爬取的內容字段，比如，你要要爬取番號，封面，還是種子呢？別激動，我們在這里只爬取上面的網站每個條目的標題，鏈接，作者和標簽四個字段，

確定要爬取的字段以后，就可以開始爬蟲的編寫，在==items.py==文件中加入我們要爬取的字段，如下圖所示：

item定義

爬蟲文件編寫

確定以及定義好了我們需要提取的字段，下面就該開始爬蟲的編寫了，在spiders文件夾下新建自己的爬蟲文件：

新建spider文件

對于這個文件里的幾行代碼，這里只簡單的解釋一下，詳細的介紹以后再說，畢竟這里只是入門嘛！

開始我們導入scrapy模塊（這行還看不懂的話）。。。。

我還能說什么

除了這個模塊，我們還需要導入之前編寫的item文件。之后是定義了一個spider類，該類繼承自scrapy.Spider，下面的name = 'PachongSpider'是爬蟲的名字，這個名字是唯一的，因為在完成代碼后運行爬蟲要用到這個名字，start_urls 列表里存放要爬取的鏈接地址，scrapy會自動從這個列表取出地址進行爬取，并將返回的response作為參數傳遞給self.parse，在self.parse里就可以從response解析出需要的數據字段（即item里定義的字段）。

關于數據的解析，scrapy提供了多種方式，xpath，css，re，都是可以的，這里先來試試xpath，如果對xpath不是很熟悉，可以先看一下http://www.w3school.com.cn/xpath/index.asp，看了，還不會用？？？多試幾遍就會了，或者也可以借助強大的chrome瀏覽器

提取xpath

爬蟲的編寫如下：

#coding:utf-8

import scrapy
from pachong.items import PachongItem

class QuotesSpider(scrapy.Spider):
    name =  'pachong'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        base_url = 'http://quotes.toscrape.com'
        item = PachongItem()
        divs = response.xpath('//div[@class="quote"]')
        for div in divs:
            item['name'] = div.xpath('span[@class="text"]/text()').extract()[0]
            item['url'] = base_url+div.xpath('span/a/@href').extract()[0]
            item['tags'] = div.xpath('div[@class="tags"]/a/text()').extract()
            item['author'] = div.xpath('span/small[@class="author"]/text()').extract()[0]
            print(item)
            yield item

數據持久化

最后我們將爬取的數據持久化到本地，可以存儲在文件中，csv，json，當然也可以是數據庫，這里采用mongodb來存儲（關于python使用mongodb，請自行百度），如同文章開始介紹的，數據持久化需要在pipelines.py文件中進行，
一下開始編寫pipelines.py文件

import pymongo

class PachongPipeline(object):
    def __init__(self):
        self.client = pymongo.MongoClient('localhost', 27017)
        self.pchdb = self.client['pchdb']
        self.pchtab = self.pchdb['pchtab']

    def process_item(self, item, spider):
        self.pchtab.insert_one(dict(item))
        return item

首先導入mongodb的python依賴模塊，在pipelines.py初始化方法中，連接到mongodb數據庫，在process_item方法中向數據庫插入數據。這個文件編寫完成，需要在settings.py文件中配置該管道

ITEM_PIPELINES = {
   'pachong.pipelines.PachongPipeline': 1,
}

如果運行了程序，數據庫沒有數據，可能是沒有在settings里配置ITEM_PIPELINES。

下面就是運行腳本了，打開終端，進入到爬蟲的根目錄（到達根目錄，scrapy list命令查看爬蟲的列表就是前面所說的spider里面的name對應的值），然后輸入scrapy crawl pachong，腳本運行完成可以在數據庫看到爬取到的數據了

爬取到的數據

最后說一下，每次都要打開終端輸入命令來運行腳本多少有些不便，可以在項目的根目錄下新建一個python文件輸入下面的代碼：

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'pachong'])

execute方法的的參數list中的三個元素是不是很熟悉，沒錯，就是前面在終端輸入過的命令，第三個元素是根據你爬蟲的“name”來定的

至此一個簡單的爬蟲就完成了，至于怎么爬取有分頁的網頁，怎么設置代理，應對反爬，以及怎么爬取js動態加載的頁面，將會在后面的博客中講到。
最后是代碼地址：https://github.com/lexyhp/pachong

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python爬蟲之Scrapy框架入門1

Python爬蟲之Scrapy框架入門1

環境搭建

項目創建

Item編寫

爬蟲文件編寫

數據持久化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python爬蟲之Scrapy框架入門1

環境搭建

項目創建

Item編寫

爬蟲文件編寫

數據持久化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频