一、Scrapy框架的使用步驟：

1. 創建項目：
  scrapy startproject project_name
1. cd進項目目錄：
  cd project_name
1. 創建項目應用程序：
  scrapy genspider app_name start_url
1. 編寫爬蟲文件代碼、settings配置：
  codes........
1. 執行爬蟲程序：
  scrapy crawl app_name

二、Scrapy初始Url的兩種寫法：

一種是常量start_urls，并且需要定義一個方法parse（）

import scrapy
class simpleUrl(scrapy.Spider):
    name = "simpleUrl"
    start_urls = [  #另外一種寫法，無需定義start_requests方法
        'http://lab.scrapyd.cn/page/1/',
        'http://lab.scrapyd.cn/page/2/',
    ]
    # 此方法名必須為：parse
    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'mingyan-%s.html' % page
        with open(filename, 'wb') as f:
          f.write(response.body)
        self.log('保存文件: %s' % filename)

另一種是直接定義一個方法：star_requests()

import scrapy
class simpleUrl(scrapy.Spider):
     name = "simpleUrl"

     def start_requests(self):
         urls = [ 
            #爬取的鏈接由此方法通過下面鏈接爬取頁面
            'http://lab.scrapyd.cn/page/1/',
             'http://lab.scrapyd.cn/page/2/',
         ]
         for url in urls:
             yield scrapy.Request(url=url, callback=self.parse)

三、Scrapy調試工具之scrapy shell使用方法：

調試就是驗證scrapy到底有木有提取到數據的工具，如果木有它你根本不知道你寫的規則到底有木有提取到數據，所以這個工具是個剛需！其實也很簡單，就是在命令行輸入下面一行代碼而已：
scrapy shell start_url：注意：執行此命令時需先cd到項目目錄下

屏幕快照 2018-11-19 下午8.03.38.png

比如我們想提取 http://lab.scrapyd.cn 的 title，我們可以在[s]: 后面輸入：response.css('title') ，然后回車，立馬就得到如下結果：

response

似不似很直觀的驗證了你提取的數據對不對？如果正確了，我們再把上面的代碼放到我們蜘蛛里面，那這樣就會正確的得到你想要的數據，而不會出現意外了，這就是scrapy調試工具的應用！

四、Scrapy 爬取下一頁，scrapy整站爬取

接下來，還是繼續爬取：http://lab.scrapyd.cn （鏈接獨白：為神馬受傷的總是我？）！我們既然要爬取下一頁，那我們首先要分析鏈接格式，找到下一頁的鏈接，那爬取就簡單了

image.png

主要代碼實現

next_page = response.css('li.next a::attr(href)').extract_first() 
    if next_page is not None:
        next_page = response.urljoin(next_page)
        yield scrapy.Request(next_page, callback=self.parse)

五、Scrapy arguments：指定蜘蛛參數爬取

Using spider arguments，這個東西對于許多朋友來說，簡直是雪中送炭，因為有了參數配置爬取，就能加大我們爬取的靈活性，而不必重復修改、編寫爬蟲代碼了。
　　比如我們要爬取http://lab.scrapyd.cn里面的數據，原先我們需要全站的，過了幾天需求變了，我們只需要：“人生”這個標簽下面的內容，那我們又需要更改爬蟲代碼，又過了幾天，需求又變，我們又需要標簽：“勵志”下面的內容，那我們又得改爬蟲……
　　如果爬蟲量少還好，那如果有十個、一百個……那一天到晚我們只能不斷的修改、不斷的伺候這些爬蟲了！
　　那怎樣才能讓我們的爬蟲更靈活呢？scrapy給我提供了可傳參的爬蟲，有了這么個功能，那人生就更加美麗了，上面不斷變化的爬蟲我們就可以這樣來玩，首先按scrapy 參數格式定義好參數，如下：

import scrapy


class ArgsspiderSpider(scrapy.Spider):
    name = "argsSpider"

    def start_requests(self):
        url = 'http://lab.scrapyd.cn/'
        # 獲取tag值，也就是爬取時傳過來的參數
        tag = getattr(self, 'tag', None)
        # 判斷是否存在tag，若存在，重新構造url
        if tag is not None:
            # 構造url若tag=愛情，url= "http://lab.scrapyd.cn/tag/愛情"
            url = url + 'tag/' + tag
            # 發送請求爬取參數內容
            yield scrapy.Request(url, self.parse)

    def parse(self, response):
        mingyan = response.css('div.quote')
        
        for v in mingyan:
            text = v.css('.text::text').extract_first()
            tags = v.css('.tags .tag::text').extract()
            tags = ','.join(tags)
            fileName = '%s-語錄.txt' % tags
            with open(fileName, "a+") as f:
                f.write(text)
                f.write('\n')
                f.write('標簽：' + tags)
                f.write('\n-------\n')
                f.close()

        next_page = response.css('li.next a::attr(href)').extract_first()
        
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

代碼寫好之后，那我們要如何傳參呢？如何運行呢？
比如我們要爬取標簽：愛情，我們可以這樣：
scrapy crawl argsSpider -a tag=愛情
要爬取標簽：勵志，我們可以這樣:
scrapy crawl argsSpider -a tag=勵志
參數：tag=愛情、tag=勵志就可以在爬取的時候傳進去我們蜘蛛里面，我們就可以不修改蜘蛛，愉快的爬取了！

六、scrapy命令明細：

1. Scrapy框架的命令也就十四五個,最常用的命令也就三個，即：
　　scrapy startproject（創建項目）、
　　scrapy crawl XX（運行XX蜘蛛）、
　　scrapy shell http://www.scrapyd.cn（調試網址為http://www.scrapyd.cn的網站）

2. scrapy命令分為：全局命令、項目命令；
　　很好理解，全局命令就是在哪都能用；項目命令就是只能依托你的項目

全局命令

startproject：
創建項目
scrapy startproject（創建項目）
genspider:
這個命令的話是根據爬蟲模板創建爬蟲py文件的命令
scrapy genspider spider_app_name start_url
settings：
看字面意思，相信聰明的你已經知道它是干嘛的了！其實它就是方便你查看到你對你的scray設置了些神馬參數！
比如我們想得到爬蟲項目的下載延遲，我們可以使用：
scrapy settings --get DOWNLOAD_DELAY
比如我們想得到爬蟲項目的名字：
scrapy settings --get BOT_NAME
runspider：
這個命令有意思，之前我們運行爬蟲項目除了使用：scrapy crawl XX之外，我們還能用：runspider，前者是基于項目運行，后者是基于文件運行，也就是說你按照scrapy的爬蟲項目格式編寫了一個py文件，那你不想創建項目，那你就可以使用runspider，比如你編寫了一個：scrapyd_cn.py的爬蟲文件，你要直接運行就是：
scrapy runspider scrapy_cn.py
shell:
這個命令比較重要，主要是調試用
scrapy shell [http://www.scrapyd.cn](http://www.scrapyd.cn/)
fetch:
這個命令其實也可以歸結為調試命令的范疇！它的功效就是模擬我們的蜘蛛下載頁面，也就是說用這個命令下載的頁面就是我們蜘蛛運行時下載的頁面，這樣的好處就是能準確診斷出，我們的到的html結構到底是不是我們所看到的，然后能及時調整我們編寫爬蟲的策略！
scrapy fetch [http://www.scrapyd.cn](http://www.scrapyd.cn/)
version:
查看scrapy版本
scrapy version

項目命令

crawl：
運行爬蟲文件
scrapy crawl my_project
check：
檢查爬蟲文件
scrapy check my_project
list：
顯示有多少個爬蟲文件
scrapy list
edit:
編輯文件（類似于linux系統下的vim）
scrapy edit my_project
parse
常用參數預覽
scrapy parse my_project
bench
項目詳細運行情況
scrapy bench my_project

參考Scrapy中文網

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Scrapy框架總結

Scrapy框架總結

一、Scrapy框架的使用步驟：

二、Scrapy初始Url的兩種寫法：

三、Scrapy調試工具之scrapy shell使用方法：

四、Scrapy 爬取下一頁，scrapy整站爬取

五、Scrapy arguments：指定蜘蛛參數爬取

六、scrapy命令明細：

全局命令

項目命令

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Scrapy框架總結

一、Scrapy框架的使用步驟：

二、Scrapy初始Url的兩種寫法：

三、Scrapy調試工具之scrapy shell使用方法：

四、Scrapy 爬取下一頁，scrapy整站爬取

五、Scrapy arguments：指定蜘蛛參數爬取

六、scrapy命令明細：

全局命令

項目命令

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频