中文无码亚洲精品字幕,国产欧美日韩中文久久,成人女人爽到高潮的a片

上周學(xué)習(xí)了BeautifulSoup的基礎(chǔ)知識(shí)并用它完成了一個(gè)網(wǎng)絡(luò)爬蟲（使用Beautiful Soup編寫一個(gè)爬蟲系列隨筆匯總），
BeautifulSoup是一個(gè)非常流行的Python網(wǎng)絡(luò)抓取庫，它提供了一個(gè)基于HTML結(jié)構(gòu)的Python對(duì)象。
雖然簡單易懂，又能非常好的處理HTML數(shù)據(jù)，
但是相比Scrapy而言，BeautifulSoup有一個(gè)最大的缺點(diǎn)：慢。

Scrapy 是一個(gè)開源的 Python 數(shù)據(jù)抓取框架，速度快，強(qiáng)大，而且使用簡單。
來看一個(gè)官網(wǎng)主頁上的簡單并完整的爬蟲：

雖然只有10行左右的代碼，但是它的確是一個(gè)完整的爬蟲服務(wù)：

當(dāng)執(zhí)行scrapy runspider xxx.py命令的時(shí)候， Scrapy在項(xiàng)目里查找Spider(蜘蛛???)并通過爬蟲引擎來執(zhí)行它。
首先從定義在start_urls里的URL開始發(fā)起請求，然后通過parse()方法處理響應(yīng)。response參數(shù)就是返回的響應(yīng)對(duì)象。
在parse()方法中，通過一個(gè)CSS選擇器獲取想要抓取的數(shù)據(jù)。

Scrapy所有的請求都是異步的：

也就是說Scrapy不需要等一個(gè)請求完成才能處理下一條請求，而是同時(shí)發(fā)起另一條請求。
而且，異步請求的另一個(gè)好處是當(dāng)某個(gè)請求失敗了，其他的請求不會(huì)受到影響。

安裝(Mac)

pip install scrapy

其他操作系統(tǒng)請參考完整安裝指導(dǎo)：
http://doc.scrapy.org/en/latest/intro/install.html

Scrapy中幾個(gè)需要了解的概念

Spiders

Spider類想要表達(dá)的是：如何抓取一個(gè)確定了的網(wǎng)站的數(shù)據(jù)。比如在start_urls里定義的去哪個(gè)鏈接抓取，parse()方法中定義的要抓取什么樣的數(shù)據(jù)。
當(dāng)一個(gè)Spider開始執(zhí)行的時(shí)候，它首先從start_urls()中的第一個(gè)鏈接開始發(fā)起請求，然后在callback里處理返回的數(shù)據(jù)。

Items

Item類提供格式化的數(shù)據(jù)，可以理解為數(shù)據(jù)Model類。

Selectors

Scrapy的Selector類基于lxml庫，提供HTML或XML轉(zhuǎn)換功能。以response對(duì)象作為參數(shù)生成的Selector實(shí)例即可通過實(shí)例對(duì)象的xpath()方法獲取節(jié)點(diǎn)的數(shù)據(jù)。

編寫一個(gè)Web爬蟲

接下來將上一個(gè)Beautiful Soup版的抓取書籍信息的例子（使用Beautiful Soup編寫一個(gè)爬蟲系列隨筆匯總）改寫成Scrapy版本。

新建項(xiàng)目

scrapy startproject book_project

這行命令會(huì)創(chuàng)建一個(gè)名為book_project的項(xiàng)目。

編寫Item類

即實(shí)體類，代碼如下：

import scrapy

class BookItem(scrapy.Item):
    title = scrapy.Field()
    isbn = scrapy.Field()
    price = scrapy.Field()

編寫Spider類

設(shè)置這個(gè)Spider的名稱，允許爬取的域名和從哪個(gè)鏈接開始：

class BookInfoSpider(scrapy.Spider):
    name = "bookinfo"
    allowed_domains = ["allitebooks.com", "amazon.com"]
    start_urls = [
        "http://www.allitebooks.com/security/",
    ]

遍歷分頁數(shù)據(jù)

def parse(self, response):
    # response.xpath('//a[contains(@title, "Last Page →")]/@href').re(r'(\d+)')[0]
    num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())
    base_url = "http://www.allitebooks.com/security/page/{0}/"
    for page in range(1, num_pages):
        yield scrapy.Request(base_url.format(page), dont_filter=True, callback=self.parse_page)

從allitebooks.com獲取書籍信息方法

def parse_page(self, response):
    for sel in response.xpath('//div/article'):
        book_detail_url = sel.xpath('div/header/h2/a/@href').extract_first()
        yield scrapy.Request(book_detail_url, callback=self.parse_book_info)

def parse_book_info(self, response):
    title = response.css('.single-title').xpath('text()').extract_first()
    isbn = response.xpath('//dd[2]/text()').extract_first()
    item = BookItem()
    item['title'] = title
    item['isbn'] = isbn
    amazon_search_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn
    yield scrapy.Request(amazon_search_url, callback=self.parse_price, meta={ 'item': item })

'//a'的意思所有的a標(biāo)簽；
'//a[contains(@title, "Last Page →")' 的意思是在所有的a標(biāo)簽中，title屬性包涵"Last Page →"的a標(biāo)簽；
extract() 方法解析并返回符合條件的節(jié)點(diǎn)數(shù)據(jù)。

從amazon.com獲取書籍價(jià)格方法

def parse_price(self, response):
    item = response.meta['item']
    item['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]
    yield item

啟動(dòng)服務(wù)

scrapy crawl bookinfo -o books.csv

-o books.csv 參數(shù)的意思是將抓取的Item集合輸出到csv文件。

除了CSV格式，Scrapy還支持JSON，XML的格式輸入。具體請參考：
http://doc.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports

結(jié)果：

完整代碼請移步GitHub：
https://github.com/backslash112/book_scraper_scrapy
我們處于大數(shù)據(jù)時(shí)代，對(duì)數(shù)據(jù)處理感興趣的朋友歡迎查看另一個(gè)系列隨筆：
利用Python進(jìn)行數(shù)據(jù)分析基礎(chǔ)系列隨筆匯總

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

網(wǎng)絡(luò)爬蟲：使用Scrapy框架編寫一個(gè)抓取書籍信息的爬蟲服務(wù)

網(wǎng)絡(luò)爬蟲：使用Scrapy框架編寫一個(gè)抓取書籍信息的爬蟲服務(wù)

Scrapy中幾個(gè)需要了解的概念

Spiders

Items

Selectors

編寫一個(gè)Web爬蟲

新建項(xiàng)目

編寫Item類

編寫Spider類

遍歷分頁數(shù)據(jù)

從allitebooks.com獲取書籍信息方法

從amazon.com獲取書籍價(jià)格方法

啟動(dòng)服務(wù)

結(jié)果：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

網(wǎng)絡(luò)爬蟲：使用Scrapy框架編寫一個(gè)抓取書籍信息的爬蟲服務(wù)

Scrapy中幾個(gè)需要了解的概念

Spiders

Items

Selectors

編寫一個(gè)Web爬蟲

新建項(xiàng)目

編寫Item類

編寫Spider類

遍歷分頁數(shù)據(jù)

從allitebooks.com獲取書籍信息方法

從amazon.com獲取書籍價(jià)格方法

啟動(dòng)服務(wù)

結(jié)果：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频