scrapy入門之【什么值得買】(1)

什么值得買:大型比價(jià) / 推送網(wǎng)站
現(xiàn)狀
  • 網(wǎng)站內(nèi)信息雜亂,很多商家自薦信息 并無用
  • 水軍
目標(biāo):
  1. 爬取數(shù)據(jù)

  2. 存入mongoDB

  3. 數(shù)據(jù)分析

  4. 數(shù)據(jù)挖掘

  5. 可視化

構(gòu)思一個(gè)精準(zhǔn)定位特價(jià)產(chǎn)品的程序

不廢話 直接開扒,跳過安裝 ,網(wǎng)上很多 教程,這里使用的 windows 安裝 scrapy, pycharm IDE

頁面:

  1. 首頁: url 管理器 (存放url 遍歷用)
  2. 商品詳情頁:商品結(jié)構(gòu)化信息,如 (發(fā)布時(shí)間,產(chǎn)品標(biāo)簽、評論等)
  3. 爆料者信息頁面:爆料者等級 ,是否商家自薦,粉絲數(shù)量等 來確定此發(fā)布是否有價(jià)值

分頁規(guī)則http://www.smzdm.com/p + pageNum(頁碼數(shù))


一、首頁

Paste_Image.png

二、詳情頁面

Paste_Image.png
Paste_Image.png

三、爆料人頁面

Paste_Image.png

代碼

1.新建一個(gè)spider (爬蟲引擎)

import scrapy
from scrapy.selector import Selector
from first_project.items import smzdmItem

class mySpider(scrapy.Spider): # 繼承 spider
name = "smzdm" #名稱

初始化方法

def __init__(self,pageNumFrom=1,pageNumTo=None,*args,**kwargs):
    start_urls = []
    for i in range(int(pageNumFrom),int(pageNumTo)):
        start_urls.append('http://www.smzdm.com/p'+ str(i))
    self.start_urls = start_urls   ## 參數(shù) 控制頁碼

自動調(diào)用parse() 接收每個(gè)初始url完成下載后生成的 response

 def parse(self, response):
     selector = Selector(response)
     goods = selector.xpath('//ul[@id="feed-main-list"]/li[@class="feed-row-wide  "]/h5/a/@href').extract()
     num = 0
     item_list = []
     for href in goods:
        num += 1
        item = smzdmItem()

        #頁面規(guī)則 li[序列數(shù)]  廣告位要剔除?。?!  (元素[@屬性名稱 = ""][索引值] 并列條件 剔除廣告位)
        #發(fā)布時(shí)間
        pub_time = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/text()').extract_first()
        #來源網(wǎng)站
        from_web = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/text()').extract_first()
        #購買網(wǎng)址
        purchase_url = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/@href').extract_first()


        if self.crawl_today:
            if "-" in pub_time:
                self.start_urls = []
                break

        dt = time.strftime('%m-%d', time.localtime(time.time()))
        item['pub_time'] = str(dt) + str(pub_time)
        item['from_web'] = from_web
        item['purchase_url'] = purchase_url

        item = scrapy.Request(href, meta={'item': item}, callback=self.parse_dir_cotents)  # 遞歸查詢
        item_list.append(item)
     for a in item_list:
        yield a

遞歸爬取 產(chǎn)品詳細(xì)頁面

def parse_dir_cotents(self,response):

    item = response.meta['item']

    #標(biāo)題組成
    title = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[1]/text()').extract_first()

    price = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/em/text()').extract_first()
    title_detail = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/span/text()').extract()

    recommender = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/text()').extract()
    update_time = response.xpath('//div[1]/div[2]/div/div[1]/span[2]/text()').extract_first()
    if update_time is not None:
        update_time = update_time.replace("更新時(shí)間:","")

    # 產(chǎn)品描述  detail_info_
    detail_info = response.xpath('//*/p[@itemprop="description"]')
    detail_info_text = detail_info.xpath('string(.)').extract()[0]  # 獲取元素下所有文本
    # 商品標(biāo)簽
    label = response.xpath('//*/div[@class="meta-tags"]/a/text()').extract()
    # 購買鏈接
    purchase_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[3]/div/a/@href').extract_first()

    #評論數(shù)量
    comment_num = response.xpath('//*[@id="panelTitle"]/span/em/text()').extract_first()
    #最新評論  //  id = commentTabBlockHot  最熱評論
    comment_info = response.xpath('//div[@id="commentTabBlockNew"]//span[@itemprop="description"]/text()').extract()

    #值不值
    worth = response.xpath('// *[ @ id = "rating_worthy_num"]/text()').extract_first()
    unworth = response.xpath('//*[@id="rating_unworthy_num"]/text()').extract_first()

    #位置導(dǎo)航
    position = response.xpath('//div[@class="crumbsCate"]/a/span/text()').extract();
    if len(position) > 0:
        del position[0]

    item['title'] = str(title).strip()
    item['price'] = str(price)
    item['title_detail'] = str(title_detail[0]).strip()

    item['update_time'] = str(update_time)

    item['detail_info'] = str(detail_info_text)

    item['label'] = str(label)
    item['purchase_url'] = str(purchase_url)

    item['comment_num'] = comment_num
    item['comment_info'] = str(comment_info)

    item['worth'] = str(worth).strip()
    item['unworth'] = str(unworth).strip()
    item['position'] = str(position)

    recommender_url = ''
    if len(recommender) == 0:
        recommender = '商家自薦'
        item['recommender'] = recommender
    else:
        # 通過爆料人 遞歸到爆料人頁面 獲取信息
        item['recommender'] = recommender[0]
        recommender_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/@href').extract()
        item = scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)

    return item

遞歸爬取 爆料者頁面

def recommender_info(self,response):
    item = response.meta['item']
    level = response.xpath('/html/body/div[1]/div[1]/div[1]/div[1]/div[2]/@title').extract_first()
    stars_num = response.xpath('//div[1]/div[2]/div[1]/a[2]/span/text()').extract_first()
    #爆料者等級
    item['level'] = level
    #粉絲數(shù)量
    item['stars_num'] = stars_num
    return item  # ps:yield 修改為了 return``

ps

  1. xpath
    "/" 表示絕對路徑 如何獲取xpath路徑chrome / 360 同理 、其他沒試過
    "http://" 表示相對路徑 (直接定位到元素級別
  2. 遞歸爬取
    yield scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)
    parm1 = 遞歸地址 (如詳情頁面/爆料人頁面)
    param2 = 對象 (item 對象 頁面間的傳遞)
    item = response.meta['item'] 接收
    param3 = 調(diào)用方法

此處是 兩級遞歸

主頁面>>詳細(xì)頁面>>爆料者頁面


item 類 (對象概念)

Paste_Image.png

pipelines 管道 (數(shù)據(jù)出口處理\流出)

    def __init__(self):
        # 鏈接數(shù)據(jù)庫
        self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
        # 數(shù)據(jù)庫登錄需要帳號密碼的話
        # self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
        self.db = self.client[settings['MONGO_DB']]  # 獲得數(shù)據(jù)庫的句柄
        self.coll = self.db[settings['MONGO_COLL']]  # 獲得collection的句柄
        print(self.coll)

    def process_item(self, item, smzdm):
        postItem = dict(item)  # 把item轉(zhuǎn)化成字典形式
        self.coll.insert(postItem)  # 向數(shù)據(jù)庫插入一條記錄
        return item  # 會在控制臺輸出原item數(shù)據(jù),可以選擇不寫

settings (全局配置)

配置 headers (request 404)
配置 管道 等

BOT_NAME = 'first_project'

SPIDER_MODULES = ['first_project.spiders']
NEWSPIDER_MODULE = 'first_project.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

#mongoDB settings
ITEM_PIPELINES = {
    'first_project.pipelines.smzdmPipeline': 300,
}
MONGO_HOST = "127.0.0.1"  # 主機(jī)IP
MONGO_PORT = 27017  # 端口號
MONGO_DB = "lyx"  # 庫名
MONGO_COLL = "smzdm"  # collection名
# MONGO_USER = "zhangsan"
# MONGO_PSW = "123456"

控制臺 執(zhí)行

scrapy crawl smzdm -o smzdm.json -a pageNumFrom = 1 - a pageNumTo = 100 -s FEED_EXPORT_ENCODING=utf-8'''

-o 存儲本地 json文件
-a 參數(shù)傳遞 從第一頁 到 一百頁
-s 指定編碼
--nolog 不顯示日志

Paste_Image.png

spider 代碼處做了修改 ps 已標(biāo)注(python yield 一定要系統(tǒng)的學(xué)習(xí),由于不懂就去使用 導(dǎo)致 遞歸到第二層 信息存不到item ,改為return修復(fù)好)


下一篇 對數(shù)據(jù)進(jìn)行處理 并做定時(shí)爬取任務(wù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,776評論 4 46
  • Scrapy介紹 Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘,信...
    JasonDing閱讀 122,557評論 15 126
  • 我有酒,你有故事嗎?
    0啊哈哈0閱讀 273評論 0 0
  • 2017.04.12 天氣: 1、建立“晨間日記”筆記本 2、每天點(diǎn)擊復(fù)制筆記,改標(biāo)題 3、建立日期標(biāo)簽,如010...
    1e853c0b96a8閱讀 142評論 0 0