(原創(chuàng))使用Scrapy下載文件時(shí)的幾個tips

2020-03-23
最近自己又玩了玩爬蟲，由于目標(biāo)網(wǎng)站跳轉(zhuǎn)很多而且是要下載文件，所以選擇了Scrapy框架。
對于Scrapy框架久仰大名，知道它內(nèi)部封裝實(shí)現(xiàn)了異步并發(fā)，但前兩年專職做爬蟲的時(shí)候用的是NodeJs自行開發(fā)的分布式微服務(wù)任務(wù)處理框架，所以也沒有認(rèn)真研究過Scrapy，這次正好借機(jī)學(xué)習(xí)研究并應(yīng)用一番。

起

首先當(dāng)然是要看文檔，這次為了節(jié)省時(shí)間，我看的是中文版文檔。在這還是要小小地吐槽一下，翻譯質(zhì)量確實(shí)不高，專業(yè)術(shù)語壓根錯的離譜，但畢竟人生苦短，有經(jīng)驗(yàn)的人應(yīng)該都不會輕易被誤導(dǎo)。

文檔雖然翻譯不精準(zhǔn)，但步驟和案例也算比較詳細(xì)，所以前面步驟都如Scrapy 教程一般順利：

用scrapy startproject MyProject創(chuàng)建項(xiàng)目
在/spiders/目錄下修改編寫自己的爬蟲邏輯，通過yield和callback來實(shí)現(xiàn)異步和回調(diào)
使用scrapy shell "target_url"來單頁調(diào)試
使用response.xpath()來解析頁面，跟BeautifuSoap4一樣（Python和Node都有這個庫）

承

然后在詳細(xì)說一下處理文件下載的部分，簡單情況下如下載和處理文件和圖像文檔一般：

1.通過配置setting.py來啟用文件管道和設(shè)置文件下載存儲地址

ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1}
FILES_STORE = '/path/to/valid/dir'

2.在items.py進(jìn)行聲明，這樣拿到目標(biāo)文件的url之后直接賦給item.file_urls后再調(diào)用yield item就可以了不用管了

import scrapy
class xxxxdiscrapyItem(scrapy.Item):
    file_urls=scrapy.Field()
    file_paths=scrapy.Field()

轉(zhuǎn)

是不是很簡單？
But, demo is demo，我的文件下載全部失敗了，加了一堆print之后看到問題在于“下載文件的時(shí)候沒有在headers里設(shè)置referer，導(dǎo)致被識別為爬蟲，因而403”。

這個其實(shí)比較奇怪，因?yàn)橛^察日志可以看到前面頁面跳轉(zhuǎn)的時(shí)候，一直都是帶著referer的，不知道為啥到了下載文件的時(shí)候就沒有，啥都不帶了，有知道的小伙伴請幫忙釋疑！

一番搜索后找到的最為合意的帖子是這篇scrapy爬取福利圖片解決防盜鏈的問題，當(dāng)然這是官方文檔擴(kuò)展媒體管道的基礎(chǔ)上進(jìn)行操作的。

根據(jù)這篇博客進(jìn)行代碼修改，把獲取到target_url的頁面page_url設(shè)置它的referer后依然有問題，一開始是各種fail，填完坑后看日志記錄沒啥異常，但是開始統(tǒng)計(jì)每分鐘下載多少多少個item了，但文件依然一個都沒有下載下來，又是一番對比才解決：

1. file_path的重寫有坑，需要給參數(shù)默認(rèn)值

怎么發(fā)現(xiàn)這個坑的，我已經(jīng)忘了，但我知道填掉它是因?yàn)槲艺业搅?code>scarpy中這個函數(shù)的源代碼https://github.com/scrapy/scrapy/blob/master/scrapy/pipelines/files.py：

    def file_path(self, request, response=None, info=None):
        media_guid = hashlib.sha1(to_bytes(request.url)).hexdigest()
        media_ext = os.path.splitext(request.url)[1]
        # Handles empty and wild extensions by trying to guess the
        # mime type then extension or default to empty string otherwise
        if media_ext not in mimetypes.types_map:
            media_ext = ''
            media_type = mimetypes.guess_type(request.url)[0]
            if media_type:
                media_ext = mimetypes.guess_extension(media_type)
        return 'full/%s%s' % (media_guid, media_ext)

或許這就是那些老鳥所說的Python多態(tài)的暗坑之一吧
但這一點(diǎn)在教程：擴(kuò)展媒體管道中絲毫都沒有體現(xiàn)出來，我甚至去查過英文原版的，一樣沒有提及，所以這鍋翻譯不背。

2. ITEM_PIPELINES的設(shè)置需要更改
因?yàn)樽远x的MyFilesPipeline會重載原生的FilesPipeline

ITEM_PIPELINES = {
   'xxxxScrapy.pipelines.MyFilesPipeline': 1,
}

MyFilesPipeline的代碼如下：

import os
from urllib.parse import urlparse

from scrapy.pipelines.files import FilesPipeline
from scrapy import Request
from scrapy.exceptions import DropItem

class MyFilesPipeline(FilesPipeline):

    # 示例中沒有提及這里需要給response和info設(shè)置默認(rèn)值
    def file_path(self, request, response=None, info=None):
        return os.path.basename(urlparse(request.url).path)


    def get_media_requests(self, item, info):
        for file_url in item['file_urls']:
            yield Request(file_url, headers={'referer':item['referer'], 'scheme':"https"})


    def item_completed(self, results, item, info):
        file_paths = [x['path'] for ok, x in results if ok]
        if not file_paths:
            raise DropItem("Item contains no files")
        item['file_paths'] = file_paths
        return item

3.items的定義需要增加聲明

import scrapy

class xxxxscrapyItem(scrapy.Item):
    file_urls=scrapy.Field()
    file_paths=scrapy.Field()
    referer=scrapy.Field()

如果不添加referer的聲明的話，就會看到所有的item處理結(jié)果都是Item contains no files,因?yàn)?code>KeyError: 'xxxxxxItem does not support field: referer'。

其實(shí)對于referer缺失還有一種臨時(shí)性的解決方案，那就是不重寫FilesPipeline而是啟用DownloaderMidderware然后在process_request的時(shí)候進(jìn)行處理：

1）啟用DownloaderMidderware

DOWNLOADER_MIDDLEWARES = {
   'xxxxScrapy.middlewares.xxxxscrapyDownloaderMiddleware': 543,
 }

2）添加處理

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called

        if not request.headers.get("referer"):
            request.headers['referer'] = request.url
            pprint(request.headers)

        return None

至于說它是臨時(shí)性方案，是因?yàn)樗皇前炎约旱?code>url塞進(jìn)referer了，如果反爬蟲機(jī)制檢測稍微精細(xì)一點(diǎn)，它就失敗了，畢竟它不夠真。

合

還有一個要注意的問題就是，如果把yield item的操作封裝了的話，比如封裝為goto_download函數(shù)，那么調(diào)用這個函數(shù)的時(shí)候一定要添加return，否則就跟（原創(chuàng)）一個Promise...then...catch的小坑一樣會迷失，這是異步編程的規(guī)范問題。

    # the urls should be a list
    # need be returned when calling it as "return self.goto_download(urls, referer)"
    def goto_download(self, urls, referer):
        if isinstance(urls, str):
            urls = [urls]
        
        item = xxxxscrapyItem()
        item['file_urls'] = urls
        item['referer'] = referer                       # important!
        yield item

參考

最后編輯于：2020.03.24 09:09:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,622評論 6贊 544
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,716評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,746評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,991評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,706評論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 56,036評論 1贊 329
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,029評論 3贊 450
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,203評論 0贊 290
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,725評論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,451評論 3贊 361
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,677評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,161評論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,857評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,266評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,606評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,407評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,643評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

(原創(chuàng))使用Scrapy下載文件時(shí)的幾個tips

(原創(chuàng))使用Scrapy下載文件時(shí)的幾個tips

起

承

轉(zhuǎn)

1. file_path的重寫有坑，需要給參數(shù)默認(rèn)值

2. ITEM_PIPELINES的設(shè)置需要更改

3.items的定義需要增加聲明

合

參考

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

(原創(chuàng))使用Scrapy下載文件時(shí)的幾個tips

起

承

轉(zhuǎn)

1. file_path的重寫有坑，需要給參數(shù)默認(rèn)值

2. ITEM_PIPELINES的設(shè)置需要更改

3.items的定義需要增加聲明

合

參考

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频