scrapy 食用注意指南

1. 使用 'scrapy genspider project domain' 來生成 spider 文件
2. 運行 scrapy 報錯:
ImportError:
DLL load failed: 找不到指定的模塊。

解決:

拷貝 C:\Python26\Lib\site-packages\pywin32_system32\ 這個文件夾里的文件,至 C:\Windows\System32

3. 調試請使用 pycharm,通過以下方式用 pycharm 運行 scrapy:

在 scrapy.cfg 這一級目錄下新建 endpoint.py 文件,內容:

from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(這個是你 spide r的名字)'])

這里多說一句,運行的時候需要用 spider 的名字來運行。這個名字是在

class CnblogspiderSpider(scrapy.Spider):
    name = 'cnblogSpider'
    allowed_domains = ['cnblogs.com']
    start_urls = [
        'http://www.cnblogs.com/fnng/default.aspx?page=1'
    ]

這個地方的 name 指定的。

4. 可以將數據已指定格式輸出文件。支持以下幾種格式:

xml
csv
json
jsonlines
jl
pickle
marshal

運行時請帶上參數指定輸出格式:

scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json

-o 后面指定了輸出文件名,-t 后面指定了輸出格式。

其他:待更新......

參考來自 魚塘的魚

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容