1. 使用 'scrapy genspider project domain' 來生成 spider 文件
2. 運行 scrapy 報錯:
ImportError:
DLL load failed: 找不到指定的模塊。
解決:
拷貝 C:\Python26\Lib\site-packages\pywin32_system32\ 這個文件夾里的文件,至 C:\Windows\System32
3. 調試請使用 pycharm,通過以下方式用 pycharm 運行 scrapy:
在 scrapy.cfg 這一級目錄下新建 endpoint.py 文件,內容:
from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(這個是你 spide r的名字)'])
這里多說一句,運行的時候需要用 spider 的名字來運行。這個名字是在
class CnblogspiderSpider(scrapy.Spider):
name = 'cnblogSpider'
allowed_domains = ['cnblogs.com']
start_urls = [
'http://www.cnblogs.com/fnng/default.aspx?page=1'
]
這個地方的 name 指定的。
4. 可以將數據已指定格式輸出文件。支持以下幾種格式:
xml
csv
json
jsonlines
jl
pickle
marshal
運行時請帶上參數指定輸出格式:
scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json
-o 后面指定了輸出文件名,-t 后面指定了輸出格式。
其他:待更新......
參考來自 魚塘的魚